项目三数据预处理认知
任务1认知数据整理
任务导入请对上述数据进行整理,并说出某电商平台60个店铺销售方面有哪些数据特征。
—、数据整理的概念和意义(一)数据整理的概念数据整理:是指根据数据采集与处理的目的和任务,对数据采集、观察、实验等研究活动中所采集到的资料进行检验、归类编码和数字编码,使之条理化、系统化,从而以集中、简明的方式反映所研究数据采集对象特征的工作过程。
—、数据整理的概念和意义为什么要进行数据整理?数据采集所取得的原始资料或二手资料是反映数据采集对象各个单位的资料,这些资料往往是不系统的、分散的,可能有一定的局限性,因此,必须进行相应的整理。例如,从某网店平台上采集到的购买者资料,只能说明每一个人的个别情况,诸如每个人的姓名、性别、文化程度、职业、爱好等,难以构建职业、性别等与购买商品之间的关系。因此,必须通过对大量购买者的资料进行整理、分组、汇总等加工处理,才能得到数据采集对象的综合特征资料,从而了解数据采集对象的职业、性别、年龄等对购买行为的影响,实现对购买者全面系统的认识。
—、数据整理的概念和意义(二)数据整理的意义1.能够挖掘数据的特征,提高数据信息的质量,实现数据系统化、有序化。2.数据整理是检验数据质量的关键环节,也为后续的数据分析提供必要的数据形式。
二、数据整理的步骤(一)设计数据整理方案数据整理方案的主要内容一般包括:确定汇总的核心指标与综合数据处理表,确定数据分组方案,选择资料汇总形式,确定资料审查的内容与方法,以及对整理各工作环节做出时间安排和先后顺序安排等。(二)对原始资料或次级资料进行审核资料的审核是数据处理工作的第一步,为了保证数据资料的质量,在对原始资料或次级资料进行汇总之前,必须对其进行审核,以便发现向题及时纠正,只有经过认真审核后的资料才能进行汇总。
二、数据整理的步骤(三)对原始资料进行分组和汇总根据数据整理的要求,采用科学的方法对原始资料进行数据分组,在此基础上进行汇总,计算出各组的数据采集对象单位数和合计数,汇总出各组的指标数值和综合指标数值。(四)编制数据分组表或绘制数据透视图数据整理的结果,必须用一定的方式呈现出来。数据分组表和数据透视图是表现数据的两种主要方式。通过数据分组表或透视图表现数据,能够简洁、清晰的反映数据特征,便于数据运用。
三、数据的审核(一)数据审核的内容1.数据的真实性审核资料的真实性审核主要是审核资料来源的客观性问题,数据资料来源必须是客观的。数据准确性审核的方法主要是逻辑审核和计算审核,把那些违背常理的、前后矛盾的资料舍去,对于不准确或有疑问的数据,要仔细核对,并加以纠正。
三、数据的审核(一)数据审核的内容2.资料的准确性审核准确的审核要着重检查那些含糊不清的、笼笼统统的以及互相矛盾的资料。3.数据的及时性审核对数据及时性的审核就是检查数据是否符合时效性的要求。4.数据的完整性审核对数据完整性的审核,主要是看被采集单位有无遗漏,各项数值的填写是否齐全,项目是否完备等。对于有漏报的项目应补齐,否则影响整个数据整理工作的进行,进而影响整个数据处理工作。
三、数据的审核(二)审核应注意的问题在审核中,如发现问题可以分不同的情况予以处理:1.对于在数据采集中已发现并经过认真核实后确认的错误,可以由采集者代为更正。2.对于资料中可疑之处或有错误与出入的地方,应进行补充调查。3.无法进行补充采集的应坚决剔除那些有错误的资料,以保证资料的真实准确。
三、数据的审核(三)初级数据存在的问题通过各种渠道采集来的数据,常常出现缺失、异常、冗余、不一致的现象,并不能直接为数据分析所用。此外,一些成熟的数据分析模型对处理的数据有要求,比如一定的数据类型、统一的数据量纲以及数据冗余性要求、属性的相关性要求等。因此,必须对原始数据进行处理才能进行分析。具体来说,原始数据主要存在以下几个问题:
三、数据的审核(三)初级数据存在的问题1.重复数据。重复数据是指在数据表中唯一标识记录的字段出现多次的数据。2.缺失数据。缺失数据是指在实践过程中因没有能够获取观测对象的相关信息而不完整的数据。例如,在抽样数据采集中,被数据采集对象拒绝提供相关信息;又如某些实验中,因各种原因没能获取实验数据,或者数据录入、存储过程中的人为失误和系统软硬件问题,都有可能造成数据缺失。缺失数据会影响分析结果的可信度,甚至使分析结果出现严重偏差。
三、数据的审核(三)初级数据存在的问题3.异常值。异常值是指所获得的数据中与平均值的偏差超过两倍标准差的数据,也称为离群点。例如,录入数据时误将90录入为900,那么当数据均为100左右的数据时,900就会被识别为异常值。异常值的存在会严重影响数据分析的结果,例如使平均值偏高或偏低,使方差增大,影响数据模型的拟合优度等。此外,若异常值不是错