分析方法与过程数据预处理方法:数据清洗属性归约数据变换分析方法与过程数据预处理——数据清洗通过对数据观察发现原始数据中存在票价为空值,票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成。其他的数据可能是客户乘坐0折机票或者积分兑换造成。由于原始数据量大,这类数据所占比例较小,对于问题影响不大,因此对其进行丢弃处理。同时,数据探索时发现部分年龄大于100记录,也进行丢弃处理,具体处理方法如下。(1)丢弃票价为空的记录。(2)保留票价不为0的,或者平均折扣率不为0且总飞行公里数大于0的记录。(3)丢弃年龄大于100的记录。使用pandas对满足清洗条件的数据进行丢弃,处理方法为满足清洗条件的一行数据全部丢弃。分析方法与过程数据预处理——属性归约通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的模型是RFM模型。RFM模型介绍R(Recency)指的是最近一次消费时间与截止时间的间隔。通常情况下,最近一次消费时间与截止时间的间隔越短,对即时提供的商品或是服务也最有可能感兴趣。F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客,其忠诚度也就越高,顾客价值也就越大。M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。分析方法与过程数据预处理——属性归约RFM模型结果解读RFM模型包括3个特征,无法用平面坐标系来展示,所以这里使用三维坐标系进行展示,如图711所示,x轴表示R特征(Recency),y轴表示F特征(Frequency),z轴表示M指标(Monetary)。每个轴一般会用5级表示程度,1为最小,5为最大。分析方法与过程数据预处理——属性归约航空客户价值分析的LRFMC模型在RFM模型中,消费金额表示在一段时间内,客户购买该企业产品金额的总和。由于航空票价受到运输距离,舱位等级等多种因素影响,同样消费金额的不同旅客对航空公司的价值是不同的,比如一位购买长航线,低等级舱位票的旅客与一位购买短航线,高等级舱位票的旅客相比,后者对于航空公司而言价值可能更高。因此这个特征并不适合用于航空公司的客户价值分析。分析方法与过程数据预处理——属性归约航空客户价值分析的LRFMC模型客户关系长度L,消费时间间隔R,消费频率F,飞行里程M和折扣系数的平均值C五个特征作为航空公司识别客户价值特征,如下表所示,记为LRFMC模型。模型LRFMC航空公司LRFMC模型会员入会时间距观测窗口结束的月数客户最近一次乘坐公司飞机距观测窗口结束的月数客户在观测窗口内乘坐公司飞机的次数客户在观测窗口内累计的飞行里程客户在观测窗口内乘坐舱位所对应的折扣系数的平均值分析方法与过程数据预处理——属性归约航空客户价值分析的LRFMC模型原始数据中属性太多,根据航空公司客户价值LRFMC模型,选择与LRFMC指标相关的六个属性:FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END。删除与其不相关、弱相关或冗余的属性,属性选择后的数据集如下表。FFP_DATELOAD_TIMELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMavg_discount2006/11/22014/3/3112105807170.9616392007/2/192014/3/3171402936781.2523142007/2/12014/3/31111352837121.2546762008/8/222014/3/3197232813361.0908702009/4/102014/3/3151523099280.970658………………分析方法与过程数据预处理——数据变换数据变换是将数据转换成“适当的”格式,以适应挖掘任务及算法的需要。主要采用的数据变换方式:属性构造数据标准化分析方法与过程数据预处理——数据变换由于原始数据中并没有直接给出LRFMC五个指标,需要通过原始数据提取这五个指标。会员入会时间距观测窗口结束的月数L=会员入会时长客户最近一次乘坐公司飞机距观测窗口结束的月数R=最后一次乘机时间至观察窗口末端时长(单位:月)客户在观测窗口内乘坐公司飞机的次数F=观测窗口的飞行次数(单位:次)分析方法与过程数据预处理——数据变换客户在观测时间内