对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其GiniIndex值分别为0.3674和0.4357.第30页,共65页,星期日,2025年,2月5日第三步:比较四个属性的GiniIndex值如下:因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast属性OutLTempHumiWindyGiniIndex值0.27850.3750.36740.4357第31页,共65页,星期日,2025年,2月5日第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。Outlook=STempHumiWindyPlayTHHFNHHTNMHFNCNFY第32页,共65页,星期日,2025年,2月5日对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101第33页,共65页,星期日,2025年,2月5日对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第34页,共65页,星期日,2025年,2月5日因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第35页,共65页,星期日,2025年,2月5日剩下的计算类似,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第36页,共65页,星期日,2025年,2月5日六、信息增益和GiniIndex值的另一个应用考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是第37页,共65页,星期日,2025年,2月5日对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分?可以用信息增益或GiniIndex值方法。步骤如下:把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点:类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172第38页,共65页,星期日,2025年,2月5日然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用GiniIndex值方法如下:类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172对于候选点65,划分后类别统计如下类=N类=Y65(T1)10=65(T2)63第39页,共65页,星期日,2025年,2月5日类NNNYYYNNNN值60707585909