决策树系列(一)——基础知识回顾与总结1.决策树的定义树想必大家都会比较熟悉,是由节点和边两种元素组成的结构。理解树,就需要理解几个关键词:根节点、父节点、子节点和叶子节点。父节点和子节点是相对的,说白了子节点由父节点根据某一规则分裂而来,然后子节点作为新的父亲节点继续分裂,直至不能分裂为止。而根节点是没有父节点的节点,即初始分裂节点,叶子节点是没有子节点的节点,如下图所示:图1.1树的结构示意图决策树利用如上图所示的树结构进行决策,每一个非叶子节点是一个判断条件,每一个叶子节点是结论。从跟节点开始,经过多次判断得出结论。2.决策树如何做决策从一个分类例子说起:银行希望能够通过一个人的信息(包括职业、年龄、收入、学历)去判断他是否有贷款的意向,从而更有针对性地完成工作。下表是银行现在能够掌握的信息,我们的目标是通过对下面的数据进行分析建立一个预测用户贷款一下的模型。表2.1银行用户信息表职业年龄收入学历是否贷款自由职业285000高中是工人365500高中否工人422800初中是白领453300小学是白领2510000本科是白领328000硕士否白领2813000博士是自由职业214000本科否自由职业223200小学否工人333000高中否工人484200小学否(注:上表中的数据都由本人捏造,不具有任何实际的意义)上边中有4个客户的属性,如何综合利用这些属性去判断用户的贷款意向?决策树的做法是每次选择一个属性进行判断,如果不能得出结论,继续选择其他属性进行判断,直到能够“肯定地”判断出用户的类型或者是上述属性都已经使用完毕。比如说我们要判断一个客户的贷款意向,我们可以先根据客户的职业进行判断,如果不能得出结论,再根据年龄作判断,这样以此类推,直到可以得出结论为止。决策树用树结构实现上述的判断流程,如图2.1所示:图2.1银行贷款意向分析决策树示意图通过图2.1的训练数据,我们可以建议图2.1所示的决策树,其输入是用户的信息,输出是用户的贷款意向。如果要判断某一客户是否有贷款的意向,直接根据用户的职业、收入、年龄以及学历就可以分析得出用户的类型。如某客户的信息为:{职业、年龄,收入,学历}={工人、39,1800,小学},将信息输入上述决策树,可以得到下列的分析步骤和结论。第一步:根据该客户的职业进行判断,选择“工人”分支;第二步:根据客户的年龄进行选择,选择年龄”<=40”这一分支;第三步:根据客户的学历进行选择,选择”小学”这一分支,得出该客户无贷款意向的结论。3...