决策树和随机森林陆家嘴学堂邹博2/91陆家嘴学堂Python机器学习与深度学习目标任务与主要内容复习信息熵熵、联合熵、条件熵、互信息决策树学习算法信息增益ID3、C4.5、CARTBagging与随机森林3/91陆家嘴学堂Python机器学习与深度学习CART输入数据x:M个样本数据,每个数据包括年龄、性别、职业、每日使用计算机时间等输出y:该样本是否喜欢计算机游戏4/91陆家嘴学堂Python机器学习与深度学习随机森林5/91陆家嘴学堂Python机器学习与深度学习决策树:Level6/91陆家嘴学堂Python机器学习与深度学习决策树7/91陆家嘴学堂Python机器学习与深度学习定义信息量原则:某事件发生的概率小,则该事件的信息量大。如果两个事件X和Y独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为h(X)和h(Y),则二者同时发生的信息量应该为h(XY)=h(X)+h(Y)。定义随机变量X的概率分布为p(x),从而定义X信息量:思考:事件X的信息量的期望如何计算呢?)(log2xpxh8/91陆家嘴学堂Python机器学习与深度学习熵对随机事件的信息量求期望,得熵的定义:注:经典熵的定义,底数是2,单位是bit本例中,为分析方便使用底数e若底数是e,单位是nat(奈特)XxxpxpXHln9/91陆家嘴学堂Python机器学习与深度学习两点分布的熵两点分布的熵ppppxpxpXHXx1ln1lnln10/91陆家嘴学堂Python机器学习与深度学习继续思考:三点分布呢?212122111ln1lnlnlnppppppppxpxpXHXx11/91陆家嘴学堂Python机器学习与深度学习公式推导1ln!lnNNNNkiiikiiikiiikiiiikiiikiiikiiikiikiippNnNnNnnNNnnnNNNnnNnnNNnnNNnNNNnNNH111111111lnlnln1lnln1lnln1ln1ln1ln11ln!ln1!ln1!!ln112/91陆家嘴学堂Python机器学习与深度学习自封闭系统的运动总是倒向均匀分布13/91陆家嘴学堂Python机器学习与深度学习均匀分布的信息熵以离散分布为例:假定某离散分布可取N个值,概率都是1/N,计算该概率分布的熵。解:概率分布律计算熵:思考:连续均匀分布的熵如何计算?NiNpi,,2,1,1NiNiNiiiNNNNNpppH111lnln11ln1ln14/91陆家嘴学堂Python机器学习与深度学习...