第六章Logistic回归与最大熵模型回顾•KNN•决策树•贝叶斯分类器•是否有一种算法•二分类、多类•输出连续值•预测•优化算法----回归面积(m^2)销售价钱(万元)12325015032087160102220……回归•回归:广义线性模型(generalizedlinearmodel)•分类:根据因变量的不同•连续:多重线性回归•二项分布:logistic回归•poisson分布:poisson回归•负二项分布:负二项回归回归•Logisticdistribution•设X是连续随机变量,X服从Logisticdistribution,•分布函数:•密度函数:•μ为位置参数,γ大于0为形状参数,(μ,1/2)中心对称逻辑斯蒂分布•Sigmoid:•双曲正切函数(tanh)Sigmoidfunction:defsigmoid(inX):return1.0/(1+exp(-inX))•Binomiallogisticregressionmodel•由条件概率P(Y|X)表示的分类模型•形式化为logisticdistribution•X取实数,Y取值1,0二项逻辑斯蒂回归•事件的几率odds:事件发生与事件不发生的概率之比为•称为事件的发生比(theoddsofexperiencinganevent),•对数几率:•对逻辑斯蒂回归:二项逻辑斯蒂回归•logistic分类器是由一组权值系数组成的,最关键的问题就是如何获取这组权值,通过极大似然函数估计获得,并且Y~f(x;w)•似然函数是统计模型中参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)•似然函数的重要性不是它的取值,而是当参数变化时概率密度函数到底是变大还是变小。•极大似然函数:似然函数取得最大值表示相应的参数能够使得统计模型最为合理似然函数•那么对于上述m个观测事件,设•其联合概率密度函数,即似然函数为:•目标:求出使这一似然函数的值最大的参数估,w1,w2,…,wn,使得L(w)取得最大值。•对L(w)取对数:似然函数•对数似然函数•对L(w)求极大值,得到w的估计值。•通常采用梯度下降法及拟牛顿法,学到的模型:模型参数估计•设Y的取值集合为•多项logistic回归模型多项logistic回归•最大熵模型(MaximumEntropyModel)由最大熵原理推导实现。•最大熵原理:•学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,表述为在满足约束条件的模型集合中选取熵最大的模型。•假设离散随机变量X的概率分布是P(X),•熵:•且:•|X|是X的取值个数,X均匀分布时右边等号成立。最大熵模型•假设随机变量X有5个取值{A,B,C,D,E},估计各个值的概率。•解:满足•等概率估计:•加入一些先验:•于是...