一、特征工程结构化数据(表)and非结构化数据(文本、视频)1.特征归一化a.Min-Max归一化b.零均值归一化作用:a.消除量纲影响b.提升收敛速度,使不同特征对应参数更新速度变得一致,容易更快通过梯度下降获得最优解。Ps:适用于——线性回归、逻辑回归、SVM、神经网络等需要通过梯度下降来实现的算法。不适用与——决策树,forexampleC4.5计算信息增益率时跟特征是否归一化没有关系。2.属性特征处理a.序号编码——保留大小关系b.One-hot——产生稀疏数据,可以配合特征选择来降低维度c.二进制编码3.特征组合a.提高复杂关系的拟合能力,一阶特征两两组合,构造高阶特征——容易过拟合b.如何构造有效特征——利用决策树(GBDT)构造,从根节点到叶子节点可以看成是一个特征组合方式。4.文本表示a.词袋(忽略顺序,TF-IDF=TF*IDF)andN-gram(连续的N个词表示一个东西)b.Embeddingc.Word2Vec——(CBOWandSkip-gram)CBOW:根据上下文预测当前词的生成概率Skip-gram:根据当前词预测上下文中各个词的概率输入层,映射层(拼接),输出层5.图像数据不足处理数据不足,过拟合a.简化模型,正则化缩小假设空间,集成学习,Dropoutb.数据扩充(图片旋转、平移,裁减…,颜色变化等),GAN二、模型评估1.指标a)准确率Accuracy:b)精确率P:分类正确的正样本/分类器分类的正样本c)召回率Recall:分类正确的正样本/真正正确的正样本d)P-R曲线:对模型进行全面评估e)F1-score:f)平方根RMSE:如果存在个别偏离很大的离群点时,即使点的数量很少,RMSE会很大g)FPN(假阴性率):,FP负样本中被预测为正的数量h)TPR(真阳性率):,TP正样本中被分为正的数量i)ROC曲线:FPR-TPRj)AUC:ROC下的面积k)P-R和ROC的区别:i.当正负样本比例发生改变时,ROC曲线形状基本不变,P-R发生剧烈变化。ii.ROC能够降低不同测试集带来的影响,对于正负样本分布很不均匀的情况,采用不同的测试集,P-R变化明显,而ROC能够很好的反映模型本身的好坏。iii.如果研究者希望看到特定数据集上的表示,P-R能够直观的查看性能。2.Cos距离a)欧式距离体现数值上的绝对差距,余弦距离反映方向差距。b)两部剧的观看行为(1,0)(0,1)cos差距大,欧氏距离差距小,选cos.;活跃度:(1,10)(10,100),选欧式c)曼哈顿距离——3.模型评估方法a.Holdout留出法:25%and75%b.K-Fold交叉验证c.自助法:有放回n次抽样,有1/e没被抽到,36.8%4.超参数调优a.网格搜索b.随机搜索——收敛c.贝叶斯搜索5.过拟合与欠拟合a....