第49卷第2期2023年2月ComputerEngineering计算机工程基于域内特征间相似性的点击率预估优化雷李想1,2,武志昊1,2,4,刘钰1,2,4,周子站3,4(1.北京交通大学计算机与信息技术学院,北京100044;2.北京交通大学网络科学与智能系统研究所,北京100044;3.中国民航信息网络股份有限公司,北京101318;4.民航旅客服务智能化应用技术重点实验室,北京101318)摘要:基于深度学习的点击率预估模型多数通过建模各个域的特征之间的交互关系提升预估准确率。特征嵌入向量对模型效果具有重要影响,而现有的CTR模型中不同特征的嵌入向量学习过程相互独立,且由于特征长尾分布导致大部分低频特征不能学习到较好的向量表示,严重影响模型的预测效果。基于域内特征间存在隐含的相似性,提出两种分别基于特征间共现概率和游走概率的相似度定义和对应的相似性图构建方法,并给出结合剪枝策略的广度优先遍历算法实现相似特征的高效计算。在此基础上,基于域内特征相似性图,设计一种嵌入生成器,对于低频特征,在域内特征相似性图上通过图神经网络聚合与其相似的特征信息,生成新的特征嵌入,作为预处理过程对特征嵌入向量进行数据增强,提升嵌入向量的表示学习质量。在公开数据集Criteo、Avazu上的实验结果表明,该方法明显提升点击率预估模型的预测准确率,其中对代表性点击率预估模型xDeepFM和AutoInt,AUC指标分别提升了0.007和0.008,LogLoss则下降了0.009和0.006,证明了嵌入生成模型的有效性。关键词:点击率预估;稀疏特征;特征嵌入;特征相似性;图神经网络开放科学(资源服务)标志码(OSID):中文引用格式:雷李想,武志昊,刘钰,等.基于域内特征间相似性的点击率预估优化[J].计算机工程,2023,49(2):238-245.英文引用格式:LEILX,WUZH,LIUY,etal.Click-throughratepredictionandoptimizationbasedonintra-fieldfeaturessimilarity[J].ComputerEngineering,2023,49(2):238-245.Click-ThroughRatePredictionandOptimizationBasedonIntra-FieldFeaturesSimilarityLEILixiang1,2,WUZhihao1,2,4,LIUYu1,2,4,ZHOUZizhan3,4(1.SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China;2.InstituteofNetworkScienceandIntelligentSystem,BeijingJiaotongUniversity,Beijing100044,China;3.TravelSkyTechnologyLimited,Beijing101318,China;4.KeyLaboratoryofIntelligentApplicat...