第49卷第4期2023年4月ComputerEngineering计算机工程基于多维度异质图结构的代码注释自动生成戎珂瑶,熊贇(复旦大学计算机科学技术学院上海市数据科学重点实验室,上海200433)摘要:代码注释能够增强源代码的可读性、辅助软件开发过程,因此代码注释自动生成任务成为研究热点。然而现有工作大多只利用了源代码的序列信息或抽象语法树信息,未能充分捕捉代码语言特有的多种特征。为进一步利用源代码的多维度特征,提升注释生成的效果,构建基于多维度异质图结构的代码注释自动生成模型。利用异质图结构和图神经网络,将源代码的抽象语法树、控制流图、数据流图等进行融合并构建为具有多种节点和连边的异质表示图,以此表现代码的语义特征、序列特征、语法特征、结构特征等多维度特征。在真实数据集上的实验结果表明,该模型相较于Hybrid-DRL、NeuralCodeSum、SeqGNN等模型具有更好的效果,在BLEU-4、METEOR、ROUGE-L指标上分别最高提升1.6%、3.2%、3.1%,可获得更流畅、可读性更好的代码注释。关键词:代码注释生成;异质图;图注意力网络;神经机器翻译;多维度特征开放科学(资源服务)标志码(OSID):中文引用格式:戎珂瑶,熊贇.基于多维度异质图结构的代码注释自动生成[J].计算机工程,2023,49(4):240-248.英文引用格式:RONGKY,XIONGY.Automaticcodeannotationgenerationbasedonmulti-dimensionalheterogeneousgraphstructure[J].ComputerEngineering,2023,49(4):240-248.AutomaticCodeAnnotationGenerationBasedonMulti-dimensionalHeterogeneousGraphStructureRONGKeyao,XIONGYun(ShanghaiKeyLaboratoryofDataScience,SchoolofComputerScience,FudanUniversity,Shanghai200433,China)【Abstract】Thetaskofautomaticcodeannotationgenerationhasbecomearesearchhotspotconsideringcodeannotationscanenhancethereadabilityofsourcecodeandassistthesoftwaredevelopmentprocess.Whilesomeresearchershaveexploitedthesequenceinformationorabstractsyntaxtreeinformationofsourcecode,themultiplefeaturesspecifictothecodelanguagehavenotbeenstudied.Therefore,tofurtherexploitthemulti-dimensionalfeaturesofsourcecodeandimprovetheannotationgenerationeffect,thisstudyusesaheterogeneousgraphstructureandgraphneuralnetworktofuseandconstructtheabstractsyntaxtree,controlflowgraph,anddataflowgrap...