2023-05-10计算机应用,JournalofComputerApplications2023,43(5):1365-1371ISSN1001-9081CODENJYIIDUhttp://www.joca.cnJ-SGPGN:基于序列与图的联合学习复述生成网络侯志荣1,2*,范晓东1,张华1,马晓楠1(1.工银科技有限公司,北京100029;2.北京大学软件与微电子学院,北京102600)(∗通信作者电子邮箱hou.zhirong@pku.edu.cn)摘要:复述生成是一种基于自然语言生成(NLG)的文本数据增强方法。针对基于Seq2Seq(Sequence-to-Sequence)框架的复述生成方法中出现的生成重复、语意错误及多样性差的问题,提出一种基于序列与图的联合学习复述生成网络(J-SGPGN)。J-SGPGN的编码器融合了图编码和序列编码进行特征增强,而解码器中则设计了序列生成和图生成两种解码方式并行解码;然后采用联合学习方法训练模型,旨在兼顾句法监督与语义监督以同步提升生成的准确性和多样性。在Quora数据集上的实验结果表明,J-SGPGN的生成准确性指标METEOR(MetricforEvaluationofTranslationwithExplicitORdering)较准确性最优基线模型——RNN+GCN提升了3.44个百分点,生成多样性指标Self-BLEU(Self-BiLingualEvaluationUnderstudy)较多样性最优基线模型——多轮回译复述生成(BTmPG)模型降低了12.79个百分点。J-SGPGN能够生成语义更准确、表达方式更多样的复述文本。关键词:复述生成;编码器-解码器;自注意力网络;序列生成;图生成;联合学习中图分类号:TP181;TP391文献标志码:AJ-SGPGN:paraphrasegenerationnetworkbasedonjointlearningofsequenceandgraphHOUZhirong1,2*,FANXiaodong1,ZHANGHua1,MAXiaonan1(1.ICBCTechnologyCompanyLimited,Beijing100029,China;2.SchoolofSoftwareandMicroelectronics,PekingUniversity,Beijing102600,China)Abstract:ParaphrasegenerationisatextdataargumentationmethodbasedonNaturalLanguageGeneration(NLG).Concerningtheproblemsofrepetitivegeneration,semanticerrorsandpoordiversityinparaphrasegenerationmethodsbasedontheSequence-to-Sequence(Seq2Seq)framework,aParaphraseGenerationNetworkbasedonJointlearningofSequenceandGraph(J-SGPGN)wasproposed.GraphencodingandsequenceencodingwerefusedintheencoderofJ-SGPGNforfeatureenhancement,andtwodecodingmethodsincludingsequencegenerationandgraphgenerationweredesignedinthedecoderofJ-SGPGNforparalleldecoding...