计算机与现代化JISUANJIYUXIANDAIHUA2023年第3期总第331期文章编号:1006-2475(2023)03-0084-06收稿日期:2022-07-17;修回日期:2022-08-30基金项目:重庆师范大学(人才引进/博士启动)基金资助项目(17XCB008);教育部人文社会科学研究项目(18XJC880002);重庆市教育委员会科技项目(KJQN201800539)作者简介:金独亮(1999—),男,江西丰城人,硕士研究生,研究方向:自然语言处理,E-mail:1462592402@qq.com;范永胜(1970—),男,副教授,博士,研究方向:大数据,自然语言处理,E-mail:yongsheng_fan@yeah.net;张琪(1997—),女,河南开封人,硕士研究生,研究方向:自然语言处理,E-mail:1303937543@qq.com。0引言文本摘要自动生成[1-3]是自然语言处理(NaturalLanguageProcessing,NLP)领域内的主要研究方向之一。文本摘要的意义在于通过机器学习、深度学习以及人工智能等智能技术手段对规模量较大的文本类数据进行快速地提炼、浓缩,并形成相对较短的、总结性的文本内容,帮助用户快速地理解原始文本含义,节约时间成本。在该领域内主要使用ROUGE[4](Recall-OrientedUnderstudyforGistingEvalua⁃tion)、BlEU[5](BilingualEvaluationUnderstudy)等基于N-gram重叠的自动评价指标对各个摘要模型的有效性进行自动评测。但是,这些评测方法与标准受到了部分研究学者的质疑[6]。例如,2019年Trichelair等人[7]和Mccoy等人[8]提出,摘要生成模型可能仅仅凭借学习高频样例的启发式规则或者问题与答案之间的简单词汇关联,在使用ROUGE模型评测时取得较高的分数,但实际上模型并没有学到有效的实质信息,最终导致模型在实际应用时表现不佳;Niven等人[9]发现BERT在多个评测上取得很好成绩可能只文本摘要评测方法的语义损失度金独亮,范永胜,张琪(重庆师范大学计算机与信息科学学院,重庆401331)摘要:在当前文本摘要自动生成领域,传统的ROUGE评测方法已多次被研究者发现其评测结果与人工评测结果差距过大,但该差距尚未数值化,无法丈量。基于此现状,本文采用多个不同类型、长度的公开中文摘要数据集,通过定义语义损失率计算方法来衡量ROUGE在评价时所产生的语义损失程度,同时综合考虑摘要长度以及数据集内在因素对生成摘要评价的影响,最终可视化ROUGE评测与人工评测存在误差的具体数值。实验结果表明,ROUGE评测分数与人工评测分数呈弱相关性,ROUGE方法对不同长度的数据集都存在一定程度的语义损失,...