专题数据分析与知识发现基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究*赵一鸣1,2,3潘沛2,3,4毛进1,21(武汉大学信息资源研究中心武汉430072)2(武汉大学信息管理学院武汉430072)3(武汉大学大数据研究院武汉430072)4(武汉大学图书情报国家级实验教学示范中心武汉430072)摘要:【目的】为提高医学信息查询意图强度识别的精度并解决查询式词向量表征困难、标注数据集少等问题,设计一种基于任务知识融合与文本数据增强的医学信息查询意图强度识别方法。【方法】在文本数据增强方面,选取SimBERT模型,实现小样本数据集的文本数据增强;在文本表示方面,利用医学信息查询式文本语料对BERT模型进行增量预训练,获得融合任务知识的MQ-BERT模型;在文本分类方面,在MQ-BERT后引入Bi-LSTM等模型进行分类任务,并对比文本数据增强前后的分类效果。【结果】融合任务知识的MQ-BERT的分类结果F-Score达到92.22%,超越了阿里巴巴团队提出的MC-BERT在同一任务数据集上的最佳结果(F-Score=87.5%);文本数据增强后,模型分类效果进一步提升,其中基于MQ-BERT和Bi-LSTM的模型获得最佳分类结果,F-Score为95.34%,相比MC-BERT提升了7.84个百分点。【局限】增量预训练过程的数据选择方法在未来可以进一步优化。【结论】任务知识融合与文本数据增强能有效提高医学信息查询意图强度识别精度,针对不同强度的查询意图,应该对其查询结果采用不同的呈现方式,以提升医学信息检索系统的查询准确度,更好地满足用户的医学信息需求。关键词:医学信息查询意图强度识别文本数据增强任务知识融合BERT模型分类号:TP393G250DOI:10.11925/infotech.2096-3467.2022.0919引用本文:赵一鸣,潘沛,毛进.基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究[J].数据分析与知识发现,2023,7(2):38-47.(ZhaoYiming,PanPei,MaoJin.RecognizingIntensityofMedicalQueryIntentionsBasedonTaskKnowledgeFusionandTextDataEnhancement[J].DataAnalysisandKnowledgeDiscovery,2023,7(2):38-47.)1引言近年来,公众的在线医学信息查询行为更加频繁[1-2],在线医学信息检索系统如好大夫、丁香医生等积累了大量的医学信息查询式,这些查询式中往往蕴含着用户的查询意图,有利于帮助理解用户的需求,提升查询的效率。查询意图被定义为用户通通讯作者(Correspondingauthor):赵一鸣(ZhaoYiming),ORCID:0000-0001-8182-456X,E-mail:zhaoyiming@whu.e...