情报学报2023年2月第42卷第2期JournaloftheChinaSocietyforScientificandTechnicalInformation,Feb.2023,42(2):127-135基于微信公众号文章的失真健康信息识别方法比较与优化王雷1,宋士杰2,朱庆华1(1.南京大学信息管理学院,南京210023;2.河海大学商学院,南京211000)摘要近年来,大量失真健康信息以微信公众号文章的方式在社交平台上广为传播,严重影响了用户对健康知识的获取和利用健康信息做医疗决策的效果。为了抑制失真健康信息的传播,有必要对失真健康信息进行自动化的识别与检测。本文以科普中国、丁香医生等公众号发布的健康类文章和经过辟谣的健康类文章为样本,通过分词、去停用词、语法特征提取和文本分类等步骤对失真健康信息进行识别,并通过分类准确率、精确率、召回率、训练时间等性能指标选出效果最佳的分类器。另外,针对文本分类中“一词多义”和“多词一义”的问题,本文通过LDA(latentDirichletallocation)主题分析提取文本的语义特征,进而提出一种“语法+语义”的特征提取方法,经过实验验证,各性能指标比基于语义的特征提取方法以及以往相关模型都有了一定的提升。本文为微信公众号文章中失真健康信息的识别提出了一种新的方法和工具,有利于对失真健康信息开展进一步的监测和治理。关键词失真健康信息;语法特征;语义特征;LDA主题分析;算法评价;算法改进ComparisonandImprovementofHealthMisinformationIdentificationMethodsinWeChatOfficialAccountArticlesWangLei1,SongShijie2andZhuQinghua1(1.SchoolofInformationManagement,NanjingUniversity,Nanjing210023;2.BusinessSchool,HohaiUniversity,Nanjing211000)Abstract:Recently,theproliferationofhealthmisinformationinWeChatofficialaccountarticleshasimpactedusers’ac‐cesstohealthknowledgeanddecreasedtheirabilitytomakeinformedhealthdecisions.Tosuppressthedisseminationofhealthmisinformation,itisnecessarytostudymethodsofautomaticallyidentifyinganddetectinghealthmisinformation.Thisstudyusessamplesfromtwosources:healtharticlespublishedbyauthorityaccounts(e.g.,“ScienceChina,”“DingXiangDoctor,”andothergovernmentalaccounts)andarticlescontaininghealthmisinformationthathavebeenlabeled.Healthmisinformationisidentifiedthroughthestepsofwordsegmentation,stopwordremoval,syntaxfeatureextraction,andtextcl...