基于融合矩阵的文本相似度计算实现检索结果聚类赵悦阳1崔雷2(1中国医科大学附属盛京医院图书馆沈阳1100042中国医科大学医学健康管理学院沈阳110122)〔摘要〕目的/意义弥补医学文本语义表示方面的不足,实现PubMed数据库检索结果聚类。方法/过程采用Jaccard系数和TF-IDF构建融合矩阵方法,建立短语间、文档间、短语与文档内容间的相似性关系融合矩阵,训练聚类算法,将PubMed数据库检索结果集合分组,随后生成类别标签,描述每一类簇文档的含义。结果/结论基于融合矩阵的聚类效果较好,提取出描述类别的高频词能很好地区分类别含义,对检索结果文本聚类任务有效。〔关键词〕文献检索;文本聚类;融合矩阵;文本相似度〔中图分类号〕R-058〔文献标识码〕A〔DOI〕103969/jissn1673-6036202403010AFusionMatrix-basedStudyonTextClusteringofDocumentRetrievalResultsZHAOYueyang1,CUILei21LibraryofShengjingHospitalofChinaMedicalUniversity,Shenyang110004,China;2SchoolofHealthManagement,ChinaMedicalUniversity,Shenyang110122,China〔Abstract〕Purpose/SignificanceTosolvethedeficienciesinthesemanticrepresentationofmedicaltexts,andtorealizetheclusteringoftheretrievalresultsofthePubMeddatabaseMethod/ProcessThepaperproposesamethodtoconstructafusionmatrixbyusingtheJaccardcoefficientandTF-IDFSimilarityrelationsbetweenphrases,documents,andthecontentsofphrasesanddocumentsarecombinedtoconstructafusionmatrix,andseveralclusteringalg...