收稿日期:2023-03-27∗本文系国家自然科学基金项目“基于本体学习与本体映射的组织异构数据融合方法研究”(项目编号:71771054)和国家自然科学基金项目“虚拟健康社区信息可信度评价模型及智能推荐研究”(项目编号:72171090)成果之一。作者简介:潘思铭(1999—),女,2020级硕士研究生,研究方向为数据挖掘;巫邵诚(1997—),男,2021级博士研究生,研究方向为跨语言文本分析。基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究∗潘思铭巫邵诚(福州大学经济与管理学院福建福州350108)摘要:[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(WordRotator'sDistance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(SemanticFeatureSentenceVectors’Distance,SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。关键词:跨语言;文本聚类;文本相似度;汉语;俄语中图分类号:TP391.1文献标识码:Adoi:10.3969/j.issn.1005-8095.2023.07.001Chinese-RussianCross-lingualTextClusteringBasedonSemanticFeatureSentenceVectorsDistancePanSimingWuShaocheng(SchoolofEconomicsandManagement,FuzhouUniversity,FuzhouFujian350108)Abstract:[Purpose/significance]Thispaperaimstoprovidereferencesforcross-languagetextclusteringresearch.[Method/process]Firstly,itdeterminesthefeatures...