总第74期2023年第2期DataAnalysisandKnowledgeDiscovery一种面向海量科技文献数据的大规模知识图谱构建方法*杜悦1,2常志军1,2董美1,2钱力1,2王颖11(中国科学院文献情报中心北京100190)2(中国科学院大学经济与管理学院信息资源管理系北京100190)摘要:【目的】解决传统三元组式知识图谱表示方法面对科技文献数据变动导致的数据一致性问题,构建满足科技信息服务需求的大规模科研知识图谱。【方法】提出隐式知识图谱构建方法,通过实体特征字段和隐式关系概念配合实体特征字段的识别工具和隐式关系的发现工具,实现对实体的持续更新和对实体关系的自动关联发现。【结果】本文方法已在PB级科技文献大数据平台实践应用,处理由于实体数据变化引起的修改时,隐式知识图谱只需更改实体数据而无需对关系数据进行修改;检索性能优越,通过预定义的接口检索机构所有学者的平均耗时缩减至三元组式知识图谱的百分之一。【局限】对于不符合隐式关系数据结构的情况很难固化,实体数据必须存储在具有搜索引擎的技术集群中。【结论】本文提出的隐式知识图谱构建方法很好地解决了由于实体信息变动引发的数据一致性问题,适用于大规模科研知识图谱的构建,有助于科技知识的高效管理和传播利用。关键词:知识图谱数据一致性科技大数据分类号:TP391G350DOI:10.11925/infotech.2096-3467.2022.0328引用本文:杜悦,常志军,董美等.一种面向海量科技文献数据的大规模知识图谱构建方法[J].数据分析与知识发现,2023,7(2):141-150.(DuYue,ChangZhijun,DongMei,etal.ConstructingLarge-scaleKnowledgeGraphforMassiveSci-TechLiterature[J].DataAnalysisandKnowledgeDiscovery,2023,7(2):141-150.)1引言科技文献的爆炸式增长使得科研人员在短期内获得相关领域文献变得愈加困难,保障文献获取的及时性和有效性对传统的知识获取方式提出了更高要求。知识图谱可以从基础的数据中抽象出实体的概念,并对实体之间的关系进行存储,将原本非结构化、无关联的粗糙数据逐炼为结构化、强关联的高质量的知识,准确揭示科技文献各要素的相关信息,逐渐成为学术大数据时代新的基础设施及知识组织形式[1]。基于知识图谱的文献知识服务,在精准度、专业性和时效性等方面都有更高的要求,而科技文献的快速增长、实体的规范和变化引起大规模实体和关系数据的联动更新,传统三元组式表示方法在知识图谱管理中存在数据一致性问题,即关系数据没有得到全量、正确的修改、删除、添加等。...