研究与开发融合混合嵌入与关系标签嵌入的三元组联合抽取方法戴剑锋,陈星妤,董黎刚,蒋献(浙江工商大学,浙江杭州310018)摘要:三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的DuIE数据集上进行了对比实验,相较于表现最好的基线模型(CasRel),HEPA的F1值提升了2.8%。关键词:三元组抽取;关系嵌入;BERT;注意力机制;指针标注中图分类号:TP393文献标志码:Adoi:10.11959/j.issn.1000-0801.2023021AtriplejointextractionmethodcombininghybridembeddingandrelationallabelembeddingDAIJianfeng,CHENXingyu,DONGLigang,JIANGXianZhejiangGongshangUniversity,Hangzhou310018,ChinaAbstract:Thepurposeoftripleextractionistoobtainrelationshipsbetweenentitiesfromunstructuredtextandapplythemtodownstreamtasks.Theembeddingmechanismhasagreatimpactontheperformanceofthetripleextractionmodel,andtheembeddingvectorshouldcontainrichsemanticinformationthatiscloselyrelatedtotherelationshipextractiontask.InChinesedatasets,theinformationcontainedbetweenwordsisverydifferent,andinordertoavoidthelossofsemanticinformationproblemsgeneratedbywordseparationerrors,atriplejointextractionmethodcom-bininghybridembeddingandrelationallabelembedding(HEPA)wasdesigned,andahybridembeddingmeansthatcombinesletterembeddingandwordembeddingwasproposedtoreducetheerrorsgeneratedbywordseparationer-rors.Arelationalembeddingmechanismthatfusestextandrelationallabelswasadded,andanattentionmechanism收稿日期:2022-07-12;修回日期:2023-01-20通信作者:董黎刚,donglg@zjgsu.edu.cn基金项目:国家社会科学基金资助项目(No.17...