HanNER：一个面向汉语...命名实体自动抽取的通用框架_严承希.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 2.53 MB
约14页
2023-05-03
收藏
评论
点赞(0)
海报
举报

HanNER：一个面向汉语...命名实体自动抽取的通用框架_严承希.pdf_第1页

HanNER：一个面向汉语...命名实体自动抽取的通用框架_严承希.pdf_第2页

HanNER：一个面向汉语...命名实体自动抽取的通用框架_严承希.pdf_第3页

/14

情报学报2023年2月第42卷第2期JournaloftheChinaSocietyforScientificandTechnicalInformation,Feb.2023,42(2):203-216HanNER：一个面向汉语古籍语料命名实体自动抽取的通用框架严承希1，2，唐雪梅3，4，杨浩4，苏祺4，5，王军3，4（1.中国人民大学信息资源管理学院，北京100872；2.中国人民大学数字人文研究中心，北京100872；3.北京大学信息管理系，北京100871；4.北京大学数字人文研究中心，北京100871；5.北京大学外国语学院，北京100871）摘要古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一，面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决，包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER，包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势，包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后，本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展，而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。关键词汉语古籍；实体抽取；深度主动学习；交互式标注；标签自动汇聚HanNER:AGeneralFrameworkfortheAutomaticExtractionofNamedEntitiesinAncientChineseCorporaYanChengxi1,2,TangXuemei3,4,YangHao4,SuQi4,5andWangJun3,4(1.SchoolofInformationResourceManagement,RenminUniversityofChina,Beijing100872;2.ResearchCenterforDigitalHumanities,RenminUniversityofChina,Beijing100872;3.DepartmentofInformationManagement,PekingUniversity,Beijing100871;4.ResearchCenterforDigitalHumanities,PekingUniversity,Beijing100871;5.SchoolofForeignLanguages,PekingUniversity,Beijing100871)Abstract：ThedigitizationofancientChinesetextsisfundamentalforpromotingthedevelopmentofancientChinesebookdatabasesandutilizingrelevantresources.Asacriticaltechnicalaspect,theautomatic...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容