基于BERT模型的勘探开发资料关键信息智能提取_李新锋.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 2.52 MB
约3页
2023-06-27
收藏
评论
点赞(0)
海报
举报

工艺管控146|2023年05月1基于BERT模型的关键信息提取BERT预训练语言模型是一种基于Transformer结构的预训练网络[1]。根据给定的输入文本，学习利用上下文给出词嵌入表示，分别计算关键向量、查询向量和值向量，融合使用注意力机制，获得当前输入文本与上下文语义的关系及其业务信息和含义，使用多头注意力机制，动态生成词向量，不断获取更符合实际的向量表示。1.1提取流程本文将勘探开发成果资料关键信息抽取的分析过程看作是文本分类任务，对文本预处理、分词、模型构建和分类，结合BERT预训练语言模型实现关键信息提炼抽取。本文模型框架如图1所示。主要包含三个部分：(1)数据输入层：为了分词准确，对数据预处理过滤，在分词后停用词处理。根据资料特性，将文本划分为头部、主体和尾部三个结构，对每个结构模块分别处理；(2)模型构建层：利用海油基于BERT模型的勘探开发资料关键信息智能提取李新锋，黄凌宇，崔立敏，倪子颜(中海石油(中国)有限公司深圳分公司，广东深圳518000)摘要：海上油气勘探开发工作会产生大量文档、图件等成果资料和相关信息。文章提出基于BERT预训练语言模型对此类资料数据预训练，生成具有上下文特征的词嵌入向量作为模型输入，利用数据增强和TF-IDF(词频-逆文件频率)技术来提取特征词，并分析模型预测结果，结合业务数据实现准确率达85%以上的勘探开发成果资料自动分类及关键信息提取。相较于传统浅层深度学习方法训练出的词与向量单一对应关系和静态词编码方式，实现了对勘探开发词汇一词多义处理和特定任务动态优化。关键词：勘探开发资料；自然语言处理；预训练语言模型；关键信息提取；双向Transformers表示中图分类号：TE19文献标志码：A文章编号：1008-4800(2023)14-0146-03DOI:10.19900/j.cnki.ISSN1008-4800.2023.14.043IntelligentExtractionofKeyInformationfromExplorationandProductionDatabasedonBERTModelLIXin-feng,HUANGLing-yu,CUILi-min,NIZi-yan(ShenzhenBranch,CNOOCChinaCo.,Ltd.,Shenzhen518000,China)Abstract:OffshoreOilandgasexplorationandproductionwillproducealargenumberofdocuments,mapsandotherresults.Thispaperproposestopre-trainsuchdatabasedontheBERTpre-traininglanguagemodel,generatewordembeddingvectorswithcontextfeaturesasmodelinput,extractfeaturewordsusingdataenhancementandTF-IDF(wordfrequency-inversefilefrequency)technology,andanalyzethemodelprediction...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容