工艺管控146|2023年05月1基于BERT模型的关键信息提取BERT预训练语言模型是一种基于Transformer结构的预训练网络[1]。根据给定的输入文本,学习利用上下文给出词嵌入表示,分别计算关键向量、查询向量和值向量,融合使用注意力机制,获得当前输入文本与上下文语义的关系及其业务信息和含义,使用多头注意力机制,动态生成词向量,不断获取更符合实际的向量表示。1.1提取流程本文将勘探开发成果资料关键信息抽取的分析过程看作是文本分类任务,对文本预处理、分词、模型构建和分类,结合BERT预训练语言模型实现关键信息提炼抽取。本文模型框架如图1所示。主要包含三个部分:(1)数据输入层:为了分词准确,对数据预处理过滤,在分词后停用词处理。根据资料特性,将文本划分为头部、主体和尾部三个结构,对每个结构模块分别处理;(2)模型构建层:利用海油基于BERT模型的勘探开发资料关键信息智能提取李新锋,黄凌宇,崔立敏,倪子颜(中海石油(中国)有限公司深圳分公司,广东深圳518000)摘要:海上油气勘探开发工作会产生大量文档、图件等成果资料和相关信息。文章提出基于BERT预训练语言模型对此类资料数据预训练,生成具有上下文特征的词嵌入向量作为模型输入,利用数据增强和TF-IDF(词频-逆文件频率)技术来提取特征词,并分析模型预测结果,结合业务数据实现准确率达85%以上的勘探开发成果资料自动分类及关键信息提取。相较于传统浅层深度学习方法训练出的词与向量单一对应关系和静态词编码方式,实现了对勘探开发词汇一词多义处理和特定任务动态优化。关键词:勘探开发资料;自然语言处理;预训练语言模型;关键信息提取;双向Transformers表示中图分类号:TE19文献标志码:A文章编号:1008-4800(2023)14-0146-03DOI:10.19900/j.cnki.ISSN1008-4800.2023.14.043IntelligentExtractionofKeyInformationfromExplorationandProductionDatabasedonBERTModelLIXin-feng,HUANGLing-yu,CUILi-min,NIZi-yan(ShenzhenBranch,CNOOCChinaCo.,Ltd.,Shenzhen518000,China)Abstract:OffshoreOilandgasexplorationandproductionwillproducealargenumberofdocuments,mapsandotherresults.Thispaperproposestopre-trainsuchdatabasedontheBERTpre-traininglanguagemodel,generatewordembeddingvectorswithcontextfeaturesasmodelinput,extractfeaturewordsusingdataenhancementandTF-IDF(wordfrequency-inversefilefrequency)technology,andanalyzethemodelprediction...