分享
NLP和推理引擎下电力基建现场风险区段识别_钱朝军.pdf
下载文档

ID:198818

大小:459.85KB

页数:6页

格式:PDF

时间:2023-03-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
NLP 推理 引擎 电力 基建 现场 风险 区段 识别 钱朝军
2023 年 无线电工程 第 53 卷 第 1 期155doi:103969/jissn10033106202301020引用格式:钱朝军,李俊,宗震,等NLP 和推理引擎下电力基建现场风险区段识别J 无线电工程,2023,53(1):155160 QIAN Chaojun,LI Jun,ZONG Zhen,et alisk Section Identification of Electric Power Construction Site Based on NLP and easoningEngine J adio Engineering,2023,53(1):155160NLP 和推理引擎下电力基建现场风险区段识别钱朝军1,李俊1,宗震1,张龙1,邬桐2,3(1 国网安徽省电力有限公司建设分公司,安徽 合肥 230071;2 东北大学 信息科学与工程学院,辽宁 沈阳 110819;3 国网辽宁省电力有限公司经济技术研究院,辽宁 沈阳 110015)摘要:为识别电力基建现场风险区段,降低电力基建现场风险,提出了基于自然语言处理(Natural LanguageProcessing,NLP)和推理引擎的电力基建现场风险区段识别方法。利用 NLP 技术深入挖掘电力基建现场报告文本,通过分词技术分析报告内相关内容,采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法统计现场报告内容词频,获取文本报告特征。将高权重特征项输入推理引擎内,利用推理引擎确定匹配度最高的事例,通过模拟退火思想优化推理引擎机制,实现电力基建现场风险区段识别。实验结果表明,所提方法风险识别误差均值约为 3.5%,且根据所提方法识别结果进行有针对性优化后,应用对象内各区段风险均有不同程度下降。关键词:自然语言处理;推理引擎;基建现场;风险区段识别;特征项;匹配度中图分类号:TN9295文献标志码:A开放科学(资源服务)标识码(OSID):文 章 编 号:10033106(2023)01015506isk Section Identification of Electric Power Construction SiteBased on NLP and easoning EngineQIAN Chaojun1,LI Jun1,ZONG Zhen1,ZHANG Long1,WU Tong2,3(1 State Grid Anhui Electric Power Co,Ltd Construction Company,Hefei 230071,China;2 College of Information Science and Engineering,Northeastern University,Shenyang 110819,China;3 Economic esearch Institute,State Grid Liaoning Electric Power Co,Ltd,Shenyang 110015,China)Abstract:In order to identify the power infrastructure site risk section and reduce the power infrastructure site risk,a powerinfrastructure site risk section identification method based on Natural Language Processing(NLP)and reasoning engine is proposedNLP technology is used to deeply mine the on-site report text of power infrastructure,the relevant contents in the report are analyzedthrough word segmentation technology,and Term Frequency-Inverse Document Frequency(TF-IDF)algorithm is used to count theword frequency of the on-site report content to obtain the characteristics of the text report The high weight feature items are input intothe reasoning engine The reasoning engine is used to determine the case with the highest matching degree,and the reasoning enginemechanism is optimized through simulated annealing to realize the risk section identification of power infrastructure site Theexperimental results show that the average risk identification error of the proposed method is about 35%,and after targeted optimizationaccording to the identification results of the proposed method,the risk of each section in the application object decreases to varyingdegreesKeywords:natural language processing;reasoning engine;infrastructure construction site;risk section identification;featureitem;matching degree收稿日期:20220926基金项目:国网辽宁省电力有限公司 2019 年第一批科技项目(2019YF25)Foundation Item:The First Batch of Projects of State Grid Liaoning Electric Power Co,Ltd in 2019(2019YF25)工程与应用1562023 adio Engineering Vol.53 No.10引言当前我国电力建设的主力机型发展方向与输变电分别以高参数、大容量与超/特高压、交直流、长距离为发展方向1,电力基建现场不同新工艺与新设备被普遍应用。但电力基建现场施工是一个多工种、多层次的交叉作业,临时设备品类较多,存在较多不安全因素,极易产生机械伤害、坍塌以及触电伤害,因此研究一种有效的电力基建现场风险区段识别方法具有重要意义。2020 年,夏宇等2 最先通过推理链路质量指示(Link Quality Indicator,LQI)和收包率(Packet e-ception ate,P)的理论关系,建立更具实际物理意义的双曲正切模型,并提出一种链路质量估计方法。通过指数加权卡尔曼滤波获得更为稳定的 LQI估计值,再利用双曲正切模型对链路质量进行定量估计。Akulenko 等3 首次提出了通过自由杆的最低频率来识别缺陷的方法,基于将横截面缺陷建模为已知函数,将近似确定表征其特征的主要参数,通过数值模拟确定振荡模式的特征。自然语言处理(Natural Language Processing,NLP)技术包含语言学、数学与计算机科学4,是人工智能与计算机科学领域的主要研究内容,可实现计算机与人之间的自然语言沟通。推理引擎亦可称为推理机,具有推理功能,其优势主要体现在易于理解、易于获取和易于管理5。基于此,将 NLP 技术与推理引擎应用于电力基建现场风险区段识别问题中,提出基于 NLP 和推理引擎的电力基建现场风险区段识别方法,并对识别过程进行仿真,验证所提方法性能。1电力基建现场风险区段识别方法11电力基建现场描述识别NLP 作为计算机科学以及人工智能领域的主要研究方向,主要应用于计算机同人类之间的高效沟通。NLP 技术中包含数种统计方法6,并以此为基础生成最大熵模型、隐马尔可夫模型、概率上下文无关语法模型、贝叶斯模型以及最小边界距离模型等。基于不同模型在实际应用过程中的主要方向与性能优势,在识别电力基建现场风险描述过程中选用隐马尔可夫模型。隐马尔可夫模型的主要功能是体现存在隐含位置参数的马尔可夫过程,其在本质上可理解为是一种与时序相关的概率模型7。隐马尔可夫模型的状态无法直接获取,但可通过观测向量序列获取,经由概率密度可表现出不同观测向量的不同表现状态,不同观测向量的产生均以相应概率密度分布的状态序列为基础8。隐马尔可夫模型可通过五元组D,Y,A,B,表示,其中:状态集合 D 包含 4 种状态9:词头、词中、词尾和单字成词,这 4 种状态分别标记为 F,M,E,W。观察序列 Y 表示真实存在的一个状态的有向序列,可通过状态 y1,y2,yn表示,观测状态具有顺序特性。状态转移分布 A 表示状态集合内不同元素间转移的概率值。若当前状态和下一相邻状态分别为 f3和 f8,则可通过 f3,8表示转移概率。不同状态产生的概率分布可通过 B 表示。初始状态分布可通过 表示。根据机器学习方法的差异性,选取监督学习方法确定参数 A,B,。设定电力基建现场报告训练数据集内包含观测序列和对应的路径序列10。设定初始参数值,其表达式为:=(m)=P(m1=q1),(1)式中,m=1,2,N,表示 t=1 时刻下观测值的状态概率;qm=F,M,E,W。基于统计分析理论,统计电力基建现场报告中不同句子开头第一个字出现的频率,根据第一个字出现的频率统计结果与报告内句子总数的比值确定此字的初始状态 F 与 W 的概率情况11。用 a(ij)表示学习状态转移矩阵 A 的子元素,其值可通过下式确定:a(ij)=ccz,(2)式中,c 表示状态 qi转变为状态 qj的次数;cz表示状态变化的总次数。在上述过程中仅考虑元素的状态改变,忽略观测值改变。若以 bj(k)表示观测概率分布 B 的子元素,则为:bj(k)=jkcq,(3)式中,jk和 cq分别表示 j 状态下观测为 k 的次数和全部状态的总次数。整体来说,监督学习过程即以频数统计与总数间的比值为基础1214,获取对应的概率,以此确定模型参数。利用确定参数后的隐马尔可夫模型实现电力基建现场报告内容分词。工程与应用2023 年 无线电工程 第 53 卷 第 1 期15712词频统计在电力基建现场报告内容分词基础上,采用词频-逆文档频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)算法完成电力基建现场报告内容词频统计。TF-IDF 算法通过计算 TF 与 IDF 间的乘积,确定语料集内一个字或词的关键度。TF=lL,(4)式中,l 和 L 分别表示存在于电力基建现场报告 i 内的特征项次数和电力基建现场报告 i 内的总词语数量。IDF=lgNn+001(),(5)式中,N 和 n 分别表示电力基建现场报告数量和包含某特征项的报告总数量。基于式(4)和式(5)确定特征提取函数:F(w)=TF(w)IDF(w)。(6)对 TF-IDF 算法表达式进行归一化处理得到特征项的权重 Wij:Wij=tfijlgNnij+001()Mj=1tfijlgNnij+001()2,(7)式中,fij和 lgNnij+001()分别表示某特征存在于某电力基建现场报告内的频率和逆文本频率;N 和 nij分别表示类别电力基建现场报告的

此文档下载收益归作者所有

下载文档
收起
展开