分享
轨道交通设备故障知识图谱构建与应用研究.pdf
下载文档

ID:3441213

大小:1.47MB

页数:3页

格式:PDF

时间:2024-05-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
轨道交通 设备 故障 知识 图谱 构建 应用 研究
中国新技术新产品2023 NO.9(上)-53-工 业 技 术传统轨道交通设备故障主要依靠人工巡检和排查,效率低下且易漏检。另外,一些先进企业引入了很多先进、高精密的检修系统,随着长期使用,积累存储了大量设备故障资料,在设备检修维护过程中进行复用、查询极为不便。因此,如何保证更快速、高效地对轨道交通设备故障进行排查诊断等,已成为轨道交通运营管理研究领域中的热点问题。该文针对积累存储的设备故障数据,利用知识抽取、知识融合等技术构建知识图谱模型1,研发了一种基于轨道交通设备故障知识图谱的智能搜索应用。对用户输入的词条自动抽取知识图谱中的故障实体节点,生成连续式返回结果。保证更快速、高效地进行部位排查、预防解决等,使大量多源异构数据的关联与复用充分发挥价值,提高检修人员工作效率。1 设计思路该文面向多数据源轨道交通设备故障知识库,包括故障报告、巡检日志等,通过数据预处理使其变为结构化数据形式,再利用数据分析技术构建故障实体属性及关系模型,通过知识抽取、知识融合等构建故障知识图谱,建立知识存储与图谱智能搜索应用。首先,采用远监督方法对故障数据进行分析处理,可以从大规模的未标记数据中自动抽取关键信息。定义故障实体节点及属性值,包括故障设备、故障原因等,明确实体之间的关系,基于三元组规则抽取故障知识实体、关系及属性,实现故障知识抽取,提高知识图谱的质量和准确性。其次,从实体节点和故障处理 2 个维度考虑,构建知识图谱模式层,将知识分解成各种主题类别,满足设备故障快速定位、故障诊断及维修建议智能推荐等关键应用场景。结合相似度匹配进行实体对齐,减少实体冗余和错误,实现知识图谱构建过程中的知识融合。最后,利用知识图谱智能搜索引擎为用户提供直观的故障分析、预测和决策支持,提高轨道交通设备故障处理效率、准确性和智能化水平。2 知识抽取2.1 基本过程设计由于结构化与半结构化的故障数据格式与内容已知,相关属性值识别后可直接通过三元组规则进行抽取,而非结构化数据文本需要基于句法特征进行命名标注,因此将数据结构统一后进行三元组映射。首先,对非结构化原始数据进行预处理,如文本清洗、分词和词性标注等,便于后续实体识别和关系抽取操作2。其次,利用命名实体识别技术识别文本中的实体,包括故障设备、故障现象等,再提取实体间的相互关系,如设备和部件的依赖关系、故障现象与原因之间的相互作用关系等。此外,通过实体对齐技术对不同文本源中同一实体进行对齐,确保知识图谱中实体元素的一致性和准确性。最后,将提取的实体信息与关系元素组合成三元组的形式构建知识图谱。同时,通过机器学习的方法不断完善和优化知识图谱模型,包括补充和维护实体、属性及关系信息等,以增强知识抽取模型的准确性和泛化能力,使其成为轨道交通设备故障诊断和预测的重要工具。2.2 故障实体命名标注2.2.1 基于 BERT-BiLSTM-CRF 的实体识别标注传统的BiLSTM-CRF是一种常用的基于深度学习的方法,存在多语句长文本,会导致上、下文语句中命名实体识别不一致。因此引入 BERT 语言训练机制,利用 BERT 字向量嵌入层将其拆解、转化为向量进行表示,并作为 BiLSTM 网络的输入,可较好地解决上述问题3。另外,BERT模型采用了Transformer对文本数据编码,使用自注意力机制和全连接层来建模,基于 Embedding Transformer Encoder 进行特征抽取。其中,自注意力机制通过每个字符与序列之间的相互关系计算调整其重要性权重,快速捕捉序列中的上、下文信息,学习到文本中的长距离依赖关系,并且忽略长文本给模型带来的影响。建立的目标函数如公式(1)所示。Lppppttttin?lnln111 (1)式中:为参数集合;pt与pt为第 t 步时模型的期望和实际输出值。将文本信息归为 2 类,一类是基于 CRF 层输出的目标实体标签序列,由 B 和 I 组成,另一类由 O 表示,即结束位置,轨道交通设备故障知识图谱构建与应用研究韦伟郑杨袁嘉梁李亮亮续程宇(安徽工业大学管理科学与工程学院,安徽 马鞍山 243002)摘 要:当前轨道交通设备仍然采用传统的巡检方式,而传统巡检方式存在效率低下、容易漏检的问题。为了解决轨道交通设备传统巡检方式下的各种不足及影响,该文通过深度学习、自然语言处理等技术构建故障知识图谱,研发了设备巡检过程中的故障排查、维修建议智能推荐等应用。通过模型训练应用,该文方法的效率达到了90.89%。该文方法可高效进行主题特征的不间断输出与维修建议的多段式智能化推荐,提高检修效率,降低人力成本,值得推广应用。关键词:轨道交通;故障知识图谱;智能推荐中图分类号:TP391文献标志码:A中国新技术新产品2023 NO.9(上)-54-工 业 技 术输出“B-value I-value O.”作为最终的标注输出。2.2.2 模型对比评价为了比较二者的不同,选用 ROC(Receiver Operating Characteristic Curve)指标进行评估,建立混淆矩阵,计算不同的 TPR 值和 FPR 值,绘制 ROC 曲线4。随机选出 1850 项故障实体信息作为样本数据集,通过改变不同的分类阈值,绘制 ROC 曲线模型图来评估二者的应用性能,得到的对比结果如图 1 所示。由图 1 可知,引入后 AUC 值为 73%,30%60%内的曲线上升更明显。结果证明,引入的 BERT 机制处理自然语言文本时,具有更好的语义理解和特征提取能力,因此可更好地结合 BIO 法进行故障实体标注,更具有价值性和借鉴性。标注示例见表 1。表 1 实体标注示例(部分)序号实体类型实体信息示例1设备实体减震器、道岔尖轨B-EQUIPMENT,I-EQUIPMENT2非实体损坏、异常O3 知识融合3.1 模式层构建模式层构建的方法分为自顶向下和自底向上2种。将二者结合,前期采用自顶向下的方式,以故障实体节点为出发点,结合故障设备所处状态,确定故障现象、原因等实体节点及关系属性。然后以故障处理为目标,采用自底向上的方式进行意图分析,将故障检查和解决处理等主题特征融合到知识图谱中的实体节点中,通过实体节点和故障处理 2 个维度的双向融合,形成一个动态的闭环处理流程5。3.2 基于改进 CSA 算法的实体对齐在知识融合过程中,实体对齐是一个重要的步骤,通常应用余弦相似度算法,但一个实体向量是长文本稀疏向量,其结果可能会不准确,并导致实体冗余或错误。该文基于传统的 CSA 算法,定义重叠比例,解决向量维度为零的问题,并通过相似度函数对字词或短语进行语义分析,进而可更准确地衡量 2 个长文本之间的相似性。从而提供了一个更全面、更精确的度量方法,可更快速、有效地对大规模数据集进行实体对齐,如公式(2)所示。sim x yxyxyxyxyiiiiiiiiiniinii,min,?12121n n?(2)式中:字符串 xi向量为(x1,x2,.,xn),yi向量为(y1,y2,.,yn),|xiyi|为相似字符的个数,min(|xi|,|yi|)为 2 个中字符串长度最小值。在 NLP 中,上述过程并不能完全说明文本之间的相似性,因此在其基础上加入归一化语义相似度(NSS)的计算,可较大程度上解决多短语语义的问题,如公式(3)所示。NSS x yw sim a bcNx y,loglog min?(3)式中:x、y 为由字符 xi、yi或短语 a、b 组成的长文本;sim(a,b)为基于公式(2)计算 a、b 之间的相似度;w 为权重系数;c 为平滑因子,用于解决分母为 0 的影响;N 为语料库的短语总数;min(|x|,|y|)为短语数量的最小值。基于 Top-k 匹配方法验证改进后的方法更具有完备高效性,计算其算法返回前 k 个匹配结果中的冗余率(Redundancy)、准确率(Accurate),即对齐后存在重复实体及与正确实体对应的比例,如公式(4)所示。RnmnAhnkkk?100100%,%(4)式中:nk为前 k 个匹配结果中的实体数;m 为去除重复实体后的实体数;h 为正确匹配实体的数量。随机选择设备实体类的前 1850 个匹配结果,汇总计算结果见表 2。表 2 实体对齐(部分)实体信息x特征词y特征词关联对齐改进前改进后故障设备自动清洗机列车清洗机故障设备(EQUPMENT)冗余率39%准确率75%冗余率5%准确率93%图 1 对比结果100 90 80 70 60 50 40 30 20 10 0真阳性率/%假阳性率/%0102030405060708090100引入后:73%引入前:71%中国新技术新产品2023 NO.9(上)-55-工 业 技 术一方面,计算字符序列的相似性考虑了字符串长度的影响,另一方面,通过计算多短语之间的语义相似度,评估长文本相似度。结果显示,改进后对齐准确率可达 93%以上,可进行更精确的匹配对齐。4 故障知识图谱检索应用4.1 基于束搜索算法实现连续多段式查询利用束搜索算法缩小搜索空间,达到自动识别上一搜索实体节点并将其作为主题的效果,实现维修建议的多段式一次性输出,解决传统需要重复输入并进行多次识别的问题。定义初始搜索状态为 S0,包括搜索深度 d、束宽 k 和初始搜索路径 P0,如公式(5)所示。S0=P0,d=PathLen(Pt),k=BeamWidth(St)(5)式中:S0为初始搜索状态集合;P0为初始搜索路径;d 为搜索深度;k 为束宽,即搜索状态集合 St中的路径数量。在搜索过程中,为自动记忆上一次搜索实体并将其作为当前的主题信息,会在束宽为 k、搜索深度为 d 的搜索路径中选择评估分数最高的进行扩展,并将其添加到搜索状态集合 St+1中,如公式(6)所示。St+1=BeamSearch(St,k,d)=St+1k,dt=1 (6)式中:BeamSearch(St,k,d)为在搜索状态集合 St中选择k 条搜索深度为 d 且评估分数最高的搜索路径。定义如公式(7)所示的得分评估函数。f(Pt)=w1Score(Pt)+w2AssociationScore(et,et-1)(7)式中:Score(Pt)根据搜索路径的质量指标计算,包括搜索路径的概率或效用等;et为当前搜索路径 Pt的实体;et-1为上一次搜索的实体,初始时为空;AssociationScore(et,et-1)根据 et与 et-1之间的相似性计算关联评分;w 为权重系数。记录每个扩展状态 St+1对应的实体,同时将上一次搜索的实体 et-1更新为当前状态对应的实体。在束搜索循环结束后,根据公式(8),从扩展状态集合中选择得分最高的状态S=(ps,es,ks,ds),并记录该状态下对应的实体 es,将其作为下一次无主题词条的实体嵌入,如公式(8)所示。?SArgScore e ef PSStsseeks dststmax,1argmax (8)式中:argmax 为状态集合 St+1中得分最高的状态;f(ps)为对搜索路径 pt进行进一步评估的函数。由于一个较长词条中 S 会遍历很多的实体候选输出序列,因此需要加置惩罚系数来弥补长序列输出的冗余,根据公式(9)计算出预测序列排序得分,将得分最高的实体序列作为最终记忆实体输出并抽取检索。1112111LP S SSLP S SScLnnnL?log,.,log,.,?(9)式中:L 为最终候选序列的长度;通常设置为 0.75;L为惩罚长序列系数。使用 Cypher 语句对 Neo4j 图数据库进行查询,例如某一设备的故障原因(fault_cause)查询语句为“MATCH(m:Fault)where m.name=0return m.name.cause.”。利用 NLP 技术将其转化为自然语言,直接输入“下极限报警原因”。通过上述算法步骤,记忆并输出最终预测序列,根据信息类型和内部结构驱动,既可连续式追加查询,也可针对处理解决、预防措施等维修建议进行一次性推荐输出。4.2 应用性能评价借助精确率、召回率及 F1值评价整体应用性能,选取了1850 条故障信息词条与 6 类设备故障主题特征作为测试数据集,以统计应用性能的各个评价指标值。经迭代,第 154次的结果最优,得到的评估结果如图 2 所示。由图 2 可知,F1均值为 90.89%,处于较高水平,说明构建的故障知识图谱应用性与主题先验性较高,可为用户提供高效的服务,算法应用与语义搜索效果良好。5 结论综合结果,改进后的 CSA 算法实体匹配效率至少提升了20%,整体综合应用评价均值达到了 90.89%。充分说明构建的设备故障知识图谱应用性与主题先验性较高,可高效实现故障诊断与维修建议的智能化推荐,提高设备维护效率,为轨道交通“智慧化巡检”的建设奠定了基础。参考文献1 王学军,何文杰,赵宇.基于知识图谱的齿轮传动智能问答系统 J.农业装备与车辆工程,2022,60(2):61-66.2 佘恒健,黄焕清,余钟昌,等.基于 BiLSTM-CRF 的政务公文实体识别 J.电脑编程技巧与维护,2022,446(8):119-121.3Ye Na,Qin Xin,Dong Lili,et al.Chinese named entity recognition based on character-word vector fusionJ.Wireless Communications and Mobile Computing,2020(3):1-7.4 汤洁仪,李大军,刘波.基于 BERT-BiLSTM-CRF 模型的地理实体命名实体识别 J.北京测绘,2023,37(2):143-147.5 赵瑛,任燕春,王铁,等.中文常见医疗问题命名实体识别研究 J.现代电子技术,2022,45(16):121-126.评估结果模型图图 2 评估结果P(%)R(%)F1(%)

此文档下载收益归作者所有

下载文档
收起
展开