2023-05-10计算机应用,JournalofComputerApplications2023,43(5):1409-1415ISSN1001-9081CODENJYIIDUhttp://www.joca.cn基于图注意力网络的全局图像描述生成方法隋佳宏1,毛莺池1,2*,于慧敏1,王子成3,平萍1,2(1.河海大学计算机与信息学院,南京210098;2.水利部水利大数据重点实验室(河海大学),南京210098;3.中国电建集团昆明勘测设计研究院有限公司,昆明650051)(∗通信作者电子邮箱yingchimao@hhu.edu.cn)摘要:现有图像描述生成方法仅考虑网格的空间位置特征,网格特征交互不足,并且未充分利用图像的全局特征。为生成更高质量的图像描述,提出一种基于图注意力网络(GAT)的全局图像描述生成方法。首先,利用多层卷积神经网络(CNN)进行视觉编码,提取给定图像的网格特征和整幅图像特征,并构建网格特征交互图;然后,通过GAT将特征提取问题转化成节点分类问题,包括一个全局节点和多个局部节点,更新优化后可以充分利用全局和局部特征;最后,基于Transformer的解码模块利用改进的视觉特征生成图像描述。在MicrosoftCOCO数据集上的实验结果表明,所提方法能有效捕捉图像的全局和局部特征,在CIDEr(Consensus-basedImageDescriptionEvaluation)指标上达到了133.1%。可见基于GAT的全局图像描述生成方法能有效提高文字描述图像的准确度,从而可以使用文字对图像进行分类、检索、分析等处理。关键词:网格特征;图注意力网络;卷积神经网络;图像描述生成;全局特征中图分类号:TP183;TP391.1文献标志码:AGlobalimagecaptioningmethodbasedongraphattentionnetworkSUIJiahong1,MAOYingchi1,2*,YUHuimin1,WANGZicheng3,PINGPing1,2(1.CollegeofComputerandInformation,HohaiUniversity,NanjingJiangsu210098,China;2.KeyLaboratoryofWaterBigDataTechnologyofMinistryofWaterResources(HohaiUniversity),NanjingJiangsu210098,China;3.PowerChinaKunmingEngineeringCorporationLimited,KunmingYunnan650051,China)Abstract:Theexistingimagecaptioningmethodsonlyfocusonthegridspatiallocationfeatureswithoutenoughgridfeatureinteractionandfulluseofimageglobalfeatures.Togeneratehigher-qualityimagecaptions,aglobalimagecaptioningmethodbasedonGraphATtentionnetwork(GAT)wasproposed.Firstly,amulti-layerConvolutionalNeuralNetwork(CNN)wasutilizedforvisualencoding,extractingthegridf...