《工业控制计算机》2023年第36卷第1期基于多模态特征融合的图像描述算法研究杨晨露1,2万旺根1,2张振3孙学涛2王旭智1,2(1上海大学通信与信息工程学院,上海200444;2上海大学智慧城市研究院,上海200444;3上海交通大学医学院附属仁济医院宝山分院,上海200444)ResearchonImageDescriptionAlgorithmBasedonMultimodalFeatureFusion摘要:针对图像描述任务,传统算法更加关注图像中的视觉物体,而忽略了文本信息对其描述也起到了不可或缺的作用。为增强对图像中文本信息的提取,提出了一种基于多模态特征融合的图像描述算法。在视觉特征提取的基础上,增加文本识别和检测算法,并使用多模态Transformer来融合两种模态。在解码阶段,采用中心图作为指导模块,使用动态指针网络实现迭代解码,使模型生成更加丰富的自然描述语句。最后在Textcaps数据集上的实验结果表明,该方法可以有效提高文本区域中OCR令牌的提取精度。关键词:图像描述;自然语言处理;文本检测;TransformerAbstract:Fortheimagedescriptiontask,traditionalalgorithmsfocusmoreonthevisualobjectsintheimageandig-norethefactthattextualinformationalsoplaysanindispensableroleinitsdescription.Toenhancetheextractionoftextin-formationinimages,thispaperproposesanimagedescriptionalgorithmbasedonmultimodalfeaturefusion.Basedonvi-sualfeatureextraction,textrecognitionanddetectionalgorithmsareadded,andamultimodalTransformerisusedtofusethetwomodalities.Inthedecodingstage,acentralgraphisusedasaguidingmoduleandadynamicpointernetworkisusedtoachieveiterativedecodingsothatthemodelgeneratesrichernaturaldescriptivestatements.Finally,theexperimen-talresultsonTextcapsdatasetshowthattheproposedmethodcaneffectivelyimprovetheextractionaccuracyofOCRto-kensintextregions.Keywords:imagedescription,naturallanguageprocessing,textdetection,Transformer近年来,图像描述任务越来越成熟。很多视觉场景不仅包含视觉对象,还包含携带关键信息的文本,但现有方法中很少关注到文本信息。随着深度学习方法的发展,大多数图像描述算法,采用基于CNN-RNN的编解码框架[1]。但这种编解码模型在处理固定长度向量存在局限性,为此,文献[2]提出自上而下与自下而上相结合的注意力模型(BUTD),该方法使用Faster-RCNN来代替CNN部分,过滤无用的图像...