2023年5月JournalonCommunicationsMay2023第44卷第5期通信学报Vol.44No.5基于Transformer解码的端到端场景文本检测与识别算法郑金志1,2,汲如意1,2,张立波1,3,赵琛1,3(1.中国科学院软件研究所智能软件研究中心,北京100190;2.中国科学院大学,北京100190;3.中国科学院软件研究所计算机科学国家重点实验室,北京100190)摘要:针对任意形状的场景文本检测与识别,提出一种新的端到端场景文本检测与识别算法。首先,引入了文本感知模块基于分割思想的检测分支从卷积网络提取的视觉特征中完成场景文本的检测;然后,由基于Transformer视觉模块和Transformer语言模块组成的识别分支对检测结果进行文本特征的编码;最后,由识别分支中的融合门融合编码的文本特征,输出场景文本。在Total-Text、ICDAR2013和ICDAR2015基准数据集上进行的实验结果表明,所提算法在召回率、准确率和F值上均表现出了优秀的性能,且时间效率具有一定的优势。关键词:文本检测;文本识别;端到端;Transformer中图分类号:TP391文献标志码:ADOI:10.11959/j.issn.1000436x.2023070End-to-endscenetextdetectionandrecognitionalgorithmbasedonTransformerdecodersZHENGJinzhi1,2,JIRuyi1,2,ZHANGLibo1,3,ZHAOChen1,31.IntelligentSoftwareResearchCenter,InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,China2.UniversityofChineseAcademyofSciences,Beijing100190,China3.StateKeyLaboratoryofComputerScience,InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,ChinaAbstract:Aimingatthedetectionandrecognitiontaskofarbitraryshapetextinscene,anoveltyscenetextdetectionandrecognitionalgorithmwhichcouldbetrainedbyend-to-endalgorithmwasproposed.Firstly,thedetectionbranchoftextawaremodulebasedonsegmentationideawasintroducedtodetectscenetextfromvisualfeaturesextractedbyconvolu-tionalnetwork.Then,arecognitionbranchbasedonTransformervisionmoduleandTransformerlanguagemoduleen-codedthetextfeaturesofthedetectionresults.Finally,thetextfeaturesencodedbythefusiongateintherecognitionbranchwerefusedtooutputthescenetext.TheexperimentalresultsonthethreebenchmarkdatasetsofTotal-Text,IC-DAR2013andICDAR2015showthattheproposedalgorithmhasexcellentperformanceinrecall,precision,F-score,andhascertai...