ComputerEngineeringandApplications计算机工程与应用2023,59(7)图像语义分割旨在对每一个像素按照给定标签进行分类,使不同种类的物体在图像上得以区分,能同时完成分割与分类两个任务,是计算机视觉研究的关键技术之一。目前,广泛应用于自动驾驶[1]、机器人视觉[2]、智能医疗影像分析[3]、地理信息分析系统[4]以及智能服装分类[5]等领域。RGB-D双模态特征融合语义分割罗盆琳1,2,方艳红1,2,李鑫1,2,李雪1,21.西南科技大学信息工程学院,四川绵阳6210102.西南科技大学特殊环境机器人技术四川省重点实验室,四川绵阳621010摘要:针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attentionmechanismbimodalfusionnetwork)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUNRGB-DNYU和NYUDepthv2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。关键词:注意力机制;双模态特征融合;双重注意感知上下文;RGB-D语义分割文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2111-0518Dual-ModalFeatureFusionSemanticSegmentationofRGB-DLUOPenlin1,2,FANGYanhong1,2,LIXin1,2,LIXue1,21.SchoolofInformationEngineering,SouthwestUniversityofScienceandTechnology,Mianyang,Sichuan621010,China2.RobotTechnologyUsedforSpecialEnvironmentKeyLaboratoryofSichuanProvince,SouthwestUniversityofScienceandTechnology,Mianyang,Sichuan621010,ChinaAbstract:TheexistingRGBimagesemanticsegmentationnetworkforcomplexindoorscenesissusceptibletofactorssuchascolorandlighting,whileitisalsochallengingtointegratedual-modalfeatureseffectively.Regardingtheissueindicatedabove,thispaperproposesanattentionmechanismbimo...