信息记录材料2022年12月第23卷第12期30论著0引言多目标检测是计算机视觉领域亟待解决的基本任务之一,也是视频监控技术的基本任务[1-2]。由于视频中的物体有不同的姿态,经常出现被阻挡的情况,所以它们的运动是不规则的[3]。同时,考虑到视频监控的分辨率、天气、光线等条件和场景的多样性,目标检测算法的结果将直接影响后续跟踪、分类、动作识别和行为描述的效果[4]。多目标检测仍然是一个非常具有挑战性的任务,有很大的潜力和改进空间。1多目标检测的基本思想Fast-rcnn通过建立多任务模型,利用神经网络对操作进行分类,实现了实时端到端联合训练[5]。同时,Fast-rcnn实现了网络终端同步训练,提高了准确率,但分类步骤的性能没有明显提高。Faster-rcnn在Fast-rcnn的基础上增加了区域建议网络(regionproposalnetwork,RPN),提取候选框并合并到深度神经网络中[6]。通过交替训练,建立了统一的深度神经网络框架,既减少了重复计算,还大大提高了运行速度。YOLO的思想是用单个神经网络直接训练整个输入图像作为输入,从而更快速地区分背景区域和目标,以更简单、更快的方式对目标对象进行实时监控[7]。该方法将输入图像划分为S×S大小的网格,每个网格单元预测边界框和这些边界框的可靠性。YOLO本质上解决了目标检测的实时性问题,真正实现了“端到端”的CNN结构。YOLOv3的思想是通过特征提取网络从输入图像中提取一定大小的特征映射,例如13×13[7]。然后将输入的图像划分为13×13格。如果groundtruth中一个对象的中心坐标落在网格单元格中,网格单元格将预测该对象,因为每个网格单元格预测固定数量的边界框。在这些边界框中,只有那些具有最大限度和groundtruth的IOU被用来预测这些对象。可以看出,预测的输出特征图具有提取特征的两个维度。其中一个维度是平面,例如13×13,还有一个维度是深度,例如B×(5+C),其中B表示每个单元格预测边界框的数量,C表示边界框对应的类别数。2改进的YOLOv3算法YOLOv3-ANV现在流行的图像检测算法和视频检测算法有很多,它们都有各自的特点和优势,适用于不同的情况。在YOLOv3和Faster-RCNN模型和人口密度估计下,对一般场景的改进的YOLOv3算法在视频分析中的应用康金龙1,刘涛2,谢祎霖3,许涛1,宫胜1(1西北大学经济管理学院陕西西安710000)(2西北大学网络与数据中心陕西西安710000)(3西北大学后勤集团陕西西安710000)【摘要】近年来,随着卷积神经网络的发展,目标检测的研究得到了很大的发展...