第51卷第4期2023年4月华南理工大学学报(自然科学版)JournalofSouthChinaUniversityofTechnology(NaturalScienceEdition)Vol.51No.4April2023基于自监督学习的交通数据补全算法周楚昊1林培群1†闫明月2(1.华南理工大学土木与交通学院,广东广州510640;2.交通运输部路网监测与应急处置中心,北京100088)摘要:区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。关键词:数据补全;自监督学习;交通流预测;机器学习;高速公路中图分类号:U491文章编号:1000-565X(2023)04-0101-14交通领域数据采集方式由传统的交通调查等逐渐向电子化、信息化的发展,推动了交通大数据的应用与发展。自动化数据采集很大程度上节约了人力成本,并且具备非常高的准确度以及较好的实时性,数据覆盖面也更广。但是,由于通信系统并不能做到百分百可靠,因此,数据在传输过程中难免会发生一定概率的丢失或者延迟,导致数据实时性受损,所以,为了能更好地将数据应用于下游任务,需要对这些交通数据进行相应的补全。根据缺失机制,可将数据缺失分为3类,分别为完全随机缺失、随机缺失以及非随机缺失。对于交通流数据的缺失,可认为是完全随机缺失。对于这种缺失方式,最简单的方法就是直接删除[1]。但是,简单删除的方式降低了数据集的多样性,并且会影响后续的交通分析,因此,对于交通缺失数据的处理主要采用修复的方式[2]。目前,能获取的数据量越来越全面;因此,可以通过观测数据的具体分布来对缺失部分进行估计,较为典型的是期望最大化算法(ExpectationMaximation,EM)[...