456浙江省软科学研究计划重点项目(2021C25021)资助收稿日期:2022–05–17;修回日期:2022–06–23北京大学学报(自然科学版)第59卷第3期2023年5月ActaScientiarumNaturaliumUniversitatisPekinensis,Vol.59,No.3(May2023)doi:10.13209/j.0479-8023.2023.030基于BERT的民生问题文本分类模型——以浙江省政务热线数据为例孔祥夫1,2,†董波1徐可2,3陶永亮11.之江实验室,人工智能社会治理研究中心,杭州311121;2.北京大学深圳研究生院,城市规划与设计学院,深圳518055;3.浙江省发展规划研究院,城镇发展研究所,杭州310030;†E-mail:1601111702@pku.edu.cn摘要基于2017—2021年浙江省12345政务热线数据,从居民视角构建细粒度的民生问题三级分类体系,并利用BERT预训练模型来构建文本分类模型,将居民诉求文本转化为民生问题标签。研究结果表明,在政务热线数据中加入30%的人工生成诉求样本,可以使模型的分类准确率提升约10个百分点,准确率最高可达84.59%。对浙江省各类民生问题占比的分析结果表明,环境保护、违规经营和市政服务等诉求的比例呈现下降趋势,而公共服务、交通问题、购房问题和新兴消费模式的诉求比例呈上升趋势。研究结果有助于加强政府对于民情民意的了解,提升数据驱动的社会治理能力。关键词民生问题文本分类;BERT;政务热线数据;数据治理TextClassificationModelforLivelihoodIssuesBasedonBERT:AStudyBasedonHotlineCompliantDataofZhejiangProvinceKONGXiangfu1,2,†,DONGBo1,XUKe2,3,TAOYongliang11.ResearchCenterforAISocialGovernance,ZhejiangLab,Hangzhou311121;2.SchoolofUrbanPlanningandDesign,PekingUniversityShenzhenGraduateSchool,Shenzhen518055;3.InstituteofUrbanandRuralDevelopment,ZhejiangDevelopmentandPlanningInstitute,Hangzhou310030;†E-mail:1601111702@pku.edu.cnAbstractUsingthe12345hotlinecompliantdatafrom2017to2021inZhejiangProvince,afine-grainedthree-levelclassificationsystemforlivelihoodissueswasconstructedfromtheperspectiveofsocialcognition.ABERTpre-trainingmodelwasdevelopedtoconvertcomplainttextsintolabelsforlivelihoodissues.Thevalidationresultshowedthatadding30%artificialcomplainttextsinthetrainingsetcouldincreaseroughlytheaccuracyrateby10percent,andtheaccuracyratecouldbeashighas84.59%.Moreover,livelihoodissueproportionsofenvironmentalprotection,irregularbus...