2023年第35卷第7期古农文语义检索模型构建及其应用研究刘楠竹1,2袁崔运鹏1,2*袁王末1,2(1.中国农业科学院农业信息研究所,北京100081;2.农业农村部农业大数据重点实验室,北京100081)摘要院[目的/意义]构建能实现以白话文作为查询,系统自动返回与输入最相关的古农文段落的语义检索模型,为学者提供更加便利的古代农业知识检索方式和古代农业知识溯源方式。[方法/过程]使用基于四库全书作为训练语料的SikuBERT作为基础模型,基于对比学习的方法,使用自建的古农文数据集对模型进行继续训练,得到能够支持使用白话文作为查询,返回与查询语义最相似的古农文段落的语义检索模型。[结果/结论]古农文语义检索模型的Spearman系数在测试集上的表现能够达到86.51%,较基线模型在测试集上的表现83.69%有一定程度的提升,在自建的古农文检索测试集上的召回情况渊recall@k冤较基线模型有一定程度提升,模型在古农文上能够有比较好的检索效果。但受限于古农文训练语料规模,模型的训练效果还有很大提升空间。关键词院古农文;语义检索;对比学习;模型构建;深度学习中图分类号院TP391文献标识码院A文章编号院1002-1248渊2023冤07-0052-11引用本文院刘楠竹,崔运鹏,王末.古农文语义检索模型构建及其应用研究[J].农业图书情报学报,2023,35(7):52-62.收稿日期:2023-05-29基金项目:国家社会科学基金重大项目“中国古农书的搜集、整理与研究”(21&ZD332)作者简介:刘楠竹(1991-),女,硕士研究生,研究方向为图书情报。王末(1987-),男,博士,副研究员,研究方向为农业信息技术、农业知识管理、数据挖掘技术研究*通信作者:崔运鹏(1972-),男,博士,研究员,研究方向为农业信息技术、农业知识管理、数据挖掘技术研究。Email:cuiyunpeng@caas.cnDOI院10.13998/j.cnki.issn1002-1248.23-03551引言中国是世界上著名的文明古国之一袁拥有数千年未曾中断的农耕传统和农业历史袁中国古农书作为中国传统农业经验知识尧传统农业生产力和农业历史精髓的主要载体袁未受到近代西方农学影响前中国人撰写的有关农业生产知识的著作袁是中国珍贵的历史文化遗产遥中国古农书中保存有大量资料有待发掘利用袁传统作物栽培技术多半仍在现代农业中改造利用[1]袁中国古农书中农业知识的价值并没有随着时代的前进而消失袁对现代农业中出现的问题依然有切实指导作用遥然而袁中国古农书由古文写成袁晦涩且无标点袁艰深难读袁普通大众只能望而却步遥但古农书的价值需要传承和...