《自动化技术与应用》2023年第42卷第6期计算机与通信技术ComputerandCommunicationTechnologyTechniquesofAutomation&Applications基于样本数据重复性的分布式数据库自动化查询方法许伟,胡婷(宿迁市烟草专卖局(公司),江苏宿迁223800)摘要:为提高分布式数据库数据的查询效率和准确率,设计一种考虑样本数据重复性的分布式数据库自动化查询方法。提取数据信息的主要特征,确定主要信息方程的权衡函数,整合重复样本信息;分段数据库内的数据,明确数据特征,自适应分解得出自动化查询聚类中心和目标函数;采用ICTCLAS分词系统计算关键词在文本中出现频率,根据灰狼优化算法求得最优函数集获取最优参数集;结合Shingle检测并标记样本信息匹配度,完成最终数据查询。实验结果表明方法查询准确率高于90%,平均耗时低于35s,可被广泛推广使用。关键词:分布式数据库;模糊聚类分析;F-Measure方法中图分类号:TP274文献标识码:A文章编号:1003-7241(2023)06-0087-04AutomaticQueryMethodofDistributedDatabaseBasedonRepeatabilityofSampleDataXUWei,HUTing(SuqianCityTobaccoMonopolyAdministration(Company),Suqian223800China)Abstract:Inordertoimprovethequeryefficiencyandaccuracyofdistributeddatabasedata,anautomaticquerymethodofdistributeddata-basebasedonrepeatabilityofsampledataisdesigned.Itextractsthemainfeaturesofdatainformation,determinesthetrade-offfunctionofthemaininformationequation,andintegratestherepeatedsampleinformation;Itsegmentsthedatainthedatabase,clarifiesthedatacharacteristics,andadaptivelydecomposestoobtaintheautomaticqueryclusteringcenterandobjectivefunc-tion;TheICTCLASwordsegmentationsystemisusedtocalculatethefrequencyofkeywordsinthetext,andtheoptimalfunc-tionsetandtheoptimalparametersetareobtainedaccordingtothegraywolfoptimizationalgorithm;Combinedwithshingle,de-tectandmarkthematchingdegreeofsampleinformationtocompletethefinaldataquery.Theexperimentalresultsshowthatthequeryaccuracyoftheproposedmethodishigherthan90%andtheaveragetimeislessthan35s,whichcanbewidelyused.Keywords:distributeddatabase;fuzzyclusteringanalysis;F-Measuremethod收稿日期:2022-02-09DOI:10.20033/j.1003-7241.(2023)06-0087-04.1引言我国社会经济和消费水平提升,加...