2023年6期实验报告科技创新与应用TechnologyInnovationandApplicationDDCAMS:NLP赋能智慧咨询业务孙甜,耿永建,胡程忆,霍明,杨志强,黄昭,孟龙波(卓望信息技术(北京)有限公司,北京100060)随着电信运营商数字化转型的推进,信息科技技术已经融入社会民生经济的各方面,各大公司也已经利用自然语言处理技术对各项业务进行赋能。比如陈庆良探讨了自然语言处理在电信客户名称匹配的应用场景,采用Albertsmall算法实现了客户名称的精确匹配模型,李奥等研究智能音箱在电信运营商业务中的应用,使用NLP理解用户意图等。中国移动通讯集团作为推动数字经济发展的中坚力量,承担着更大的责任和使命,致力于为企业级客户提供专业的数智化决策辅助系统。面对海量新闻中蕴含的庞大且复杂的信息,从中快速定位到所需内容,本文提出了DDCAMS,通过新闻去重模型、新闻去噪模型、新闻分类模型和新闻摘要模型4层算法自动处理和提炼关键信息,方便分析师洞察最新前沿技术,撰写分析性报告,提供智能化辅助决策支持。本文的主要贡献可以概括为以下几个方面。1)提出了DDCAMS系统,通过4层模型的处理,代替纯人工处理新闻的方式,实现快速有效地对海量新闻进行提取和分类,方便运营人员分析和使用,有助于分析师把握前沿技术动态,洞察行业商机。2)在新闻去重模型当中,使用SimHASH算法,将百万量级的新闻处理时间降低到对数级别,实现了一个数量级新闻数量的下降,大幅缩短后续模型处理新闻的时间,对工程和业务来说非常友好。3)在新闻分类和摘要模型当中,采用了预训练模型对文本进行理解,提高了结果的准确率,并使用基于mlflow框架进行模型部署,采取小批量多次迭代优化的方式,对模型实现快速迭代和更新。摘要:新闻网站上的海量新闻具有行业商机、信息洞察等重要研究价值,利用自然语言处理技术进行自动化的信息萃取,替代纯人工筛选信息,方便完成生产报告并推送给领导或关键人。该文以中国移动智慧咨询新闻萃取业务场景为依托,提出DDCAMS,系统介绍从海量新闻当中筛选和处理信息的技术架构及构建流程,包括文本去重、文本去噪、文本分类和文本摘要4个模型,目前已完成初代版本的研发,性能达到预期。打造中国移动AI引领业务变革的应用实践案例,有效提高数智化管理水平,助力公司建设成为“一流的数智化服务提供商”。关键词:自然语言处理;文本去重;文本分类;文本摘要;智慧运营中图分类号:TP391文献标志码:A文章编号:2095-2945(2023)06-...