HuggingGPT:在拥抱的脸上与ChatGPT及其朋友一起解决人工智能任务沈永良1*,KaitaoSong2*,徐谭2,李东生2,WeimingLu1,岳亭庄1浙江大学1,微软亚洲研究2{Syl,luwm,yzhuang}@zju.edu.cn,{Kaitaosong,xuta,dongsli}@microsoft.com摘要解决不同领域和模式的复杂人工智能任务是迈向高级人工智能的关键一步。虽然有丰富的人工智能模型可供d使用如果是不同的领域和模式,它们无法处理复杂的人工智能任务。考虑到大型语言模型(LLM)在语言理解、生成、交互和推理方面表现出非凡的能力,我们主张LLM可以充当Ntroller用于管理现有的人工智能模型,以解决复杂的问题人工智能任务和语言可以成为增强其能力的通用界面。基于这一理念,我们提出了HuggingGPT,这是一个利用LLM(例如ChatGPT)连接机器学习社区(例如HuggingFace)中的各种AI模型的框架,以解决AI任务。具体来说,我们在收到用户请求时使用ChatGPT进行任务规划,根据HuggingFace中可用的功能描述选择模型,使用选定的AI模型执行每个子任务,并总结响应命令执行结果。通过利用ChatGPT强大的语言能力和HuggingFace中丰富的AI模型,HuggingGPT能够在不同模式和领域涵盖许多复杂的人工智能任务,并取得令人印象深刻的结果在语言、视觉、语言和其他具有挑战性的任务方面,这为先进的人工智能铺平了一条新道路2.1简单介绍大型语言模型(LLM)[1、2、3、4、5、6],如ChatGPT,引起了两个学术界的极大关注和行业,由于他们在各种自然语言处理(NLP)任务上的出色表现。基于大规模文本语料库的大规模预训练和来自人类反馈(RLHF)的强化学习,LLM可以在语言理解、生成、互动和推理。LLM的强大能力也推动了许多紧急研究课题(例说,上下文学习[1,7,8],教学学习[9,10,11,12]和思想链提示[13,14,15,16])进一步调查LLM的巨大潜力,并为我们构建先进的人工智能系统带来无限的可能性。尽管取得了这些巨大成功,但当前的LLM技术仍然不完美,并面临一些紧迫的问题正在构建先进的人工智能系统。我们从以下方面讨论它们:1)仅限于文本生成的输入和输出形式,当前的LLM缺乏处理视觉和语音等复杂信息的能力,无论它们如何r在NLP任务方面取得重大成就;2)在现实世界中,一些复杂的任务通常由多个子任务组成,因此需要多个模型的调度与合作,这些模型是也超出了语言模型的能力;3)对于一些具有挑战性的任务,LLM在零射中表现出优异的结果∗前两位作者的贡献相等。这项工作是在第一作者在微软亚洲研究公司...