2023年│8期│1932023年第45卷第8期基于ChatGPT的AIGA多模态设计方案叶柯收稿时间:2023-06-25基金项目:浙江省大学生科技创新活动计划(新苗人才计划)(2022R407A008)作者简介:叶柯(2002-),本科生,研究方向为计算机视觉、多模态识别。(杭州电子科技大学计算机学院杭州310018)摘要随着人工智能技术的进步,硬件算力不断提高,大模型逐渐成为当下热门的话题和研究方向。ChatGPT是一种基于GPT-3.5架构的先进大型语言模型,由OpenAI开发。由于现代社会的复杂性和多变性,人们需要更智能的自然语言处理技术来满足不同的需求,如自动翻译、摘要生成、问答系统等。ChatGPT是基于大量文本数据训练而成的,无法依靠自身实现多模态。文中设计了一种AIGA方案,其利用ChatGPT和Prompt工程来进行决策,并调用OpenAI的API完成下游的多模态任务。关键词:ChatGPT;OpenAI;AIGA;Prompt工程;多模态中图法分类号TP391AIGAMultimodalDesignSchemeBasedonChatGPTYEKe(SchoolofComputerScience,HangzhouDianziUniversity,Hangzhou310018,China)AbstractWiththeadvancementofartificialintelligencetechnologyandthecontinuousimprovementofhardwarecompu-tingpower,largemodelshavegraduallybecomeahottopicandresearchdirection.ChatGPTisanadvancedlarge-scalelanguagemodelbasedonGPT-3.5architecture,developedbyOpenAI.Duetothecomplexityandvariabilityofmodernso-ciety,peopleneedsmarternaturallanguageprocessingtechnologiestomeetdifferentneeds,suchasautomatictransla-tion,abstractgeneration,questionansweringsystems,etc.ChatGPTistrainedbasedonalargeamountoftextdataandcannotachievemultimodalityonitsown.ThispaperdesignsanAIGAscheme,itusesChatGPTandPromptengineeringtomakedecisions,andcallsOpenAI’sAPItocompletedownstreammultimodaltasks.KeywordsChatGPT,OpenAI,AIGA,Promptengineering,Multimodal0引言随着数据量的增大,预训练模型成了一个研究热点,其由大公司或机构完成一些“完形填空”任务,通过自回归等方式对大模型进行预训练,最终学习到一些通用的语言特征知识。ChatGPT即为这样一项工作,其由OpenAI研发,基于约1750亿个参数GenerativePre-trainedTransformer(GPT)自然语言处理大模型构建,其训练数据包括互联网上的大量文本数据,如维基百科、新闻报道、电子书等,其可以利用这些数据进行无监督学习,并通过自我调整和改进来提高性能。ChatGPT的回...