请仔细阅读本报告末页声明证券研究报告|行业周报2023年02月19日计算机ChatGPT算力需求是如何扩张的算力需求陡增,ChatGPT初始投入或近十亿美元。1)和传统人工智能小模型不同,Chatgpt采用大模型支撑,可以满足通用场景需要。而这也带来了模型参数量及预训练数据量的扩张,算力成为衡量投入的关键指标。2)根据我们估算,以Chatgpt日前约2500万日活、使用英伟达A100芯片等作为基础假设,访问阶段算力初始投入约近8亿美元,训练阶段算力投入约为单次140万美元;另外,考虑Google每日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续释放。文字交互仅为起点,大模型迈向输入输出多模态。1)NLP只是大模型的应用领域之一,未来大模型的输入输出可以不仅限于文字,虽然当前影响力最强的ChatGPT是NLP模型,但还可以包括图像、视频等多种形式,成为多模态模型,例如OpenAI的绘画AI模型DALL-E2,在AIGC界引起过巨大反响的StableDiffusion等等。2)由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字,导致训练所需数据量远超语言模型。以Stablediffusion为例,根据公司官网信息披露,该模型训练数据集为LAION5B的一个子数据集,而LAION5B的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是GB级的)。无独有偶,DALL-E2模型在训练时使用了6.5亿张图片,按单张图片大小512*512像素(约256kb)估算,整体训练数据集大小高达约155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望进一步扩张。应用形式多点开花,算力或迎来高速扩张时代。1)文字:Outlook等主流邮箱已可利用OpenAI技术及GPT自动生成格式化的电子邮件回复,考虑全球每天超3000亿封的电子邮件发送量、Outlook约8%的市占率、每个单词数据量约为5B等因素,我们预计,接入Outlook邮件场景后,Chatgpt每日生成数据量或为261GB,相比目前官网问答式场景约33GB的数据量、或有近8倍提升。2)语音:Teams与OpenAI已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为10美元/月。相比文字,音频数据量明显更大,约为2B/秒;参考Teams每日约60亿分钟的总会议时长,考虑相关功能使用比例,Teams每日新增数据量需求约为336GB。3)图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技Filmora也已计入OpenAI,为视频创作者提供更定制化的图片...