1三分钟看懂ChatGPT量子位智库·火线报告智库小助手请注明所需社群主题智库负责人请注明身份及来意分析师:丁乔dingqiao@qbitai.com量子位智库获取更多最新资料请加微信:chensasa666量子位科技简报——ChatGPT2技术•是什么ChatGPT是一个基于语言模型GPT-3.5的聊天机器人,ChatGPT模型是InstructGPT的姊妹模型(siblingmodel),使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。•GPT起源GenerativePre-TrainedTransformer(GPT)是一系列基于Transformer的深度学习语言模型。OpenAI于2018年6月在题为《ImprovingLanguageUnderstandingbyGenerativePre-Training》的论文中提出了第一个GPT模型GPT-1。从这篇论文中得出的关键结论是,Transformer架构与无监督预训练的结合产生了可喜的结果。GPT-1以无监督预训练+有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言理解”。2019年2月,OpenAI发表了第二篇论文“LanguageModelsareUnsupervisedMultitaskLearners”,其中介绍了由GPT-1演变的GPT-2。尽管GPT-2大了一个数量级,但它们在其他方面非常相似。两者之间只有一个区别:GPT-2可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下,在多项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。随后,2020年5月,OpenAI发表《LanguageModelsareFew-ShotLearners》,呈现GPT-3。GPT-3比GPT-2大100倍,它拥有1750亿个参数。然而,它与其他GPT并没有本质不同,基本原则大体一致。尽管GPT模型之间的相似性很高,但GPT-3的性能仍超出了所有可能的预期。2022年11月底,围绕ChatGPT机器人,OpenAI进行了两次更新。11月29日,OpenAI发布了一个命名为“text-davinci-003”(文本-达芬奇-003”)的新模式。在11月30日发布它的第二个新功能:“对话”模式。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。工作原理•概述使用机器学习算法来分析和理解文本输入的含义,然后根据该输入生成响应。该模型在大量文本数据上进行训练,使其能够学习自然语言的模式和结构。•细节ChatGPT模型使用一种称为人类反馈强化学习(RLHF)的机器学习进行训练,可以模拟对话、回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学习的奖励模型,OpenAI收集了比较数据,其中包含两个或多个按质量排序的响应模型。为了使...