OpenAI发布能够以对话形式交互的模型ChatGPT。2022年11月30日,人工智能实验室OpenAI推出了一款名为ChatGPT的模型,该模型能够以对话形式交互。对话模式使ChatGPT能够回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求。就发展历程来看,ChatGPT根据GPT-3.5系列的一个模型进行微调,两者均于微软AzureAI服务器上训练。相较而言原先GPT-3的训练集只有文本,本次新推出的ChatGPT新增了代码理解和生成的能力。此外,ChatGPT是2022年1月推出的InstructGPT的兄弟模型。InstructGPT增加了人类对模型输出结果的演示,并且对结果进行了排序,在此基础上完成训练,可以比GPT-3更好的完成人类指令。人工智能实验室OpenAI于2015年成立,由Twitter现任CEO埃隆·马斯克和OpenAI现任CEO萨姆·奥特曼及其他投资者共同创立。随着ChatGPT的发布,马斯克在Twitter上公开表示了对OpenAI的认可,并且通过在Twitter上展示自己询问ChatGPT怎么设计Twitter时ChatGPT给出的回复,进一步扩大了对ChatGPT的关注度。目前,ChatGPT正处于免费适用阶段。ChatGPT相较GPT3.5主要有三点提升。(1)ChatGPT能够记住之前的对话,连续对话的感觉更加用户友好。(2)ChatGPT可以承认错误,并能够根据用户的提示对原答案进行修正。(3)ChatGPT可以质疑不正确的前提。GPT-3刚发布后很多人测试的体验并不好,主要是因为AI经常创造虚假的内容,尽管这些内容话语通顺,但脱离实际。例如,GPT-3面对类似“哥伦布2015年来到美国的情景”的问题,并不能识别假设的逻辑错误,但ChatGPT面对类似问题时,能够立刻意识到哥伦布并不属于这个时代,并向提问人发出质疑。我们认为,ChatGPT能够给用户更好的使用体现,ChatGPT通过与用户交互的过程,能够不断修正补充样本,从而实现深度训练。ChatGPT的能力提升得益于其训练方法。大模型是指通过在模型中加入海量参数,使得模型在语料的覆盖范围、丰富度上以绝对绝对规模增长。当下大模型的工作范式是“预训练-微调”。首先在数据量庞大的公开数据集上训练,然后将其迁移到目标场景中(比如跟人类对话),通过目标场景中的小数据集进行微调,使模型达到需要的性能。因此,为提高新一代模型对人类提问的适配能力,要么需要改造任务,要么需要微调模型,总之是让模型和任务更加匹配,从而实现更好的效果。ChatGPT新加入的训练方式被称为“从人类反馈中强化学习”(ReinforcementLearningfromHumanFeedback,RLHF),即采取模型微调的形式。我们...