ChatGPT技术、国产化尝试和开源模型元语AI徐亮,www.clueai.cn自然语言大模型Model-as-a-Service服务商群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料概览•背景•1.ChatGPT技术•1)技术演进:GPT-->InstructGPT-->ChatGPT•2)存在什么样的问题?•3)学习三阶段•4)数据组织和效果评估•2.国产化•1)背景与问题•2)解决思路•3)效果与实践•3.开源模型•1)中文开源模型•2)基于自有数据训练出本地模型•3)可能的问题、差距和如何进一步提升效果背景•ChatGPT:通用功能型助手•2022年12月5日,OpenAI首席执行官SamAltman在社交媒体上发文称,ChatGPT推出五天,已突破100万用户•AI聊天机器人ChatGPT爆火出圈!微软正洽谈100亿美元增持股份背景为什么这么受欢迎:1)更好的理解用户意图与生成能力---->更好的效果;2)便利的使用形式(对话机器人)----->人人都能使用ChatGPT技术:模型演进ChatGPT技术:之前的模型存在什么样的问题?•对齐问题:大模型生成的响应不符合用户意图•原因:语言模型训练的训练目标是预测下一个词,而不是按照用户意图来生成•怎么解决:加入基于人类反馈的强化学习(RLHF)ChatGPT技术:三步走1.真实用户输入的监督学习2.奖励函数,评价模型的生成效果3.基于人类反馈的强化学习,生成更符合人类需要的内容参考:InstructGPT,TraininglanguagemodelstofollowinstructionswithhumanfeedbackChatGPT技术:数据组织和效果评估•冷启动:•1)现有系统用户prompt;•2)标注相似的prompt;•3)标注人员自己想的prompt•三部分数据(77K真实数据):•1.基于真实用户prompt的监督学习数据•(用户prompt,模型response,13k)•2.用于奖励模型训练的数据(一个prompt多个response的排序,33k)•3.基于奖励模型使用强化学习进行...