第39章 关于ChatGPT的一些解读中(1/2)
关于ChatGPT
1、ChatGPT:更智能的AI对话交互工具
ChatGPT是由OpenAI公司于2022年11月发布的聊天机器人模型,可以通过对话形式实现交互,能够回答连续问题,承认错误,质疑不正确的前提,并拒绝不合理的需求。ChatGPT的对话互动可以实现普通聊天、信息咨询、撰写诗词作文、修改代码等,由于更类人的智能化表现,ChatGPT推出后受到广泛关注,上线不到一周用户量突破100万。2023年1月,微软CEO表示计划将ChatGPT等人工智能工具整合到所有产品中,并作为平台提供给其他企业使用。Buzzfeed和亚马逊也在探索ChatGPT应用场景。
GPT引入新的模型训练方法,AI行业发展有望加速GPT通过Transforr为基础的预训练语言模型,此前已公布GPT-1、GPT-2、GPT-3三个模型,ChatGPT是对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。ChatGPT引入了RLHF(基于人类反馈的强化学习)方法,
方法分为三个步骤:1)有监督地调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的propt列表生成输出的有监督的策略(SFT模型);2)模拟人类偏好:标注者们对相对大量的SFT模型输出进行投票,创建一个由比较数据组成的新数据集,训练建立模型(RM);
3)近端策略优化(PPO):使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型。我们认为,ChatGPT的成功展示出AI大模型的应用潜力,新方法的引入有望加速NLP算法及AI行业发展。
本章未完,点击下一页继续阅读。