10行代码媲美RLHF,用社交游戏数据训练社会对齐模型

简介: 10行代码媲美RLHF,用社交游戏数据训练社会对齐模型


机器之心编辑部

人类大脑中真的存在一个打分模型负责价值判断吗?


让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节。相应的训练也被称为价值对齐 (value alignment)。

当前主流的方案是 ChatGPT 所采用的 RLHF (Reinforcenment Learning from Human Feedback),也就是在人类反馈上进行强化学习。这一方案首先先训练一个 reward model (价值模型)作为人类判断的代理。代理模型在强化学习阶段为生成式语言模型的提供奖励作为监督信号。

这一方法存在如下痛点:

1. 代理模型产生的奖励很容易被破解或者篡改。比如如果代理模型的训练语料中,比较长的并且详细的文本大部分被标记为高分,那么代理模型很可能错误奖励冗长但是却不切题的回复。多个显式的奖励目标很可能相互冲突,比如无害的回答很可能没有信息量。

2. 在训练过程中,代理模型需要和生成式模型进行不断交互,而这一过程可能非常耗时且效率不高。为了保证高质量的监督信号,代理模型不应小于生成式模型,这也就意味着在强化学习优化过程中,至少有两个比较大的模型需要交替进行推理(判断得到的奖励)和参数更新(生成式模型参数优化)。这样的设定在大规模分布式训练中可能会非常不便。

3. 价值模型本身并无和人类思考模型上明显的对应。我们脑海中并没有一个单独的打分模型,而且实际上长期维护一个固定的打分标准也非常困难。相反,我们的成长过程中价值判断的形成大部分来自每天的社交 —— 通过对相似场景的不同社交反馈的分析,我们逐渐意识到什么是会被鼓励的,什么是不允许的。这些通过大量 “社交 — 反馈 — 改进” 而逐渐积累的经验和共识成为了人类社会共同的价值判断。

最近一项来自达特茅斯,斯坦福,谷歌 DeepMind 等机构的研究表明,利用社交游戏构造的高质量数据配合简单高效的对齐算法,也许才是实现 alignment 的关键所在。




作者提出一种在多智能体游戏数据上训练的对齐方法。基本思想可以理解为将训练阶段的奖励模型和生成式模型的在线交互 (低采样率,存在奖励破解问题)转移到游戏中大量自主智能体之间的离线交互之中(高采样率,提前预演博弈)。游戏环境的运行独立于训练,并且可以大量并行。监督信号从取决于代理奖励模型的性能变成取决于大量自主智能体的集体智慧。


为此作者设计了一个虚拟社会模型,称之为沙盒 Sandbox。沙盒是一个格点构成的世界,每一个格点是一个 social agent (社交体)。社交体具有记忆系统,用于存储每一次交互的问题,回答,反馈等各种信息。在社交体每一次对于问题做出回答时,都要先从记忆系统中检索并返回和问题最相关的 N 条历史问答,作为这一次回复的上下文参考。通过这一设计,社交体能在多轮互动中的立场不断更新,且更新的立场能和过去保持一定延续性。初始化阶段每一个社交体都有不同的预设立场。

将游戏数据转化为 alignment 数据
在实验中作者使用 10x10 的格点沙盒(一共 100 个社交体)进行社会仿真,且制定了一个社会规则(即所谓 Sandbox Rule):所有社交体必须通过使自己对于问题的回答更加 socially aligned (社交对齐)来给其它社交体留下好的印象。此外沙盒还部署了没有记忆的观察者,在每一次社交前后,给社交体的答复做出打分。打分基于 alignment 和 engagement 两个维度。

使用不同模型在沙盒中的模拟人类社会

作者利用沙盒 Sandbox 测试了不同大小,以及不同训练阶段的语言模型。整体而言,经过 alignment 训练的模型 (即所谓 “对齐后的模型”),比如 davinci-003, GPT-4,和 ChatGPT,能在更少的交互轮次中就能生成符合社会规范的回复。换句话说,alignment 训练的意义就在于让模型在 “开箱即用” 的场景下更加安全,而不需要特别的多轮对话引导。而未经 alignment 训练的模型,不仅需要更多的交互次数使回复达到 alignment 和 engagement 的整体最优,而且这种整体最优的上限显著低于对齐后的模型。


作者同时提出一种简便易行的对齐算法,称为 Stable Alignment (稳定对齐),用于从沙盒的历史数据中学习 alignment。稳定对齐算法在每一个 mini-batch (小批次)中进行打分调制的对比学习 —— 回复的得分越低,对比学习的边界值就会被设定的越大 —— 换句话说,稳定对齐通过不断采样小批次数据,鼓励模型生成更接近高分回复,更不接近低分回复。稳定对齐最终会收敛于 SFT 损失。作者还对稳定对齐和 SFT,RLHF 的差异进行了讨论。


作者特别强调来自沙盒 Sandbox 的游戏的数据,由于机制的设定,大量包含通过修订 (revision)而成为符合社会价值观的数据。作者通过消融实验证明这种大量自带渐进式 (step-by-step)改进的数据是稳定训练的关键。



作者还和当前主流对齐算法性能和训练稳定性进行了性能上的比较,证明稳定对齐不仅比 reward modeling 更稳定,而且在通用性能和 alignment 性能上都足以媲美 RLHF (由于 ChatGPT 使用未公开的模型,数据和算法,因此仅作为参考)。

实例生成结果:


更多细节请参考论文。

相关文章
|
前端开发
前端如何支持PDF、Excel、Word在线预览 #42
前端如何支持PDF、Excel、Word在线预览 #42
963 0
|
监控 安全 关系型数据库
CentOS7下部署OSSEC开源主机入侵检测系统(HIDS)并接入到GrayLog
CentOS7下部署OSSEC开源主机入侵检测系统(HIDS)并接入到GrayLog
3354 1
CentOS7下部署OSSEC开源主机入侵检测系统(HIDS)并接入到GrayLog
|
2月前
|
安全 搜索推荐 API
巧用拼多多API,精准定位下沉市场,销量一路狂飙!
本文探讨如何利用拼多多开放平台API,精准洞察下沉市场用户需求与行为,通过数据驱动实现选品优化、精准营销与个性化运营,助力商家提升销量。涵盖热销分析、用户画像、定向优惠等场景,强调合规与技术落地要点,打造高效增长闭环。(238字)
175 0
|
9月前
|
人工智能 监控 前端开发
基于 Next.js 的书法字体生成工具架构设计与 SSR 优化实践
本项目是一款书法字体生成工具,采用 Next.js 14(App Router)与 Tailwind CSS 构建前端,阿里云 Serverless 部署后端。通过混合渲染策略(SSG/SSR/CSR)、Web Worker 异步计算及 CDN 字体分片加载优化性能。服务端借助阿里云函数计算处理计算密集型任务,将平均耗时从 1200ms 降至 280ms,支持 1000+ QPS。动态路由与 ARMS 监控提升工程化水平,未来计划引入 WebGPU 和 AI 字体风格迁移技术,进一步优化用户体验。
|
JavaScript 前端开发 网络安全
Node.js和php
【8月更文挑战第4天】Node.js和php
263 3
|
Java Nacos Sentinel
Spring Cloud Alibaba:一站式微服务解决方案
Spring Cloud Alibaba(简称SCA) 是一个基于 Spring Cloud 构建的开源微服务框架,专为解决分布式系统中的服务治理、配置管理、服务发现、消息总线等问题而设计。
2809 13
Spring Cloud Alibaba:一站式微服务解决方案
|
数据可视化 Linux 网络安全
阿里云Windows服务器的连接和使用
关于命令行的mstsc远程连接Windows服务器和宝塔客户端连接服务器的区别和体验。
1731 0
阿里云Windows服务器的连接和使用
J3
|
数据采集 数据可视化 数据挖掘
样本大小如何影响统计结果精确性
一天,我在漫无目的地游走于数据的海洋中,突然有位科研小伙伴跑来问我:“为啥样本大小会影响统计检验结果的精确性呢?”哎呀,这不是小菜一碟嘛!但怎么回答才能展现出我的风采呢?我不就是那个总爱在数据世界里溜达的数据侠客吗!
J3
627 1
样本大小如何影响统计结果精确性
|
机器学习/深度学习 自然语言处理 数据可视化
1x1卷积详解:概念、优势和应用
1x1卷积详解:概念、优势和应用
906 0
1x1卷积详解:概念、优势和应用
字符串匹配 正则表达式函数之match、test、exec、search、split、replace使用详解
字符串匹配 正则表达式函数之match、test、exec、search、split、replace使用详解
377 0