RLHF再也不需要人类了！谷歌团队研究证明AI标注已达人类水平

2023-09-06 11:49:42 来源：IT之家阅读量：4802

ChatGPT 横空出世后，RLHF 成为研究人员关注的焦点。谷歌最新研究提出，不用人类标注，AI 标注偏好后，也能取得与 RLHF 一样的效果。

如果说，RLHF 中的「人类」被取代，可行吗？

谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是 AI 反馈强化学习。

结果发现，RLAIF 可以在不依赖人类标注员的情况下，产生与 RLHF 相当的改进效果，胜率 50%。

同时，谷歌研究再次证明了 RLAIF 和 RLHF，比起监督微调胜率都超过了 70%。

如今，大型语言模型训练中一个关键部分便是 RLHF。人类通过对 AI 输出的质量进行评级，让回应更加有用。

但是，这需要付出很多的努力，包括让许多标注人员暴露在 AI 输出的有害内容中。

既然 RLAIF 能够与 RLHF 相媲美，未来模型不需要人类反馈，也可以通过自循环来改进。

RLHF 不需要人类了

当前，RLHF 已经成为微调大模型的核心方法，包括 ChatGPT、Bard 等模型都采用这一范式。

具体来说，RLHF 分为三步:预训练一个监督微调 LLM；收集数据训练一个奖励模型；用 RL 微调模型。

有了 RLHF，大模型可以针对复杂的序列级目标进行优化，而传统的 SFT 很难区分这些目标。

然而，一个非常现实的问题是，RLHF 需要大规模高质量的人类标注数据，另外这些数据能否可以取得一个优胜的结果。

在谷歌这项研究之前，Anthropic 研究人员是第一个探索使用 AI 偏好来训练 RL 微调的奖励模型。

他们首次在「Constitutional AI」中提出了 RLAIF，发现 LLM 与人类判断表现出高度一致，甚至在某些任务上，表现优于人类。

但是，这篇研究没有将人类与人工智能反馈做对比，因此，RLAIF 是否可以替代 RLHF 尚未得到终极答案。

谷歌最新研究，主要就是解决这个问题。

研究人员在模型摘要任务中，直接比较了 RLAIF 和 RLHF。

给定 1 个文本和 2 个候选答案，使用现成的 LLM 给出一个偏好标注。

然后，根据 LLM 偏好和对比损失训练奖励模型。最后，通过强化学习微调策略模型，利用奖励模型给出奖励。

那么，谷歌与 Anthropic 提出的 RLAIF 方法有什么不同？

谷歌自己在文中解释道，

- 谷歌:根据 AI 标注的偏好训练奖励模型，然后进行 RL 微调。

- Constitutional AI:通过迭代，要求 LLM 根据宪法生成更好的响应，来改进监督学习模型。

AI 自标注，自我改进

谷歌在最新研究中提出的 RLAIF 方法，过程是怎样的？

大语言模型进行偏好标注

研究人员用「现成的」LLM 来标注对两个候选项之间的偏好。

这是一个针对一般用途进行预训练或指令调整的模型，但未针对特定下游任务进行微调。给定一段文本和两个候选摘要，LLM 被要求评价哪个摘要更好。LLM 的输入结构如下:

1. 序言

介绍和描述手头任务的说明

2. 多个样本实例

一段文本、一对摘要、思路的基本原理和偏好判断

3.要标注的样本

一段文本和一对要标注的摘要

4.结尾

提示 LLM 的结束字符串

在给 LLM 提供输入后，研究人员获得生成 token「1」和「2」的对数概率，并计算 softmax 以获得偏好分布。

从 LLM 获取偏好标注的方法有很多，例如从模型中解码自由形式的响应并启发式地提取偏好，或者将偏好分布表示为单热表示 (one-hot representation)。然而，研究人员没有尝试这些替代方案，因为他们的方法已经产生了很高的准确性。

研究人员试验了两种类型的序言:第一种是「Base」，它简单地询问「哪个摘要更好？」，第二种是「OpenAI」，它模仿了生成 OpenAI TL;DR 偏好数据集的人类偏好标注器的评级指令，包含有关构成强摘要的详细信息。如下图所示。

研究人员还通过在提示中添加少量样本来尝试上下文学习，其中手动选择样本来涵盖不同的主题。解决位置偏差。

之前的研究结果表明，向 LLM 展示候选项的顺序可能会影响 LLM 判断更喜欢的候选项。研究人员发现证据表明存在这种位置偏差，尤其是对于较小尺寸的标注 LLM 。

为了减轻偏好标注中的位置偏差，研究人员对每对候选项进行两次推理，候选项提交给 LLM 的顺序二次推理是相反的。然后对两个推推理的结果进行平均以获得最终的偏好分布。

思维链推理

研究人员尝试从 AI 标注器中引出思维链推理，以提高与人类偏好的一致性。

研究人员替换标准的结尾提示，然后解码一个 LLM 的回复。

最后，研究人员将原始提示、响应和原始结尾字符串“Preferred Summary=”连接在一起，并按照第 3.1 节中的评分过程来获得偏好分布。具体过程见下图。

在零样本提示中，LLM 没有给出推理应该是什么样子的示例，而在少量样本提示中，研究人员提供了模型要遵循的 COT 推理示例。示例请参见下图。

自洽性

对于思维链提示，研究人员还尝试了自洽性 —— 一种通过对多个推理路径进行采样并聚合每个路径末尾产生的最终答案来改进思维链推理的技术。

使用非零解码温度对多个思维链基本原理进行采样，然后按照上一节中的方法获得每个思维链的 LLM 偏好分布。然后对结果进行平均以获得最终的偏好分布。

AI 反馈的强化学习

在 LLM 对偏好进行标注后，将训练奖励模型来预测偏好。由于研究人员的方法产生软标注(Soft Label)，他们采用 RM 生成的奖励分数的 softmax 的交叉熵损失(cross-entropy loss)，而不是奖励模型中提到的损失。

Softmax 将 RM 的无界分数转换为概率分布。

在 AI 标注数据集上训练 RM 可以被视为模型蒸馏的一种形式，特别是因为研究人员的 AI 标注器通常比 RM 更大、更强。

另一种方法是绕过 RM 并直接使用 AI 反馈作为 RL 中的奖励信号，尽管这种方法的计算成本更高，因为 AI 标注器比 RM 更大。

通过经过训练的 RM，研究人员使用适用于语言建模领域的 Advantage Actor Critic 算法的修改版本进行强化学习。

评价

研究人员通过三个指标评估他们的结果 - AI 标注器对齐、配对准确度和胜率。

AI 标注器对齐时用来衡量 AI 标注偏好相对于人类偏好的准确性。

对于单个示例，将软人工智能标注的偏好转换为二进制表示。如果标注与目标人类偏好一致则分配 1，否则分配 0。

配对准确性是衡量经过训练的奖励模型相对于一组保留的人类偏好的准确性。

给定共享上下文和一对候选响应，如果根据人类标注，RM 对首选候选的评分高于非首选候选，则配对准确度为 1。否则该值为 0。该数量是多个示例的平均值，以衡量 RM 的总体精度。

胜率通过衡量人类更喜欢一项策略频率来评估两项策略的端到端质量。

给定一个输入和两次生成结果，人类标注者选择首选哪一个生成结果。策略 A 优于策略 B 的实例百分比称为「A 对 B 的胜率」。

实验细节

研究人员使用由 OpenAI 管理的经过过滤的 Reddit TL;DR 数据集。TL;DR 包含来自 Reddit 的约 300 万个帖子，涉及各种主题以及原作者撰写的帖子摘要。

数据还经过 OpenAI 过滤，以确保高质量，其中包括使用普通大众可以理解的 Reddit 主题白名单。

此外，仅包含摘要中含有 24 到 48 个标注的帖子。过滤后的数据集包含 123,169 个帖子，其中约 5% 作为验证集。

有关数据集的更多详细信息可以在原始论文中找到。此外，OpenAI 从过滤后的 TL;DR 数据集中整理了一个人类偏好数据集。

对于给定的帖子，根据不同的策略生成两个候选摘要，并要求标注器对他们喜欢的摘要进行评分。总数据集包含大约 92k 成对比较。

LLM 标注

为了评估 AI 标注技术的有效性，研究人员从 TL;DR 偏好数据集中选择示例，其中人类标注者会偏好置信度更高的摘要。

研究人员在数据集训练分割的随机 15% 子集上评估 AI 标注器对齐，以实现更快的实验迭代，生成 2851 个评估示例。

对于奖励模型训练，TL;DR 偏好数据集的完整训练分割由 LLM 标注并用于训练，无论置信度分数如何。

模型训练

研究人员使用 PaLM 2 Extra-Small 作为初始检查点，在 OpenAI 过滤后的 TL;DR 数据集上训练 SFT 模型。

然后，研究人员从 SFT 模型初始化 RM，并在 OpenAI 的 TL;DR 人类偏好数据集上训练它们。

对于表 1 和 5.1 中的结果，研究人员使用 PaLM 2L 生成 AI 标注的偏好，使用「OpenAI + COT 0-shot」提示(，没有自洽性，然后在完整的偏好上训练 RM 数据集。

对于强化学习，研究人员使用 Advantage Actor Critic 来训练策略。策略和价值模型都是从 SFT 模型初始化的。研究人员使用过滤后的 Reddit TL;DR 数据集作为初始状态来推出他们的策略。

人类评估

研究人员收集了 1200 个人类评级来评估 RLHF 和 RLAIF 策略。对于每项评级任务，评估人员都会收到一篇帖子和 4 个根据不同策略生成的摘要，并要求按照质量顺序对它们进行排名，不存在任何联系。

帖子取自 TL;DR 监督微调数据集的保留集，该数据集未用于任何其他评估。一旦收集了这些排名，就可以计算任意两项策略的胜率。

胜率 50%，打平手

RLAIF vs. RLHF

文章开篇，已经介绍了谷歌将 RLAIF 与 RLHF 相比较的优势，结果表明，两种方法有着相似的性能。

具体来说，与基线 SFT 相比较，在 71% 的情况下，人类评估者更喜欢 RLAIF。73% 的情况下，RLHF 优于 SFT。

研究人员还直接比较了 RLAIF 和 RLHF 的胜率，发现它们受欢迎程度是等同的 —— 即胜率都是 50%。

为了进一步了解这两种策略的差异，谷歌对其生成的摘要进行了定性比较。

另外，他们还将 RLAIF 和 RLHF 摘要与人工编写的参考摘要进行比较。79% 的情况下，RLAIF 生成的摘要优于参考摘要，80% 的情况下，RLHF 结果优于参考摘要。

可见，RLAIF 和 RLHF 与参考摘要之间的胜率只差 1%，并没有显著的差异。

值得注意的是，研究人员还发现，RLHF 策略出现幻觉的频率，往往高于 RLAIF，如上表红色标注的文字。

在控制摘要长度后，RLAIF 和 RLHF 策略仍然优于基线 SFT，并取得了相似的胜率。

这些结果表明，RLAIF 不需要依赖于人工标注，是 RLHF 的可行替代方案。

提示技巧

在使用提示技巧中，谷歌团队尝试了三种类型的提示技术，preamble specificity、CoT、少样本上下文学习。

结果发现，通过详细的 OpenAI 序言进行提示，并进行 CoT 推理，AI 标注器可以取得 78% 的一致性。

而情境学习不会提高准确性，甚至可能会使准确性变得更糟。

自洽性

研究人员使用 4 和 16 个样本进行自洽性实验，解码温度为 1。

以 T = 1 对多个思维链原理进行采样，结果与人类偏好的一致性较低。

大模型标注器的规模

研究还发现，扩大大模型标注器的参数规模，可能会产生更高质量的偏好标注。

偏好示例数量

奖励模型的准确性如何随训练示例进行变化？

研究人员发现，需要经过数千个示例训练后，奖励模型的性能接近于完整数据集的训练。

结论

研究人员证明了 RLAIF 可以在不依赖人类标注者的情况下产生与 RLHF 相当的改进。

虽然这项工作凸显了 RLAIF 的潜力，但依然有一些局限性。

首先，这项研究仅探讨了总结任务，关于其他任务的泛化性还需要进一步研究。

其次，研究人员没有估计 LLM 推理在经济成本上是否比人工标注更有优势。

此外，还有一些有趣的问题值得研究，例如 RLHF 与 RLAIF 相结合是否可以优于单一的一种方法，使用 LLM 直接分配奖励的效果如何，改进 AI 标注器对齐是否会转化为改进的最终策略，以及是否使用 LLM 与策略模型大小相同的标注器可以进一步改进策略。

网友热议

谷歌发表了两篇关于 RL 的论文:

1. RLAIF:训练与人类反馈类似的奖励模型

2. ReST:使用生成模型促进自训练将这两篇论文结合起来，可以满足那些对数据饥渴的人工智能算法

半个月前，谷歌 DeepMind 刚刚提出了一个新算法 ReST，为了使大规模语言模型与人类偏好保持一致。

具体通过离线强化学习方法，改进大型语言模型的翻译质量，以更好地符合人类偏好。

一位研究人员表示，根据定性测试，Anthropic 的 Claude 模型似乎比 GPT-4 弱。这可能是 RLHF / RLAIF 方法或预训练造成的。目前还不清楚这些方法在实际应用中的泛化效果是否更好，即使它们在学术基准上的表现更好。

我不会说这降低了人工标注的重要性，但有一点可以肯定，人工智能反馈的 RL 可以降低成本。人工标注对于泛化仍然极其重要，而 RLHF+RLAIF 混合方法比任何单一方法都要好。

大部分网友认为论文是很大的突破，但也有网友觉得这和 Anthropic 在几个月前提出的 Constitute Claude 中的 RLAIF 似乎没有本质的区别。

参考资料:

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

为你推荐