开发者社区> 问答> 正文

人工智能的人类反馈强化学习(RLHF)指什么?

人工智能的人类反馈强化学习(RLHF)指什么?

展开
收起
夹心789 2024-06-27 12:02:59 67 0
1 条回答
写回答
取消 提交回答
  • "人类反馈强化学习(Reinforcement Learning with Human Feedback )是训练 GPT-3.5 系列模型而创建的。RLHF 主要包括三个步骤:使用监督学习训练语言模型;根据人类偏好收集比较数据并训练奖励模型;使用强化学习针对奖励模型优化语言模型。它使模型能够通过从人类获取反馈,从而不断改进自身学习技能,从而有效地适应实际环境。
    再简单的解释一下,因为 LLM 需要大量的训练数据。通过人工反馈从零开始训练它们是不合理的。所以可以通过无监督学习进行预训练,将现成的语言模型创建并做输出。然后我们训练另一个机器学习模型,该模型接收主模型生成的文本并生成质量分数。这第二个模型通常是另一个 LLM,它被修改为输出标量值而不是文本标记序列。
    为了训练奖励模型,我们必须创建一个 LLM 生成的质量标记文本数据集。为了组成每个训练示例,我们给主 LLM 一个提示并让它生成几个输出。然后,我们要求人工评估人生成文本的质量。然后我们训练奖励模型来预测 LLM 文本的分数。通过在 LLM 的输出和排名分数上进行训练,奖励模型创建了人类偏好的数学表示。
    最后,我们创建强化学习循环。主 LLM 的副本成为 RL 代理。在每个训练集中,LLM 从训练数据集中获取多个提示并生成文本。然后将其输出传递给奖励模型,该模型提供一个分数来评估其与人类偏好的一致性。然后更新 LLM 以创建在奖励模型上得分更高的输出。"

    2024-06-27 13:27:27
    赞同 2 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
【云栖精选6月刊】当AI来敲门,一刊尽览人工智能 立即下载
人工智能的商业化落地 立即下载
人工智能的投资机会 立即下载