Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

功能:优化多智能体系统中的通信效率和任务性能。
技术:基于迭代训练范式和强化学习算法。
应用:适用于信息不对称问答、复杂推理任务和多智能体游戏等场景。

正文(附运行示例)

Optima 是什么

公众号: 蚝油菜花 - Optima

Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。该框架通过一个迭代的生成、排名、选择和训练范式,显著提高了通信效率和任务效果。Optima不仅平衡了任务性能、令牌效率和通信可读性,还探索了多种强化学习算法,并集成了蒙特卡洛树搜索技术生成高质量的训练数据。

在多智能体任务中,Optima展示了超越单智能体基线和传统MAS的性能,实现了高达2.8倍的性能提升,并减少了令牌使用。Optima的效率提升为更有效的推理计算和改进的推理时间扩展法则提供了新的可能性。

Optima 的主要功能

  • 通信效率提升:优化多智能体系统(MAS)中的智能体间通信,减少完成任务所需的令牌数量,提高通信效率。
  • 任务性能增强:基于迭代训练和奖励函数的平衡,提升智能体在复杂任务中的表现,包括信息不对称问答和复杂推理任务。
  • 可扩展性:支持MAS在处理更大规模和更复杂的任务时保持有效性,提高系统的可扩展性。
  • 推理时间扩展法则改进:减少令牌使用,为改进推理时间扩展法则提供可能性,有助于在更低的计算成本下实现更好的性能。

Optima 的技术原理

  • 迭代训练范式:基于迭代的生成(generate)、排名(rank)、选择(select)和训练(train)范式,逐步优化智能体的行为。
  • 奖励函数:设计奖励函数,平衡任务性能、令牌效率和通信可读性,引导智能体在保持通信效率的同时完成任务。
  • 强化学习算法:探索包括监督式微调(SFT)、直接偏好优化(DPO)及混合方法在内的多种强化学习算法,优化智能体的行为。
  • 蒙特卡洛树搜索(MCTS):集成MCTS启发式技术,将对话轮次视为树节点,探索多样化的交互路径,生成高质量的DPO训练数据。
  • 多目标优化:基于奖励函数同时考虑多个目标,在提升任务性能的同时,注重通信效率和输出的可解释性。

如何运行 Optima

Optima的运行需要两个conda环境:一个用于vLLM部署,另一个用于训练,两者都使用Python 3.11。以下是设置环境的步骤:

vLLM 环境

conda create -n optima-vllm python=3.11
conda activate optima-vllm
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install vllm==0.5.3

训练环境

conda create -n optima-train python=3.11
conda activate optima-train
conda install nvidia/label/cuda-12.1.0::cuda-nvcc
conda install pytorch=2.3.1 torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
cd alignment-handbook
pip install -e .
cd ../
pip install -r requirements.txt

运行示例

以下是如何在ARC-C数据集上运行iSFT、iDPO和iSFT-DPO设置的示例:

iSFT 设置

MKL_THREADING_LAYER=GNU python sft_script.py \
    --train_config_path train/sft_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iDPO 设置

MKL_THREADING_LAYER=GNU python dpo_script.py \
    --train_config_path train/dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

iSFT-DPO 设置

MKL_THREADING_LAYER=GNU python sft_dpo_script.py \
    --train_config_path train/sft_dpo_recipes/arc.yaml \
    --vllm_env optima-vllm \
    --alignment_env optima-train

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 算法 搜索推荐
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
|
7月前
|
人工智能 自然语言处理 自动驾驶
大模型领域急需建立可解释AI理论
【1月更文挑战第21天】大模型领域急需建立可解释AI理论
56 2
大模型领域急需建立可解释AI理论
|
7月前
|
机器学习/深度学习 编解码 自动驾驶
速度快4倍 | MIT&交大&清华联合提出FlatFormer,一个非常高效的Transformer方法
速度快4倍 | MIT&交大&清华联合提出FlatFormer,一个非常高效的Transformer方法
146 0
|
7月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
297 0
|
存储 机器学习/深度学习 算法
一文概述联邦持续学习最新研究进展(3)
一文概述联邦持续学习最新研究进展
502 0
一文概述联邦持续学习最新研究进展(3)
|
存储 SQL Cloud Native
LlamaIndex 联合创始人下场揭秘:如何使用私有数据提升 LLM 的能力?
如何使用私有数据最大化发挥 LLM 的能力?LlamaIndex 可以解决这一问题。LlamaIndex 是一个简单、灵活、集中的接口,可用于连接外部数据和 LLMs。
485 0
|
机器学习/深度学习 存储 人工智能
一文概述联邦持续学习最新研究进展(1)
一文概述联邦持续学习最新研究进展
565 0
|
存储 数据可视化 数据安全/隐私保护
一文概述联邦持续学习最新研究进展(2)
一文概述联邦持续学习最新研究进展
551 0
|
机器学习/深度学习 人工智能 算法
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
145 0
|
机器学习/深度学习 安全 数据安全/隐私保护
专为决策树打造,新加坡国立大学&清华大学联合提出快速安全的联邦学习新系统
专为决策树打造,新加坡国立大学&清华大学联合提出快速安全的联邦学习新系统
138 0

热门文章

最新文章