HuatuoGPT-o1：开源的医学推理大模型，通过复杂推理和强化学习提升医学问题解决能力

2025-01-02 896

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型，通过复杂推理和强化学习提升医学问题解决能力。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：HuatuoGPT-o1 能够进行复杂的医学推理，识别错误并优化答案。
技术：采用两阶段训练方法，结合验证器反馈和强化学习提升模型性能。
应用：广泛应用于医学诊断、治疗方案制定、医学教育等领域。

正文（附运行示例）

HuatuoGPT-o1 是什么

公众号: 蚝油菜花 - HuatuoGPT-o1

HuatuoGPT-o1 是香港中文大学（深圳）和深圳大数据研究院联合推出的医学高级推理大模型。该模型通过复杂的推理能力提升解决医学问题的性能，采用两阶段训练方法：首先，使用医学验证器引导搜索正确的推理路径来微调模型；其次，应用基于验证器反馈的强化学习进一步增强模型的复杂推理能力。

HuatuoGPT-o1 能够生成长链的思考过程，识别错误，并尝试不同的策略精细化答案。实验结果表明，模型在多个医学基准测试中优于通用和特定于医学的基线模型，且从复杂推理和强化学习中显著受益。

HuatuoGPT-o1 的主要功能

复杂推理：HuatuoGPT-o1 能进行复杂的推理，解决医学领域的复杂问题。
错误识别与修正：模型能识别其答案中的错误，尝试不同的策略修正和优化答案。
长链思考：HuatuoGPT-o1 能产生长的思考链（Chain-of-Thought, CoT），展示推理过程。
自我改进：基于强化学习（Reinforcement Learning, RL），模型能自我改进，进一步提升复杂推理能力。

HuatuoGPT-o1 的技术原理

两阶段训练方法：
- 第一阶段：学习复杂推理：基于策略搜索引导下的验证器反馈（正确或错误）构建复杂推理轨迹，微调LLM。
- 第二阶段：通过RL增强复杂推理：在第一阶段获得复杂推理技能后，用基于验证器的稀疏奖励进一步优化模型。
可验证医学问题：构建40K个可验证的医学问题，问题具有客观的、唯一的正确答案，支持模型验证解决方案的正确性。
医学验证器：用GPT-4o作为验证器，检查模型生成的答案（CoT和结果）是否与真实答案相符，提供二进制反馈。
强化学习（RL）：用Proximal Policy Optimization（PPO）算法进行RL训练，基于验证器提供的奖励指导模型自我改进，优化复杂推理路径。
链式思考（CoT）：模型生成的CoT包括“内部思考”、“最终结论”和“验证”三个部分，模拟人类解决问题的思维方式。

如何运行 HuatuoGPT-o1

1. 安装依赖

首先，确保你已经安装了 transformers 库：

pip install transformers

2. 加载模型和分词器

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B")

3. 生成推理结果

input_text = "How to stop a cough?"
messages = [{
   "role": "user", "content": input_text}]

inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

资源

GitHub 仓库：https://github.com/FreedomIntelligence/HuatuoGPT-o1
HuggingFace 模型库：https://huggingface.co/collections/FreedomIntelligence/huatuogpt-o1
arXiv 技术论文：https://arxiv.org/pdf/2412.18925

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

HuatuoGPT-o1：开源的医学推理大模型，通过复杂推理和强化学习提升医学问题解决能力

🚀 快速阅读

正文（附运行示例）

HuatuoGPT-o1 是什么

HuatuoGPT-o1 的主要功能

HuatuoGPT-o1 的技术原理

如何运行 HuatuoGPT-o1

1. 安装依赖

2. 加载模型和分词器

3. 生成推理结果

资源

自然语言处理

热门文章

最新文章

相关课程

相关电子书