❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 开源模型:Sky-T1是首个开源的推理AI模型,训练数据和代码均已公开,支持从零开始复现。
- 低成本训练:模型训练成本不到450美元,显著低于传统高性能模型的训练成本。
- 高性能表现:在数学和编程评估中表现优异,适用于教育、科研和开发等领域。
正文(附运行示例)
Sky-T1 是什么
Sky-T1是由加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。它是首个开源的推理模型,训练数据集和代码均已公开,用户可以从零开始复现该模型。模型的训练成本不到450美元,显著降低了高性能AI模型的训练门槛。
Sky-T1的训练数据由阿里巴巴的QwQ-32B-Preview推理模型生成,经过精心筛选和重构,基于OpenAI的GPT-4o-mini进行处理,更易于模型训练。在性能方面,Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI早期版本o1的预览版本,同时在LiveCodeBench的编程评估中也表现更佳。
Sky-T1 的主要功能
- 开源复现:训练数据集和代码均已公开,用户可以从零开始复现该模型。
- 低成本训练:模型的训练成本不到450美元,显著低于以往同等性能模型的数百万美元训练成本。
- 推理能力:Sky-T1能有效进行自我事实核查,避免一些常见陷阱,在得出解决方案时可能需要更长时间,从几秒到几分钟不等。
- 高性能表现:在MATH500和LiveCodeBench的评估中表现优异,适用于数学问题解决和编程评估。
如何运行 Sky-T1
1. 克隆项目仓库
首先,克隆Sky-T1的GitHub仓库到本地:
git clone https://github.com/NovaSky-AI/Sky-T1-32B-Preview.git
2. 项目目录介绍
Sky-T1-32B-Preview的数据整理、训练和评估的代码和脚本,您可以在每个目录中找到更多详细信息。
/data
:用于训练Sky-T1-32B-Preview的17,000条训练数据。我们还添加了来自STILL-2模型的科学和谜语部分。skythought/tools
:Sky-T1的训练数据整理和评估。为了生成我们的训练数据,我们使用了QwQ-32B-Preview模型。我们整理了数据混合,以涵盖需要推理的多样领域,并使用拒绝采样程序来提高数据质量。skythought/train
:Sky-T1的训练脚本。我们使用Llama-Factory进行训练。模型训练了3个epoch,学习率为1e-5,批次大小为96。我们的模型训练在8个H100 GPU上使用DeepSpeed Zero-3卸载技术完成,耗时19小时,根据Lambda Cloud的价格,费用约为450美元。
3. 运行推理示例
在运行前需要先安装必要的Python库:
pip install transformers
使用提供的示例代码运行推理:
from transformers import pipeline
messages = [
{
"role": "user", "content": "Who are you?"},
]
pipe = pipeline("text-generation", model="NovaSky-AI/Sky-T1-32B-Preview")
pipe(messages)
资源
- 项目官网:https://novasky-ai.github.io/posts/sky-t1
- 在线演示 Demo:http://164.152.23.196:3000/
- Github 仓库:https://github.com/NovaSky-AI/SkyThought
- HuggingFace 仓库:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦