社区供稿 | Llama3-8B中文版!OpenBuddy发布新一代开源中文跨语言模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。

此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k

658d681b-8d58-41ee-8852-3193b0541fbf[1].png

未来,我们计划基于Llama3-8B、70B基座发布更多版本,并针对性地提升模型的中文编码效率和长文能力。

Llama3-8B:刷新10B以下模型的多项纪录


当地时间4月19日,Meta发布了Llama-3 8B、70B两款模型。其中,尤为值得注意的是Llama3-8B模型,此模型在性能、语料规模、算力消耗等方面打破了此前10B小模型的纪录。

根据Scaling Law法则,业界普遍认为8B模型的最佳训练数据规模在0.2T(2000亿)Tokens左右。这种观点被各类开源、闭源模型厂商广泛接纳,并作为训练集规模决策的参考。

与此相反的是,在Llama3中,Meta没有在小模型上遵循现有的Scaling Law,而是投入了巨量的计算资源和数据,用于尽可能提升8B小模型的性能。

根据Meta的技术报告,以及来自NVIDIA的公开信息,Llama3训练过程在二万余张H100卡组成的计算集群上运行,并在8B模型上消耗了共计130万GPU小时数。数据集规模高达15T(15万亿)Tokens,是Scalilng Law所建议的规模的75倍。同时,为了进一步提升数据集的质量,Meta使用了上一代Llama2模型,对训练数据集进行分类和筛选。

技术报告中显示,使用如此巨量的高质量数据训练8B小模型时,模型的性能在后期仍以对数线性的模式不断进步。这意味大量增加数据集带来的收益虽然并非线性,但确实能提升8B小模型的性能。

ae4f8f3e-424d-48c0-a4c8-b985132e3d7b[1].png

基于Meta提供的测试结果,Llama3-8B预训练模型在多个指标上,尤其是在考察模型知识储备和理解能力的MMLU、AGIEval等基准上,均优于之前业界广受欢迎的Mistral-7B模型。

Llama3 License:7亿月活内可商用、更明确的跨语言许可


Llama3模型在商用许可方面和上一代模型相似:总月活用户数低于7亿的公司(含关联公司)可以免费商用。

此外,针对此前社区讨论的语言限制问题,本次Llama3发布时在Model Card中做出了明确的说明:

96e3c237-78f9-4274-a0d3-3b383777a61f[1].png

Llama3基座模型本身的预期内使用方式局限于英语。但是,开发者可以将Llama3模型进一步训练微调,使得模型在满足Meta对安全性、无害性的要求等条款规定的前提下,增加对其它语言的支持。

OpenBuddy Llama3-8B:跨语言能力、强中文认知能力


由于Llama3本身只为英文场景能力优化,且训练集中多数数据为英文数据。这在增强Llama3英文基准上的表现的同时,也使得模型在其它语言上的知识储备、语言理解能力较弱,尤其是中文方面。

在实际用中文问题提问原版Llama3模型时,原版模型往往给出全英文或者中英混合的内容,且表现出中文常识方面的欠缺。

OpenBuddy在模型的跨语言能力和认知、理解能力上具备丰富经验,本次训练过程中,我们在3天时间内,用部分数据集实现了旨在增强模型中文跨语言能力、认知能力的模型训练工作。

经过3天短时间的训练工作后,模型的中文语言能力和中文知识储备得到了显著提升,能基本正确地回答一些中文常识问题。

Q: 一个人不喜欢吃油炸,下列选项中哪里他最可能去?选项:华莱士、麦当劳、海底捞、肯德基

A: 一个人如果不喜欢吃油炸食物,最可能去的餐厅是海底捞。海底捞以其火锅而闻名,火锅是一种以汤底为基础,食材多样,包括肉类、蔬菜、豆制品等,可以根据个人口味和健康需求选择的餐饮方式。相比之下,华莱士、麦当劳和肯德基主要提供的是油炸食品,如炸鸡、炸薯条等,这些油炸食品可能不适合不喜欢油炸食物的人。

Q: 颐和园在哪里

A: 颐和园位于中国北京市西郊,距离北京市中心约 20 公里。它是中国著名的皇家园林之一,也是世界文化遗产之一。颐和园始建于清朝乾隆年间,最初名为清漪园,后在 1888 年(清光绪十四年)由慈禧太后命名为颐和园。园内景观以昆明湖、万寿山为基础,汇聚了中国园林艺术之大成,包括山水、建筑、植被等多种元素,展现了中国古典园林的精髓。

颐和园不仅是中国园林艺术的杰出代表,也是世界园林文化的宝贵财富。它以其宏大的规模、精湛的艺术和深厚的文化内涵吸引着来自世界各地的游客。园内的景点众多,如长廊、佛香阁、十七孔桥等,都是颐和园的标志性景观。

同时,超出我们预期的是:在部分测试题中,模型展现出了逻辑思维、推理方面的认知潜力,超过了此前的OpenBuddy-Mistral-7B系列模型。

Q: A大于B,B小于C,A和C谁大?think step by step

A: 要解决这个问题,我们可以通过逐步分析给定的条件来进行思考。

首先,我们有三个变量:A、B 和 C。根据题目,我们知道:

1. A 大于 B(A > B)

2. B 小于 C(B < C)

我们的目标是比较 A 和 C 的大小。

从给定的条件中,我们可以推断出以下几点:

- 由于 A 大于 B,这意味着 A 在数值上位于 B 的右侧。

- 同时,B 小于 C,这意味着 C 在数值上位于 B 的右侧。

因此,根据这些条件,我们可以得出结论:A 和 C 都位于 B 的右侧。然而,这个信息并没有直接告诉我们 A 和 C 之间的具体大小关系。

但是,我们可以进一步分析:

- 如果 A 和 C 都大于 B,那么它们之间的大小关系取决于它们各自的数值大小。

- 如果 A 和 C 中有一个等于 B 的值,那么另一个将是更大的。但根据题目条件,A 和 C 都不等于 B。

因此,最直接的推理是,A 和 C 的大小关系取决于它们各自的数值。没有足够的信息来确定 A 和 C 之间的确切大小关系,只能说 A 和 C 都大于 B,但无法确定它们之间谁更大。

总结来说,基于给定的条件,我们无法直接确定 A 和 C 之间谁更大,只能确定 A 和 C 都大于 B。

Q: 老鼠生病了吃老鼠药能治好吗?

A: 老鼠生病了吃老鼠药能治好吗?这个问题看似简单,但实际上涉及到生态学、毒理学和伦理学等多个领域。首先,我们需要明确老鼠药的作用机制和目的,然后再探讨其对生病老鼠的影响。

老鼠药主要是用来控制老鼠数量的,它们通常含有对老鼠有毒的化学物质,如抗凝血剂(如华法林)或神经毒素(如硫酸铅)。这些物质的作用机制是通过干扰老鼠的正常生理功能,导致老鼠死亡。因此,从这个角度来看,老鼠药并不是用来治疗老鼠疾病的,而是通过毒杀的方式来控制老鼠数量。

如果将老鼠药用于治疗生病的老鼠,可能会遇到以下几个问题:

1. **剂量问题**:老鼠药的剂量是基于控制老鼠数量的需要设计的,对于生病的老鼠来说,这种剂量可能过高,无法精确控制,从而导致治疗效果不佳甚至产生毒副作用。

2. **选择性问题**:老鼠药通常缺乏足够的选择性,可能会对老鼠体内的正常细胞和病变细胞都产生毒性作用,这意味着即使能够杀死病原体,也可能对老鼠的健康造成进一步的损害。

3. **伦理问题**:使用老鼠药治疗生病的老鼠涉及到伦理问题。这种做法违背了动物福利的原则,因为它牺牲了老鼠的生命来达到所谓的“治疗”目的,而没有考虑到老鼠的痛苦和生命价值。

综上所述,老鼠生病了吃老鼠药并不能治好病,反而可能加重病情或造成新的伤害。正确的做法应该是寻找适合老鼠的药物或治疗方法,或者在必要时采取人道的方式处理生病的老鼠。

未来展望:编码效率、长文优化、70B


欢迎点击“阅读原文”,在魔搭社区中体验模型的高速下载和一键部署。

我们在模型中提供了Evaluation.txt文件,可以直接观察到此版本模型在我们测试题集上的原始输出。

同时,在魔搭社区的支持下,社区中将会提供8B模型的在线体验。

需要注意的是:模型在商用上存在7亿月活等限制,请阅读Llama3 License和免责声明后再决定是否使用。此外,尽管我们并没有刻意清除日、韩、法、德等语言的认知,但我们要求此模型只在中文、英文及两者间跨语言场景下使用。

本次展示的模型是我们在3天短时间内的训练成果,尽管模型已经具备中文语言能力,但仍然在中文深度、长尾知识上表现较弱,存在幻觉倾向。

Llama3基座的原生上下文只支持到8K,且原始词表只包含数千个常用CJK字词、中文编码效率较低。这些因素综合起来,导致本次发布的模型在长文能力上,弱于我们此前发布的OpenBuddy-Mistral-7B等开源模型系列。

未来,我们将进一步增强模型的中文认知、理解能力和知识储备。并计划通过词表扩容、模型长文优化等工作,优化8B模型的长文能力。我们同样有计划进行70B模型的跨语言训练工作。

新的8B、70B模型预期将于5月陆续与大家见面。敬请期待!

点击 直达模型体验

模型详情页 · 魔搭社区 (modelscope.cn)

相关文章
|
6月前
|
数据可视化 物联网 Swift
谷歌发布开源LLM Gemma,魔搭社区评测+最佳实践教程来啦!
Gemma是由Google推出的一系列轻量级、先进的开源模型,他们是基于 Google Gemini 模型的研究和技术而构建。
|
6月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
4月前
|
存储 自然语言处理 测试技术
Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型
7月23日,Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。
|
机器学习/深度学习 API 开发工具
|
6月前
|
人工智能 Apache
社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版
我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。
|
人工智能 自然语言处理 数据可视化
多语言对话模型 openbuddy-mistral-7b,魔搭社区免费算力环境最佳实践
近日,法国人工智能初创公司 Mistral AI 发布了一款新模型 Mistral 7B,其在每个基准测试中,都优于 Llama 2 13B,同时已免费开源可商用!
|
SQL 人工智能 JSON
社区供稿 l ChatGLM金融开源FinGLM学习笔记
日前,由中国中文信息学会社会媒体处理专委会主办,智谱 AI、安硕信息、阿里云、魔搭社区、北京交通大学联合承办的「SMP 2023 ChatGLM 金融大模型挑战赛」落下帷幕,该赛事旨在推动大模型在金融垂直行业应用的研究和开发,沉淀大模型落地实践经验。赛后,赛事方第一时间开源开放了赛事相关的代码,目前也开始有开发者小伙伴基于此整理了一些干货笔记,小编特搜罗来向大家分享,希望能给正在关注大模型行业落地的小伙伴们一些帮助。
|
数据采集 人工智能 自然语言处理
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
835 0
|
数据可视化 物联网 PyTorch
openBuddy基于LLaMA2跨语言对话模型首发魇搭社区!(2)
openBuddy基于LLaMA2跨语言对话模型首发魇搭社区!
|
机器人 开发工具
openBuddy基于LLaMA2跨语言对话模型首发魇搭社区!(1)
openBuddy基于LLaMA2跨语言对话模型首发魇搭社区!