此次发布的是在3天时间内,我们对Llama3-8B模型进行首次中文跨语言训练尝试的结果:OpenBuddy-Llama3-8B-v21.1-8k。
未来,我们计划基于Llama3-8B、70B基座发布更多版本,并针对性地提升模型的中文编码效率和长文能力。
Llama3-8B:刷新10B以下模型的多项纪录
当地时间4月19日,Meta发布了Llama-3 8B、70B两款模型。其中,尤为值得注意的是Llama3-8B模型,此模型在性能、语料规模、算力消耗等方面打破了此前10B小模型的纪录。
根据Scaling Law法则,业界普遍认为8B模型的最佳训练数据规模在0.2T(2000亿)Tokens左右。这种观点被各类开源、闭源模型厂商广泛接纳,并作为训练集规模决策的参考。
与此相反的是,在Llama3中,Meta没有在小模型上遵循现有的Scaling Law,而是投入了巨量的计算资源和数据,用于尽可能提升8B小模型的性能。
根据Meta的技术报告,以及来自NVIDIA的公开信息,Llama3训练过程在二万余张H100卡组成的计算集群上运行,并在8B模型上消耗了共计130万GPU小时数。数据集规模高达15T(15万亿)Tokens,是Scalilng Law所建议的规模的75倍。同时,为了进一步提升数据集的质量,Meta使用了上一代Llama2模型,对训练数据集进行分类和筛选。
技术报告中显示,使用如此巨量的高质量数据训练8B小模型时,模型的性能在后期仍以对数线性的模式不断进步。这意味大量增加数据集带来的收益虽然并非线性,但确实能提升8B小模型的性能。
基于Meta提供的测试结果,Llama3-8B预训练模型在多个指标上,尤其是在考察模型知识储备和理解能力的MMLU、AGIEval等基准上,均优于之前业界广受欢迎的Mistral-7B模型。
Llama3 License:7亿月活内可商用、更明确的跨语言许可
Llama3模型在商用许可方面和上一代模型相似:总月活用户数低于7亿的公司(含关联公司)可以免费商用。
此外,针对此前社区讨论的语言限制问题,本次Llama3发布时在Model Card中做出了明确的说明:
Llama3基座模型本身的预期内使用方式局限于英语。但是,开发者可以将Llama3模型进一步训练微调,使得模型在满足Meta对安全性、无害性的要求等条款规定的前提下,增加对其它语言的支持。
OpenBuddy Llama3-8B:跨语言能力、强中文认知能力
由于Llama3本身只为英文场景能力优化,且训练集中多数数据为英文数据。这在增强Llama3英文基准上的表现的同时,也使得模型在其它语言上的知识储备、语言理解能力较弱,尤其是中文方面。
在实际用中文问题提问原版Llama3模型时,原版模型往往给出全英文或者中英混合的内容,且表现出中文常识方面的欠缺。
OpenBuddy在模型的跨语言能力和认知、理解能力上具备丰富经验,本次训练过程中,我们在3天时间内,用部分数据集实现了旨在增强模型中文跨语言能力、认知能力的模型训练工作。
经过3天短时间的训练工作后,模型的中文语言能力和中文知识储备得到了显著提升,能基本正确地回答一些中文常识问题。
Q: 一个人不喜欢吃油炸,下列选项中哪里他最可能去?选项:华莱士、麦当劳、海底捞、肯德基
A: 一个人如果不喜欢吃油炸食物,最可能去的餐厅是海底捞。海底捞以其火锅而闻名,火锅是一种以汤底为基础,食材多样,包括肉类、蔬菜、豆制品等,可以根据个人口味和健康需求选择的餐饮方式。相比之下,华莱士、麦当劳和肯德基主要提供的是油炸食品,如炸鸡、炸薯条等,这些油炸食品可能不适合不喜欢油炸食物的人。
Q: 颐和园在哪里
A: 颐和园位于中国北京市西郊,距离北京市中心约 20 公里。它是中国著名的皇家园林之一,也是世界文化遗产之一。颐和园始建于清朝乾隆年间,最初名为清漪园,后在 1888 年(清光绪十四年)由慈禧太后命名为颐和园。园内景观以昆明湖、万寿山为基础,汇聚了中国园林艺术之大成,包括山水、建筑、植被等多种元素,展现了中国古典园林的精髓。
颐和园不仅是中国园林艺术的杰出代表,也是世界园林文化的宝贵财富。它以其宏大的规模、精湛的艺术和深厚的文化内涵吸引着来自世界各地的游客。园内的景点众多,如长廊、佛香阁、十七孔桥等,都是颐和园的标志性景观。
同时,超出我们预期的是:在部分测试题中,模型展现出了逻辑思维、推理方面的认知潜力,超过了此前的OpenBuddy-Mistral-7B系列模型。
Q: A大于B,B小于C,A和C谁大?think step by step
A: 要解决这个问题,我们可以通过逐步分析给定的条件来进行思考。
首先,我们有三个变量:A、B 和 C。根据题目,我们知道:
1. A 大于 B(A > B)
2. B 小于 C(B < C)
我们的目标是比较 A 和 C 的大小。
从给定的条件中,我们可以推断出以下几点:
- 由于 A 大于 B,这意味着 A 在数值上位于 B 的右侧。
- 同时,B 小于 C,这意味着 C 在数值上位于 B 的右侧。
因此,根据这些条件,我们可以得出结论:A 和 C 都位于 B 的右侧。然而,这个信息并没有直接告诉我们 A 和 C 之间的具体大小关系。
但是,我们可以进一步分析:
- 如果 A 和 C 都大于 B,那么它们之间的大小关系取决于它们各自的数值大小。
- 如果 A 和 C 中有一个等于 B 的值,那么另一个将是更大的。但根据题目条件,A 和 C 都不等于 B。
因此,最直接的推理是,A 和 C 的大小关系取决于它们各自的数值。没有足够的信息来确定 A 和 C 之间的确切大小关系,只能说 A 和 C 都大于 B,但无法确定它们之间谁更大。
总结来说,基于给定的条件,我们无法直接确定 A 和 C 之间谁更大,只能确定 A 和 C 都大于 B。
Q: 老鼠生病了吃老鼠药能治好吗?
A: 老鼠生病了吃老鼠药能治好吗?这个问题看似简单,但实际上涉及到生态学、毒理学和伦理学等多个领域。首先,我们需要明确老鼠药的作用机制和目的,然后再探讨其对生病老鼠的影响。
老鼠药主要是用来控制老鼠数量的,它们通常含有对老鼠有毒的化学物质,如抗凝血剂(如华法林)或神经毒素(如硫酸铅)。这些物质的作用机制是通过干扰老鼠的正常生理功能,导致老鼠死亡。因此,从这个角度来看,老鼠药并不是用来治疗老鼠疾病的,而是通过毒杀的方式来控制老鼠数量。
如果将老鼠药用于治疗生病的老鼠,可能会遇到以下几个问题:
1. **剂量问题**:老鼠药的剂量是基于控制老鼠数量的需要设计的,对于生病的老鼠来说,这种剂量可能过高,无法精确控制,从而导致治疗效果不佳甚至产生毒副作用。
2. **选择性问题**:老鼠药通常缺乏足够的选择性,可能会对老鼠体内的正常细胞和病变细胞都产生毒性作用,这意味着即使能够杀死病原体,也可能对老鼠的健康造成进一步的损害。
3. **伦理问题**:使用老鼠药治疗生病的老鼠涉及到伦理问题。这种做法违背了动物福利的原则,因为它牺牲了老鼠的生命来达到所谓的“治疗”目的,而没有考虑到老鼠的痛苦和生命价值。
综上所述,老鼠生病了吃老鼠药并不能治好病,反而可能加重病情或造成新的伤害。正确的做法应该是寻找适合老鼠的药物或治疗方法,或者在必要时采取人道的方式处理生病的老鼠。
未来展望:编码效率、长文优化、70B
欢迎点击“阅读原文”,在魔搭社区中体验模型的高速下载和一键部署。
我们在模型中提供了Evaluation.txt文件,可以直接观察到此版本模型在我们测试题集上的原始输出。
同时,在魔搭社区的支持下,社区中将会提供8B模型的在线体验。
需要注意的是:模型在商用上存在7亿月活等限制,请阅读Llama3 License和免责声明后再决定是否使用。此外,尽管我们并没有刻意清除日、韩、法、德等语言的认知,但我们要求此模型只在中文、英文及两者间跨语言场景下使用。
本次展示的模型是我们在3天短时间内的训练成果,尽管模型已经具备中文语言能力,但仍然在中文深度、长尾知识上表现较弱,存在幻觉倾向。
Llama3基座的原生上下文只支持到8K,且原始词表只包含数千个常用CJK字词、中文编码效率较低。这些因素综合起来,导致本次发布的模型在长文能力上,弱于我们此前发布的OpenBuddy-Mistral-7B等开源模型系列。
未来,我们将进一步增强模型的中文认知、理解能力和知识储备。并计划通过词表扩容、模型长文优化等工作,优化8B模型的长文能力。我们同样有计划进行70B模型的跨语言训练工作。
新的8B、70B模型预期将于5月陆续与大家见面。敬请期待!
点击 直达模型体验