文档备案控制台

开发者社区机器之心文章正文

3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

2023-05-26 761

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 3.6万亿token、3400亿参数，谷歌大模型PaLM 2细节遭曝光

谷歌内部文件又泄露了，这次是谷歌新一代大模型 PaLM 2 的训练细节：训练数据量是前代的近 5 倍、参数量是前代的三分之二左右。

上周四，在 2023 谷歌 I/O 大会上，谷歌 CEO 皮查伊宣布推出对标 GPT-4 的大模型 PaLM 2，并正式发布预览版本，改进了数学、代码、推理、多语言翻译和自然语言生成能力。

PaLM 2 模型提供了不同尺寸规模的四个版本，从小到大依次为 Gecko、Otter、Bison 和 Unicorn，更易于针对各种用例进行部署。其中轻量级的 Gecko 模型可以在移动设备上运行，速度非常快，不联网也能在设备上运行出色的交互式应用程序。
不过会上，谷歌并没有给出有关 PaLM 2 的具体技术细节，只说明了它是构建在谷歌最新 JAX 和 TPU v4 之上。

昨日，据外媒 CNBC 看到的内部文件称，PaLM 2 是在 3.6 万亿个 token 上训练。作为对比，上代 PaLM 接受了 7800 亿 token 的训练。

此外，谷歌之前表示 PaLM 2 比以前的 LLM 规模更小，这意味着在完成更复杂任务的同时变得更加高效。这一点也在内部文件中得到了验证，PaLM 2 的训练参数量为 3400 亿，远小于 PaLM 的 5400 亿。

PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢？作为对比，Meta 在 2 月发布的 LLaMA 接受了 1.4 万亿 token 的训练。OpenAI 1750 亿参数的 GPT-3 是在 3000 亿 token 上训练的。

虽然谷歌一直渴望展示其 AI 技术的强大能力以及如何嵌入到搜索、电子邮件、文件处理和电子表格中，但也不愿公布其训练数据的大小或其他细节。其实这样做的不只谷歌一家，OpenAI 也缄口不言其最新多模态大模型 GPT-4 的细节。他们都表示不披露细节是源于业务的竞争属性。

不过，随着 AI 军备竞赛的持续升温，研究界越来越要求提高透明度。并且在前段时间泄露的一份谷歌内部文件中，谷歌内部研究人员表达了这样一种观点：虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶，但真正的赢家未必会从这两家中产生，因为第三方力量「开源」正在悄然崛起。

目前，这份内部文件的真实性尚未得到验证，谷歌也并未对相关内容置评。

网友评论

在官宣 PaLM 2 之初，就有网友根据 Chinchilla 定律预测其参数量，ta 预测 PaLM 2 模型家族的参数结果为 80B / 90B / 100B 不等，和这次爆料的 340B 还是差距很大的。

还有人对 PaLM 2 的训练成本进行了一波预测，根据历代大模型的发展来看，这位网友表示，打造 PaLM 2 需要耗资 1 亿美元。

PaLM 2 参数都泄密了，可以试着推测 Bard 了，这位网友表示：

随着 PaLM 2 token 数的泄露，网友不禁疑问，在 AGI 到来之前，多少 token 才能迎来一次大转折？

参考链接：https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html

文章标签：

测试技术

自然语言处理

人工智能

AI芯片

otter

-开发达人-

目录

相关文章

极客小俊

|

5月前

|

人工智能 IDE 开发工具

CodeGPT AI代码狂潮来袭！个人完全免费使用谷歌Gemini大模型超越DeepSeek几乎是地表最强

CodeGPT是一款基于AI的编程辅助插件，支持代码生成、优化、错误分析和单元测试，兼容多种大模型如Gemini 2.0和Qwen2.5 Coder。免费开放，适配PyCharm等IDE，助力开发者提升效率，新手友好，老手提效利器。（238字）

极客小俊

2618 1 1

CodeGPT AI代码狂潮来袭！个人完全免费使用谷歌Gemini大模型超越DeepSeek几乎是地表最强

aliyun9170107523-43660

|

4月前

|

存储数据采集自然语言处理

56_大模型微调：全参数与参数高效方法对比

随着大型语言模型(LLM)规模的不断增长，从数百亿到数千亿参数，传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年，大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法，以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践，为研究者和工程师提供全面的技术参考。

aliyun9170107523-43660

837 0 1

蚝油菜花

|

10月前

|

机器学习/深度学习人工智能算法

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

小米开源的MiMo推理大模型通过联动预训练与强化学习算法，在7B参数规模下实现数学推理与代码生成能力的突破性提升，技术报告显示其性能超越部分32B级模型。

蚝油菜花

1511 74 76

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

六月的雨在钉钉

|

6月前

|

人工智能 JSON API

Kimi K2，开源万亿参数大模型

Kimi K2是由月之暗面推出的全球首个开源万亿参数MoE模型，具备强大的工具调用、复杂推理与自主决策能力。该模型可通过MaaS平台快速调用，无需编码，最快5分钟即可部署，体验成本低至0元。通过Cherry Studio客户端，用户可便捷配置API密钥并调用模型，同时支持MCP功能，实现网页内容抓取等扩展能力。操作简单、功能强大，适合企业与开发者高效应用。

六月的雨在钉钉

1047 2 2

Deephub

|

7月前

|

机器学习/深度学习负载均衡 C++

MoR vs MoE架构对比：更少参数、更快推理的大模型新选择

本文将深入分析递归混合（MoR）与专家混合（MoE）两种架构在大语言模型中的技术特性差异，探讨各自的适用场景和实现机制，并从架构设计、参数效率、推理性能等多个维度进行全面对比。

Deephub

515 0 0

MoR vs MoE架构对比：更少参数、更快推理的大模型新选择

modelscope

|

7月前

|

数据采集编解码人工智能

Gemma 3n正式版开源：谷歌全新端侧多模态大模型，2GB 内存就能跑，重点提升编码和推理能力！

6月底，Google正式开源发布了全新端侧多模态大模型 Gemma 3n！相较此前的预览版，最新的 Gemma 3n 完整版进一步提升性能表现，支持在 2GB 内存的硬件上本地运行，重点提升了编码和推理方面的能力。

modelscope

896 1 1

热门文章

最新文章

中文竞技场（MS）大模型评测

科普神文，一次性讲透AI大模型的核心概念

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

覆盖200+服务场景，阿里「通义」大模型系列打造国内首个AI统一底座

2025年前端框架是该选vue还是react？有了大模型-例如通义灵码辅助编码，就不用纠结了！vue用的多选react，react用的多选vue

通义万相AI绘画创作一键部署实现

阿里云存储受邀参加北京站「源创会」，解析智能存储基于大模型的产品能力提升

把大模型变成微信私人助手，三步搞定！

AI战略丨大模型重塑长安新汽车新场景

通义灵码上线 @workspace 新能力，结合当前代码仓库理解工程、代码查询与问答等

大模型强化学习的熵控制：CE-GPPO、EPO与AsyPPO技术方案对比详解

当AI开始“思考”：为什么大模型的尽头是推理？

大模型分布式推理：张量并行与流水线并行技术

构建AI智能体：一、初识AI大模型与API调用

【大模型微调】一文掌握5种大模型微调的方法

从“看见”到“预见”：合合信息“多模态文本智能技术”如何引爆AI下一场革命。

AI Agent的未来之争：任务规划，该由人主导还是AI自主？——阿里云RDS AI助手的最佳实践

C3仓库AI代码门禁通用实践：基于Qwen3-Coder+RAG的代码评审

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

AI Agent越用越笨？阿里云AnalyticDB「AI上下文工程」一招破解！

相关课程

更多

阿里云大模型工程师ACA认证课程

阿里云百炼大模型产品实践

ADB-PG+大模型一站式AIGC解决方案

阿里云百炼，手把手教你如何构建企业大模型应用服务

云原生AI套件：一键训练大模型及部署GPU共享推理服务

【开眼界】大模型时代的个人应对策略

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

相关实验场景

更多

通过GPU云服务器生成个人版对话大模型

如何快速训练大模型

如何快速体验调用通义大模型

在云上部署ChatGLM2-6B大模型（GPU版）

使用AI容器镜像部署Qwen大语言模型

下一篇

第五届伏魔挑战赛如约来袭，诚邀各路高手来战！