同等参数中最强,在苹果15Pro上也能运行!谷歌又“卷”出了端侧小模型 Gemma 2 2B...

简介: 在AI技术快速演进的背景下,谷歌推出的Gemma 2 2B模型以其小巧体积和卓越性能引起关注。这款仅20亿参数的轻量级语言模型通过知识蒸馏技术,展现出超越大型模型的能力,在Chatbot Arena测试中获得1130分,超过了GPT-3.5-Turbo等竞争对手。Gemma 2 2B不仅性能出众,还能在多种硬件上高效运行,特别适合本地设备。此外,它的开源特性及易于使用的特性降低了AI应用门槛。伴随Gemma 2 2B发布的还有ShieldGemma和Gemma Scope,前者用于过滤有害内容,后者则提高了模型的透明度和可解释性,共同推动AI技术的负责任发展。

在 AI 技术的快速发展下,语言模型的规模和能力也在不断壮大。从最初的几百万参数发展到如今动辄数十亿甚至数百亿参数的模型,每一次技术革新都伴随着巨大的计算资源需求——然而,高昂的成本和复杂的部署流程也因此成为了限制模型广泛应用的主要障碍。

在这样的背景下,今年 2 月谷歌发布了首批 Gemma 系列模型。不同于其旗舰产品 Gemini 模型,Gemma 的体积更小、完全开源、可免费使用,而 Gemini 系列模型体积更大且闭源,此外开发者需付费才能使用。

到了 6 月份,谷歌又开源了 Gemma 2,拥有 27B(270 亿)和 9B(90亿)两种参数规模,其中 27B 版本很快就在 LMSYS Chatbot Arena 排行榜上占据高位,在实际对话中甚至超越了参数规模是其两倍多的热门模型。

事实证明,在搞「小」模型这件事上,谷歌贯彻的路线似乎是“既然卷不死,就往死里卷”。

今日凌晨,谷歌再次最新推出了 Gemma 2 的 2B(20 亿)参数版本。据了解,这个 2B 模型在 LMSYS Chatbot Arena 测试中得分 1130,比 GPT-3.5-Turbo-0613的 1117 分和 Mixtral-8x7b 的1114 分都要高——Gemma 2 2B 几乎可谓是:同等参数规模中最强模型。

image.png

那么接下来,我们就来看看 Gemma 2 2B 究竟有何特点以及它可能会带来怎样的变化。

规模变小了,但 Gemma 2 2B 更强了

从谷歌的官方博客介绍来看,Gemma 2 2B 通过知识蒸馏技术(一种能将大规模深度学习模型的知识迁移到小规模模型中的方法),从更大规模的模型中学习,实现了超乎寻常的效果。

在 Chatbot Arena 上,Gemma 2 2B 得分超越了所有 GPT-3.5 系列模型,展现了其卓越的对话能力:

image.png

整体而言,作为一款轻量级 LLM,Gemma 2 2B 是谷歌专为在笔记本电脑和智能手机等本地设备上运行而设计的,故而其具备以下三个特点:

性能卓越:以其规模而言,它提供了同等模型中的最佳性能,也超越了同类中的其他开源模型。

灵活且经济的部署:Gemma 2 2B 可以在广泛的硬件上高效运行,从边缘设备、笔记本电脑,到依托 Vertex AI 和 Google Kubernetes Engine(GKE)的强大云部署环境。为了进一步提升速度,该模型利用 NVIDIA TensorRT-LLM 库进行了优化,并作为 NVIDIA NIM 提供。这种优化面向各种部署场景,包括数据中心、云端、本地工作站、PC 及边缘设备——利用 NVIDIA RTX、NVIDIA GeForce RTX GPU 或 NVIDIA Jetson 模块进行边缘 AI 处理。此外,Gemma 2 2B 无缝集成 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp,并即将支持 MediaPipe,大幅简化了开发流程。

开源且易于使用:Gemma 2 2B 遵循商业友好的 Gemma 条款,适用于研究和商业应用。它体积小巧,足以在 Google Colab 的 T4 GPU 免费层上运行,让实验和开发变得更加容易。

除了 Chatbot Arena 得分,谷歌透露 Gemma 2 2B 在“大规模多任务语言理解”(Massive Multitask Language Understanding)基准测试中获得了 56.1 分,在“基本 Python 编程”(Mostly Basic Python Programming)测试中也获得了 36.6 分,相比早期 Gemma 模型得分均有所提高。

由于参数量较小,性能又很优越,相信 Gemma 2 2B 在本地运行和部署有着巨大的应用潜力——这不,苹果机器学习研究(MLR)团队研究成员 Awni Hannun 就试着在 iPhone 15 pro 上用 Gemma 2 2B 跑了一下,他的评价是:“运行得非常快。”

image.png

很显然,这些结果在一定程度上颠覆了过去 AI 领域“参数越大性能越好”的传统观点,反而证明:通过采用更复杂的训练技术、使用卓越的架构和更高质量的训练数据,就可能弥补参数数量较少的不足。

谷歌也提到,希望他们在 Gemma 2 2B 上所做的工作,能有助于推动 AI 公司开始转变,让他们不再追求建立越来越大的模型,而是专注于完善现有模型,使其表现更好,从而开发出更易于使用、对算力要求更低的 AI 模型。

据悉,即日起,开发者不仅可以从 Kaggle、Hugging Face 以及 Vertex AI Model Garden 下载 Gemma 2 的模型权重,还可以在 Google AI Studio 中体验其强大功能。

构建一个负责任的 AI 未来
除了 Gemma 2 2B,本次谷歌还发布了两种专业模型 ShieldGemma 和 Gemma Scope:

ShieldGemma:一套基于 Gemma 2 构建的安全内容过滤模型,用于过滤 AI 模型的输入和输出,确保用户安全。

Gemma Scope:一款全新的模型可解释性工具,可以前所未有的深度洞察模型内部运作。

实际上,ShieldGemma 是一组安全分类器的集合,旨在捕捉诸如仇恨言论、骚扰和性暗示内容等有害回应。ShieldGemma 建立在原始的 Gemma 2 模型之上,开发者可以用它来过滤那些诱导模型以不良方式回应的恶意提示。此外,它还可以用于过滤大型语言模型(LLMs)的实际回应。
image.png

至于 Gemma Scope 的推出,是为了给 Gemma 2 带来更大的透明度。通过聚焦 Gemma 2 模型的特定部分,Gemma Scope 可帮助开发者理解其内部工作机制:

“Gemma Scope由专门的神经网络组成,有助于我们解析 Gemma 2 处理的密集、复杂信息,并将其扩展为更易于分析和理解的形式。通过研究这些扩展视图,研究人员可以深入了解 Gemma 2 如何识别模式、处理信息并最终进行预测。”

通过发布如 Gemma 2 2B、ShieldGemma 和 Gemma Scope 这样的模型,谷歌希望能用不同的方式帮助开发者、研究人员和最终用户更好地理解和控制 AI 的行为,提供必要的工具和资源来推动 AI 技术的透明度和可解释性,构建一个 AI 能够惠及每一个人的未来。

目录
相关文章
|
7月前
|
人工智能 缓存 API
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
【2月更文挑战第24天】谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
280 3
谷歌发布MediaPipe LLM Inference API,28亿参数模型本地跑
|
7月前
|
存储 缓存 算法
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
Mixtral-8x7B是最好的开放大型语言模型(LLM)之一,但它是一个具有46.7B参数的庞大模型。即使量化为4位,该模型也无法在消费级GPU上完全加载(例如,24 GB VRAM是不够的)。
226 4
|
4月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
171 60
|
2月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
49 0
|
3月前
|
算法 测试技术 AI芯片
CPU反超NPU,llama.cpp生成速度翻5倍!LLM端侧部署新范式T-MAC开源
【9月更文挑战第7天】微软研究院提出了一种名为T-MAC的创新方法,旨在解决大型语言模型在资源受限的边缘设备上高效部署的问题。T-MAC通过查表法在CPU上实现低比特LLM的高效推理,支持混合精度矩阵乘法,无需解量化。其通过位级查表实现统一且可扩展的解决方案,优化数据布局和重用率,显著提升了单线程和多线程下的mpGEMV及mpGEMM性能,并在端到端推理吞吐量和能效方面表现出色。然而,表量化和快速聚合技术可能引入近似和数值误差,影响模型准确性。论文详见:[链接](https://www.arxiv.org/pdf/2407.00088)。
166 10
|
4月前
|
人工智能 机器人
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
OpenAI推出了其最强大模型的迷你版本
|
6月前
|
存储 人工智能 安全
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
|
7月前
|
测试技术
微软发布Phi-3,性能超Llama-3,可手机端运行
【5月更文挑战第8天】微软新发布的phi-3-mini是一款拥有38亿参数的语言模型,可在手机上运行,性能媲美GPT-3.5。通过扩展版筛选数据集和对齐训练提升效能,phi-3还包括70亿和140亿参数的变体,表现更优。此模型的出现标志了移动设备上部署大型语言模型的可能,但也面临计算资源限制和潜在偏见问题,需更多研究确保可靠性和公平性。[链接](https://arxiv.org/abs/2404.14219)
100 0
|
自然语言处理 数据可视化 PyTorch
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
9月4日,OpenBuddy发布700亿参数跨语言大模型 OpenBuddy-LLaMA2-70B,并以可商用的形态全面开源!现在已经全面上架魔搭ModelScope社区。
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
|
人工智能 测试技术 API
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型
218 0
2023年8月22日OpenAI推出了革命性更新:ChatGPT-3.5 Turbo微调和API更新,为您的业务量身打造AI模型