大模型终端部署新趋势:硬件直接支持混合矩阵乘法

简介: 【9月更文挑战第13天】Jianyu Wei等人提出的T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)通过查表方法提升低位宽大语言模型在CPU上的推理效率,解决了现有系统对混合精度矩阵乘法支持不足的问题。T-MAC无需解量化即可直接支持mpGEMM,消除了乘法运算并减少加法运算,提高了计算效率和可扩展性。实验显示,T-MAC在低位宽的Llama和BitNet模型上表现优异,吞吐量提升4倍,能耗降低70%,在资源受限设备如Raspberry Pi 5上也能达到超过成人平均阅读速度的11 tokens/s。

近年来,随着大模型的广泛应用,如何在资源受限的边缘设备上高效部署这些模型成为了研究者们关注的焦点。为了解决这个问题,来自Jianyu Wei等人的最新研究成果——T-MAC,为我们带来了新的思路和解决方案。

T-MAC(Table Lookup for Low-Bit LLM Deployment on Edge)是一种基于查表(LUT)的方法,旨在提高低位宽大语言模型(LLM)在CPU上的推理效率。该方法的提出,源于研究人员对现有系统的观察和思考。

在传统的大模型部署方案中,权重量化是减少模型内存占用的关键技术。然而,对于低位宽的模型来说,在推理过程中需要进行混合精度矩阵乘法(mpGEMM),即将低精度权重与高精度激活值相乘。由于现有系统缺乏对mpGEMM的原生支持,通常需要先将权重进行解量化,再进行高精度计算。这种间接的方式会导致显著的推理开销。

为了解决这个问题,T-MAC提出了一种创新的解决方案。它通过将传统的数据类型中心乘法转化为位级查表,直接支持了mpGEMM,而无需解量化。同时,T-MAC还消除了乘法运算,并减少了所需的加法运算。这种基于查表的方法使得T-MAC能够线性地扩展到权重的位宽,从而提高了计算的效率和可扩展性。

研究人员在低位宽的Llama和BitNet模型上对T-MAC进行了评估。结果显示,与现有的llama.cpp实现相比,T-MAC在吞吐量上提高了4倍,在能耗上减少了70%。具体来说,对于BitNet-b1.58-3B模型,T-MAC在M2-Ultra上使用单个核心实现了30 tokens/s的生成吞吐量,使用8个核心实现了71 tokens/s的吞吐量;而在资源受限的设备如Raspberry Pi 5上,T-MAC也实现了11 tokens/s的吞吐量,这已经超过了成年人的平均阅读速度。

这些结果表明,T-MAC为在资源受限的边缘设备上部署低位宽大模型提供了一种高效的解决方案。它不仅提高了计算的吞吐量和能效,还使得大模型的部署更加接近实际应用场景。

然而,T-MAC也存在一些潜在的挑战和限制。首先,由于T-MAC是基于查表的方法,它可能需要更多的内存来存储查表数据,这可能会对资源受限的设备造成一定的压力。其次,T-MAC的实现可能需要对现有的硬件和软件进行一定的修改和适配,这可能会增加部署的复杂性和成本。

T-MAC 论文链接:https://arxiv.org/abs/2407.00088

目录
相关文章
|
1月前
|
Web App开发 人工智能 物联网
操作系统的演变:从单一到多元,再到云端
在数字时代的浪潮中,操作系统(OS)作为计算机系统的核心,经历了从简单到复杂,再到云化的演变。本文将探讨操作系统的发展历程,包括早期的批处理系统、多道程序设计、分时系统的出现,以及现代操作系统的多样化和云端化趋势。我们将看到,随着技术的不断进步,操作系统不仅在性能上得到了提升,其设计理念和应用场景也发生了根本性的变化。
|
1月前
|
人工智能 vr&ar
嵌入式AI控制单元整体设计思路
【8月更文挑战第3天】嵌入式AI控制单元整体设计思路。
44 11
|
1月前
|
存储 人工智能 固态存储
NVIDIA破局第二曲线创新问题之NVIDIA大模型平台软件在云智能时代的作用如何解决
NVIDIA破局第二曲线创新问题之NVIDIA大模型平台软件在云智能时代的作用如何解决
27 0
|
存储 开发框架 前端开发
「技术架构」TOGAF建模:网络计算硬件图
「技术架构」TOGAF建模:网络计算硬件图
|
机器学习/深度学习 计算机视觉
轻量化模型系列--GhostNet:廉价操作生成更多特征
由于内存和计算资源有限,在嵌入式设备上部署卷积神经网络 (CNN) 很困难。特征图中的冗余是那些成功的 CNN 的一个重要特征,但在神经架构设计中很少被研究
轻量化模型系列--GhostNet:廉价操作生成更多特征
|
机器学习/深度学习 SQL 人工智能
ARM放大招发布Trillium项目:包含神经网络软件库和两种AI处理器
90% 的 AI 设备都是用 Arm 的架构设计的,现在 Arm 在人工智能领域厚积薄发,发布了 Trillium 项目,包括一款为移动设备而设计的机器学习处理器、一款目标检测处理器和一个神经网络软件库。
230 0
ARM放大招发布Trillium项目:包含神经网络软件库和两种AI处理器
|
机器学习/深度学习 Ubuntu 数据可视化
iNeuOS工业互联平台,实现动态图元、计算平台、远程控制、数据转发等,和大厂相比如何
此次升级主要开发动态图元、计算平台、远程设备控制、数据转发等功能单元,升级后完成了iNeuOS工业互联网操作系统基础建设的整体部分。更适用于工厂及企业的高级信息化、系统集成、5G云端建设及控制等应用场景。
608 0
iNeuOS工业互联平台,实现动态图元、计算平台、远程控制、数据转发等,和大厂相比如何
|
机器学习/深度学习 存储 人工智能
Facebook 开源高速大规模图嵌入工具 PBG
比起一般的嵌入软件,表现更快,同时能产出与先进模型相当的嵌入质量。
595 0