7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU

简介: 7 Papers | DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU



目录:

Faster sorting algorithms discovered using deep reinforcement learning

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Patch-based 3D Natural Scene Generation from a Single Example

Spatio-temporal Diffusion Point Processes

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

论文 1:Faster sorting algorithms discovered using deep reinforcement learning


摘要:「通过交换和复制移动,AlphaDev 跳过了一个步骤,以一种看似错误,但实际上是捷径的方式连接项目。」这种前所未见、违反直觉的思想不禁让人回忆起 2016 年那个春天。

七年前,AlphaGo 在围棋上击败人类世界冠军,如今 AI 又在编程上给我们上了一课。Google DeepMind CEO 哈萨比斯的两句话引爆计算机领域:「AlphaDev 发现了一种全新且更快的排序算法,我们已将其开源到主要 C++ 库中供开发人员使用。这只是 AI 提升代码效率进步的开始。」


推荐:AI 重写排序算法,速度快 70%:DeepMind AlphaDev 革新计算基础,每天调用万亿次的库更新了

论文 2:Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding


摘要:近期,大语言模型展现出了令人瞩目的能力。我们能否给大模型装上 “眼睛” 和 “耳朵”,让它能够理解视频,陪着用户互动呢?

从这个问题出发,达摩院的研究人员提出了 Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号, 并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。目前论文,代码,交互 demo 都已开放。另外,在 Video-LLaMA 的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更丝滑。

下面两个例子展示了 Video-LLaMA 的视听综合感知能力,例子中的会话围绕有声视频展开。


推荐:给语言大模型加上综合视听能力,达摩院开源 Video-LLaMA。

论文 3:Patch-based 3D Natural Scene Generation from a Single Example


摘要:北京大学陈宝权团队联合山东大学和腾讯 AI Lab 的研究人员,提出了首个基于单样例场景无需训练便可生成多样高质量三维场景的方法。


推荐:CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果。

论文 4:Spatio-temporal Diffusion Point Processes


摘要:清华电子工程系城市科学与计算研究中心最新提出时空扩散点过程,突破已有方法建模时空点过程的受限概率形式和高采样成本等缺陷,实现了灵活、高效且易于计算的时空点过程模型,可广泛用于城市自然灾害、突发事故和居民活动等时空事件的建模与预测,促进城市规划和管理的智能化发展。下表展示 DSTPP 相比已有点过程解决方案的优势。


推荐:扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程。

论文 5:SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression


摘要:为了解决准确性问题,来自华盛顿大学、苏黎世联邦理工学院等机构的研究者提出了一种新的压缩格式和量化技术 SpQR(稀疏 - 量化表征),首次实现了 LLM 跨模型尺度的近无损压缩,同时达到了与以前方法相似的压缩水平。

SpQR 通过识别和隔离异常权重来工作,这些异常权重会导致特别大的量化误差,研究者将它们以更高的精度存储,同时将所有其他权重压缩到 3-4 位,在 LLaMA 和 Falcon LLMs 中实现了不到 1% 的困惑度相对准确率损失。在单个 24GB 的消费级 GPU 上运行 33B 参数的 LLM,而不会有任何性能下降,同时还能提高 15% 的速度。下图 3 为 SpQR 的总体架构。


推荐:将 330 亿参数大模型「塞进」单个消费级 GPU,加速 15%、性能不减。

论文 6:UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild


摘要:本文中,Salesforce AI、东北大学、斯坦福大学的研究者提出了 MOE-style Adapter 和 Task-aware HyperNet 来实现 UniControl 中的多模态条件生成能力。UniControl 在九个不同的 C2I 任务上进行训练,展示了强大的视觉生成能力和 zero-shot 泛化能力。UniControl 模型由多个预训练任务和 zero-shot 任务组成。


推荐:多模态可控图片生成统一模型来了,模型参数、推理代码全部开源。

论文 7:FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance


摘要:成本和准确性之间的平衡是决策制定的关键因素,尤其是在采用新技术时。如何有效和高效地利用 LLM 是从业者面临的关键挑战:如果任务相对简单,那么聚合来自 GPT-J (其规模比 GPT-3 小 30 倍)的多个响应可以实现与 GPT-3 类似的性能,从而实现成本和环境上的权衡。然而,在较为困难任务上,GPT-J 的性能可能会大大下降。因此,如何经济高效地使用 LLM 需要采用新的方法。

最近的一项研究尝试提出解决这一成本问题的方法,研究者通过实验表明,FrugalGPT 可以与最佳个体 LLM(例如 GPT-4) 的性能相媲美,成本降低高达 98%,或者在相同成本下将最佳个体 LLM 的准确性提高 4%。该研究讨论了三种降低成本的策略,即 prompt 适应、LLM 近似和 LLM 级联。


推荐:GPT-4 API 平替?性能媲美同时成本降低 98%,斯坦福提出 FrugalGPT,研究却惹争议。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
2月前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
20天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
65 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
3天前
|
机器学习/深度学习 存储 人工智能
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
|
27天前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
73 14
|
1月前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
43 6
【AI系统】QNNPack 算法
|
1月前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
56 5
【AI系统】Im2Col 算法
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
45 2
【AI系统】Winograd 算法
|
1月前
|
存储 算法 数据挖掘
重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖
OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。
146 12
|
1月前
|
人工智能 算法
AI+脱口秀,笑点能靠算法创造吗
脱口秀是一种通过幽默诙谐的语言、夸张的表情与动作引发观众笑声的表演艺术。每位演员独具风格,内容涵盖个人情感、家庭琐事及社会热点。尽管我尝试用AI生成脱口秀段子,但AI缺乏真实的情感共鸣和即兴创作能力,生成的内容显得不够自然生动,难以触及人心深处的笑点。例如,AI生成的段子虽然流畅,却少了那份不期而遇的惊喜和激情,无法真正打动观众。 简介:脱口秀是通过幽默语言和夸张表演引发笑声的艺术形式,AI生成的段子虽流畅但缺乏情感共鸣和即兴创作力,难以达到真人表演的效果。

热门文章

最新文章