7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet

简介: 7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNet


机器之心 & ArXiv Weekly

参与:楚航、罗若天、梅洪源

本周重要论文包括 AI 绘图神器ControlNet、Transformer 模型综述等研究。


目录


  1. Transformer models: an introduction and catalog
  2. High-throughout Generative Inference of Large Language Models with a Single GPU
  3. Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
  4. Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning
  5. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
  6. Adding Conditional Control to Text-to-Image Diffusion Models
  7. EVA3D: Compositional 3D Human Generation from 2D image Collections
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Transformer models: an introduction and catalog



摘要:自 2017 年提出至今,Transformer 模型已经在自然语言处理、计算机视觉等其他领域展现了前所未有的实力,并引发了 ChatGPT 这样的技术突破,人们也提出了各种各样基于原始模型的变体。


由于学界和业界不断提出基于 Transformer 注意力机制的新模型,我们有时很难对这一方向进行归纳总结。近日,领英 AI 产品战略负责人 Xavier Amatriain 的一篇综述性文章或许可以帮助我们解决这一问题。


推荐:本文的目标是为最流行的 Transformer 模型提供一个比较全面但简单的目录和分类,还介绍了 Transformer 模型中最重要的方面和创新。


论文 2:High-throughout Generative Inference of Large Language Models with a Single GPU



摘要:传统上,大语言模型(LLM)推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。、


近日,来自斯坦福大学、UC Berkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了 FlexGen,这是一种用于运行有限 GPU 内存的 LLM 的高吞吐量生成引擎。下图为 FlexGen 的设计思路, 利用块调度来重用权重并将 I/O 与计算重叠,如下图 (b) 所示,而其他基线系统使用低效的逐行调度,如下图 (a) 所示。


推荐:跑 ChatGPT 体量模型,从此只需一块 GPU:加速百倍的方法来了。


论文 3:Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks



摘要:在领域泛化 (Domain Generalization, DG) 任务中,当领域的分布随环境连续变化时,如何准确地捕捉该变化以及其对模型的影响是非常重要但也极富挑战的问题。


为此,来自 Emory 大学的赵亮教授团队,提出了一种基于贝叶斯理论的时间域泛化框架 DRAIN,利用递归网络学习时间维度领域分布的漂移,同时通过动态神经网络以及图生成技术的结合最大化模型的表达能力,实现对未来未知领域上的模型泛化及预测。


本工作已入选 ICLR 2023 Oral (Top 5% among accepted papers)。如下为 DRAIN 总体框架示意图。


推荐:漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化 & 适应方法。


论文 4:Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning



摘要:为了保障能源供应和应对气候变化,人们的焦点从化石燃料转向清洁和可再生能源,氢以其高能密度和清洁低碳的能源属性可以在能源转型变革中发挥重要作用。氢燃料电池,尤其是质子交换膜燃料电池 (PEMFC),由于高能量转换效率和零排放操作,成为这场绿色革命的关键。


PEMFC 通过电化学过程将氢转化为电能,反应的唯一副产品是纯水。然而,如果水不能正常流出电池,随后「淹没」系统,PEMFC 可能会变得低效。到目前为止,由于燃料电池体积非常小且结构非常复杂,工程师们很难理解燃料电池内部排水或积水的精确方式。


近日,悉尼新南威尔士大学的研究团队开发了一种深度学习算法(DualEDSR),来提高对 PEMFC 内部情况的理解,可以从较低分辨率的 X 射线微计算机断层扫描中生成高分辨率的建模图像。该工艺已经在单个氢燃料电池上进行了测试,可以对其内部进行精确建模,并有可能提高其效率。下图展示了本研究中生成的 PEMFC 域。


推荐:深度学习对燃料电池内部进行大规模物理精确建模,助力电池性能提升。


论文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT



摘要:这篇近百页的综述梳理了预训练基础模型的演变史,让我们看到 ChatGPT 是怎么一步一步走向成功的。


推荐:从 BERT 到 ChatGPT,百页综述梳理预训练大模型演变史。


论文 6:Adding Conditional Control to Text-to-Image Diffusion Models



摘要:本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。


推荐:AI 降维打击人类画家,文生图引入 ControlNet,深度、边缘信息全能复用。


论文 7:EVA3D: Compositional 3D Human Generation from 2D image Collections



摘要:在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。


本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。


推荐:ICLR 2023 Spotlight | 2D 图像脑补 3D 人体,衣服随便搭,还能改动作。


ArXiv Weekly Radiostation

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
4月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
626 9
|
6月前
|
存储 机器学习/深度学习 人工智能
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
|
4月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
406 4
|
6月前
|
存储 人工智能 编解码
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
在AI与高性能计算需求激增的今天,传统CPU已难满足“暴力计算”需求。阿里云GPU云服务器依托NVIDIA顶级显卡算力,结合专为GPU优化的神行工具包(DeepGPU),为深度学习、科学计算、图形渲染等领域提供高效、弹性的算力支持。本文全面解析其产品优势、工具链及六大真实应用场景,助你掌握AI时代的算力利器。
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
|
7月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
253 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
5月前
|
机器学习/深度学习 人工智能 容灾
硅谷GPU云托管:驱动AI革命的下一代计算基石
在人工智能与高性能计算席卷全球的今天,硅谷作为科技创新的心脏,正通过GPU云托管服务重新定义计算能力的边界。无论您是初创公司的机器学习工程师,还是跨国企业的研究团队,硅谷GPU云托管已成为实现突破性创新的关键基础设施。
|
7月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
578 8
|
7月前
|
人工智能 运维 Serverless
GPU 降成本免运维,睿观 AI 助手选择函数计算
从跨境电商 ERP 到“睿观 AI 助手”,阿里云函数计算的支持下,深圳三态股份利用 AI 技术快速完成专利、商标、版权等多维度的侵权风险全面扫描。结合函数计算实现弹性算力支持,降低成本并提升效率,实现业务的快速发展。

热门文章

最新文章