7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

简介: 7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面

本周主要论文包括:首次无残差连接或归一化层也能训练深度 Transformer 的探索性研究,以及 DeepMind携其写代码 AI AlphaCode 登上了 Science 封面,写代码能力不输程序员。


目录:


Competition-level code generation with AlphaCode

Inverse scaling can become U-shaped

FedALA: Adaptive Local Aggregation for Personalized Federated Learning

An Efficient Training Approach for Very Large Scale Face Recognition

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Competition-level code generation with AlphaCode


作者:YUJIA LI 等

论文地址:https://www.science.org/doi/10.1126/science.abq1158


摘要:今年年初,DeepMind 发布了基于 Transformer 的新模型 AlphaCode,该模型实现了大规模代码生成。现在,AlphaCode 又在《Science》上发表了新论文,研究登上《Science》封面。


推荐:DeepMind 携 AlphaCode 登 Science 封面,写代码能力不输程序员。


论文 2:Inverse scaling can become U-shaped


作者:Jason Wei 等

论文地址:https://arxiv.org/pdf/2211.02011.pdf


摘要:语言模型越大,性能越好,这一点已经在很多任务中被证明是正确的。那是否存在一种情况:某些任务的结果会因模型规模的增加反而变得糟糕?谷歌最近发表的一篇论文或许能为我们提供答案。获得 Inverse Scaling 奖励的任务如下:Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。


推荐:模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准。


论文 3:FedALA: Adaptive Local Aggregation for Personalized Federated Learning


作者:Jianqing Zhang 等

论文地址:https://arxiv.org/pdf/2212.01197.pdf


摘要:该论文提出了一种用于联邦学习的自适应本地聚合方法,通过从全局模型中自动捕获客户机所需信息的方式来应对联邦学习中的统计异质性问题。作者对比了 11 个 SOTA 模型,并取得了超越最优方法 3.27% 的优异表现。作者将其中的自适应本地聚合模块应用到其他联邦学习方法上取得了最多 24.19% 的提升。本文被 AAAI 2023 会议收录,下图为自适应本地聚合(ALA)过程。


推荐:超越 SOTA 3.27%,上交大等提出自适应本地聚合新方法。


论文 4:An Efficient Training Approach for Very Large Scale Face Recognition


作者:Kai Wang 等

论文地址:https://arxiv.org/pdf/2105.10375.pdf


摘要:本文主要介绍了超大规模分类框架的现有解决方案,以及低成本分类框架 FFC 的相应原理及 trick 介绍。本文被 CVPR 2022 会议收录,下图为 SOTA 方法比较。


推荐:达摩院开源低成本大规模分类框架 FFC。


论文 5:Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation


作者:匿名

论文地址:https://openreview.net/pdf?id=NPrsUQgMjKK


摘要:ICLR 2023 盲审阶段的这篇论文首次证明了无需残差连接或归一化层时也可能成功训练深度 transformer。为此,他们研究了深度无残差 transformer 中的信号传播和秩崩溃问题,并推导出三种方法来阻止它们。


具体而言,方法中使用了以下组合:参数初始化、偏置矩阵和位置相关的重缩放,并强调了 transformer 中信号传播特有的几种复杂性,包括与位置编码和因果掩蔽的交互。研究者实证证明了他们的方法可以生成可训练的深度无残差 transformer。


推荐:ICLR 盲审阶段就被评审赞不绝口的论文:会是 Transformer 架构的一大创新吗?


论文 6:EVA: Exploring the Limits of Masked Visual Representation Learning at Scale


作者:Yuxin Fang 等

论文地址:https://arxiv.org/pdf/2211.07636.pdf


摘要:智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。



推荐:10 亿参数、多项 SOTA,智源开源视觉基础模型 EVA。


论文 7:Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket


作者:Nianhui Guo 等

论文地址:https://arxiv.org/pdf/2211.12933.pdf%E3%80%81


摘要:来自德国 Hasso Plattner 计算机系统工程研究院的 Nianhui Guo 和 Haojin Yang 等研究者提出了 BNext 模型,成为第一个在 ImageNet 数据集上 top1 分类准确率突破 80% 的 BNN。下图为基于 ImageNet 的 SOTA BNN 性能对比。、


推荐:首个在 ImageNet 上精度超过 80% 的二值神经网络 BNext 问世。

相关文章
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
23042 71
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
446 26
|
8月前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 加速科学发现丨Al For Science 专场直播
AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?
175 0
|
10月前
|
人工智能 Rust API
AI 乱写代码怎么破?使用 Context7 MCP Server 让 AI 写出靠谱代码!
本文通过实际案例演示了如何利用 Context7 MCP Server 解决 AI 编程助手中的代码幻觉问题和使用过时 API 的问题。借助 Context7 获取最新、最准确的代码建议,显著提升了 AI 生成的代码质量,从而有效提高了开发效率。
2645 10
AI 乱写代码怎么破?使用 Context7 MCP Server 让 AI 写出靠谱代码!
|
8月前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
2510 1
|
11月前
|
人工智能 自然语言处理
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
谷歌推出专为药物研发设计的TxGemma大模型,具备药物特性预测、生物文献筛选、多步推理等核心能力,提供20亿至270亿参数版本,显著提升治疗开发效率。
373 7
TxGemma:谷歌DeepMind革命药物研发!270亿参数AI药理学家24小时在线
|
11月前
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
567 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
12月前
|
人工智能 自然语言处理 程序员
全程不用写代码,我用AI程序员写了一个飞机大战
本文介绍了如何利用通义灵码插件在PyCharm中快速开发一款简单的飞机大战游戏。
7599 7
|
10月前
|
人工智能 数据可视化 JavaScript
2.1k star! 抓紧冲,DeepChat:连接AI与个人世界的智能助手的开源项目
DeepChat是一款开源跨平台智能助手工具,采用Apache-2.0协议,已获2.1k星标。它支持Windows/macOS/Linux,兼容20+主流AI服务,如OpenAI、Gemini等,还支持本地部署的开源模型。其核心功能包括全模型兼容架构、智能搜索增强、可视化工具平台(MCP)、多模态呈现及隐私安全设计。DeepChat适用于程序员助手、内容创作、学习研究、数据分析和智能办公五大场景。项目优势在于智能搜索决策、零配置工具链和企业级扩展性,是探索AI应用的理想选择。项目地址:https://github.com/ThinkInAIXYZ/deepchat。
663 0