7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型

简介: 7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型


本周重要论文有 Meta AI开源的多感官 AI 基础模型,用图像对齐了所有模态,还有 OpenAI 开始用 AI 解读 AI 的新研究。


目录:


  1. Language models can explain neurons in language models
  2. EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors
  3. IMAGEBIND: One Embedding Space To Bind Them All
  4. DetGPT: Detect What You Need via Reasoning
  5. A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance
  6. PandaLM: Reproducible and Automated Language Model Assessment
  7. DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Language models can explain neurons in language models



摘要:可解释性研究的一种简单方法是首先了解 AI 模型各个组件(神经元和注意力头)在做什么。传统的方法是需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程很难扩展,将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。


所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分,并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本,并公开了这些 GPT-2 神经元解释和分数的数据集。第一步用 GPT-4 生成解释。


第二步使用 GPT-4 进行模拟。


第三步对比。


推荐:OpenAI 用 GPT-4 解释了 GPT-2 三十万个神经元:智慧原来是这个样子。


论文 2:EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors



摘要:近年来,基于惯性的人体动作捕捉技术迅速发展。它们通过在人体上穿戴惯性传感器,实时测量人体的运动信息。然而这就好比一个人在蒙着眼睛走路 —— 我们可以感受到身体的运动,但随着时间的累积,我们越来越难以确定自己的位置。


本文则试图打开惯性动作捕捉的「眼睛」。通过额外佩戴一个手机相机,我们的算法便有了「视觉」。它可以在捕获人体运动的同时感知环境信息,进而实现对人体的精确定位。该项研究来自清华大学徐枫团队,已被计算机图形学领域国际顶级会议 SIGGRAPH2023 接收。本文人体动作捕捉与环境建图技术如下动图所示。


推荐:6 个惯性传感器和 1 个手机实现人体动作捕捉、定位与环境重建。


论文 3:IMAGEBIND: One Embedding Space To Bind Them All



摘要:在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。


最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。


今日,Meta AI 提出了 ImageBind,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。Meta AI 还公布了相应代码。


推荐:用图像对齐所有模态,Meta 开源多感官 AI 基础模型,实现大一统。


论文 4:DetGPT: Detect What You Need via Reasoning



摘要:本文中,来自港科大 & 港大的研究人员提出了一个全开源模型 DetGPT (全名 DetectionGPT),只需微调三百万参数量,让模型轻松拥有了复杂推理和局部物体定位能力,可以泛化到大多数场景。这意味着模型能够通过自身知识的推理来理解人类抽象指令,轻松识别图片中的人类感兴趣的物体!


DetGPT 可以让用户用自然语言操作一切,不需要繁琐的命令或者界面。同时还具备智能推理和目标检测能力,可以准确地理解用户的需求和意图。例如人类发一个语言指令 “我想喝冷饮”,机器人首先在场景里搜索冷饮,但是没有找到。于是开始思考 “场景里没有冷饮,我应该去哪里找”。通过强大的常识推理能力模型想到了冰箱,于是扫描场景画面发现了冰箱,成功锁定饮料位置!


推荐:能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的 DetGPT 来了。


论文 5:A Unified Spatial-Angular Structured Light for Single-View Acquisition of Shape and Reflectance



摘要:如何数字化真实世界中的复杂物体是计算机图形学与计算机视觉中的经典问题,在文化遗产、电子商务和电影特效等诸多领域有着广泛的应用。高精度数字化结果由三维几何与高维外观组成,能在虚拟世界中高保真地重现出本体在任意光照和视角下的「流光溢彩」。


为了提升数字化采集中的信噪比,浙江大学计算机辅助设计与图形系统全国重点实验室和杭州相芯科技有限公司的研究团队首次提出了能同时采集几何与外观信息的轻量级高维结构光光源,通过 LED 阵列与 LCD 面板组合,等效构建了 3072 个分辨率约为 320x320 的投影仪,仅用单个相机即可实现 0.27mm 的几何重建精度以及 SSIM=0.94 的外观重建精度,在复杂物体重建实验中超越了 SOTA。相关研究论文已被 CVPR 2023 接收。


下图左为团队自研结构光硬件原型,包括 64x48 的 LED 阵列、一个 1920x1080 分辨率的 LCD 遮罩(通过对普通液晶显示器拆卸后得到)和一台相机。图中为使用单个 LED 能投影一组遮罩图案来采集三维几何。图右为多个 LED 能投影光照图案穿过全透明遮罩来采集高维外观。


推荐:LED 阵列 + LCD 面板 = 3072 个投影仪:浙大 - 相芯联合团队实现复杂物体高质量数字化建模。


论文 6:PandaLM: Reproducible and Automated Language Model Assessment



摘要:大模型的发展可谓一日千里,指令微调方法犹如雨后春笋般涌现,大量所谓的 ChatGPT “平替” 大模型相继发布。在大模型的训练与应用开发中,开源、闭源以及自研等各类大模型真实能力的评测已经成为提高研发效率与质量的重要环节。


北京大学、西湖大学等机构的研究者提出了一种全新的大模型评估范式 PandaLM。PandaLM 通过训练一个专门用于评估的大模型,对大模型能力进行自动化且可复现的测试验证。PandaLM 于 4 月 30 日在 GitHub 上发布,是全球首个评估大模型的大模型。相关论文会在近期公布。


下面三张表的结果说明人类,gpt-3.5-turbo 与 PandaLM-7B 对于各个模型之间优劣关系的判断完全一致。


推荐:可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型 PandaLM 来了。


论文 7:DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance



摘要:在科技迅速发展的今天,生成式人工智能和计算机图形学领域的研究日益引人注目,影视制作、游戏开发等行业正面临着巨大的挑战和机遇。本文将为您介绍一项 3D 生成领域的研究 ——DreamFace,它是首个支持 Production-Ready 3D 资产生成的文本指导渐进式 3D 生成框架,能够实现文本生成可驱动的 3D 超写实数字人。


这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并将在国际计算机图形顶级会议 SIGGRAPH 2023 上展示。DreamFace 框架概述图如下所示。


推荐:DreamFace:一句话生成 3D 数字人?

相关文章
|
10月前
|
机器学习/深度学习 人工智能 算法
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
555 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
|
10月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
744 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
10月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
746 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
人工智能 搜索推荐 API
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
1293 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
|
10月前
|
人工智能 自然语言处理 测试技术
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
2242 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
1250 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
|
11月前
|
Web App开发 人工智能 JavaScript
Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定
Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。
1791 1
|
数据采集 人工智能 异构计算
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。
641 3
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
|
存储 人工智能 JSON
Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3
Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。
2555 16
|
机器学习/深度学习 人工智能 自然语言处理
MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDE
MetaGPT团队开源了Tree-Search Enhanced LLM Agents(SELA)系统,通过蒙特卡罗树搜索(MCTS)优化AutoML过程,显著提升了机器学习模型的构建效率和性能。SELA在20个数据集上的实验结果表明,其性能优于传统AutoML方法和基于LLM的代理,为AutoML领域带来了新的突破。
469 4

热门文章

最新文章