AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像(2)

简介: AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像

由此看来,实验表明图像和文本解码的结合提供了准确的重建。研究人员表示,受试者之间在准确性方面存在差异,但这些差异与fMRI图像的质量相关。根据该团队的说法,重建的质量与目前SOTA的方法相当,但不需要训练其中用到的AI模型。与此同时,该团队还利用从fMRI数据中得出的模型来研究Stable Diffusion的各个构建块,例如语义内容是如何在逆向扩散过程中产生的,或者在U-Net中发生什么过程。在去噪过程的早期阶段,U-Net 的瓶颈层(橙色)产生最高的预测性能,随着去噪过程的进行,早期层(蓝色)进行对早期视觉皮层活动的预测,瓶颈层则转向高级视觉皮层。这也就是说,在扩散过程刚开始时,图像信息压缩在瓶颈层中,伴随着去噪,U-Net层之间的分离出现在视觉皮层中。此外,该团队正在对扩散不同阶段的图像转换进行定量解释。通过这种方式,研究人员旨在从生物学的角度为更好地理解扩散模型做出贡献,这些模型被广泛使用,但人们对它们的理解仍然很有限。

人脑画面,早被AI解码了?

多年来,研究人员一直在使用人工智能模型来解码来自人类大脑的信息。大多数方法的核心,通过使用预先录制的fMRI图像作为文本或图像的生成性AI模型的输入。例如,在2018年初,一组来自日本的研究人员展示了一个神经网络如何从fMRI录音中重建图像。2019年,一个小组从猴子的神经元中重建了图像,Meta的研究小组在Jean-Remi King的领导下,发表了新的工作,例如从fMRI数据中得出文本。2022年10月,德克萨斯大学奥斯汀分校的一个团队表明,GPT模型可以从fMRI扫描中推断出描述一个人在视频中看到的语义内容的文本。2022年11月,新加坡国立大学、香港中文大学和斯坦福大学的研究人员使用了MinD-Vis扩散模型从fMRI扫描中重建图像,其准确性明显高于当时的可用方法。再往前倒推的话,有网友指出了「根据脑电波生成图像至少从2008年开始就有了,以某种方式暗示着Stable Diffusion能够读懂人的思想,简直太荒谬了。」这项由加利福尼亚大学伯克利分校发表在Nature的论文称,利用视觉解码器可以将人的脑电波活动转换成图像。要说追溯历史,还有人直接拿出1999年,斯坦福李飞飞的一项关于从大脑皮层重建图像的研究。李飞飞也动手点评转发,称自己那时还是一名大学实习生。还有2011年,UC伯克利的一项研究使用功能磁共振成像(fMRI)和计算模型,初步重建了大脑的「动态视觉图像」。也就是说,他们重现了人们看过的片段。但是相比起最新研究,这项重建完全称不上「高清」,几乎无法辨认。

作者介绍

Yu TakagiYu Takagi是大阪大学的一名助理教授。他的研究兴趣是计算神经科学和人工智能的交叉领域。在博士期间,他在ATR脑信息交流研究实验室研究使用功能性磁共振成像(fMRI)从全脑功能连接预测不同个体差异的技术。最近,他在牛津大学的牛津人脑活动中心和东京大学的心理学系,利用机器学习技术了解复杂决策任务中的动态计算。Shinji NishimotoShinji Nishimoto是大阪大学的教授。他的研究方面是对大脑中视觉和认知处理的定量理解。更具体地说,Nishimoto教授团队的研究重点是通过建立自然感知和认知条件下诱发的大脑活动的预测模型来理解神经处理和代表。有网友问作者,这项研究能否用于解梦?「将同样的技术应用于睡眠期间的大脑活动是可能的,但这种应用的准确性目前还不清楚。」

看过这项研究后:摄神取念术(Legilimency)妥妥的有了。参考资料:https://sites.google.com/view/stablediffusion-with-brain/https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2

相关文章
|
2月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
674 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
372 41
|
8月前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
555 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
8月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
405 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
7月前
|
人工智能 弹性计算 智能设计
🎨 三步打造AI创意工坊 | 通义万相图像生成服务极速部署指南
🚀 从零到大师 | 通义万相智能创作系统部署指南
|
8月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1062 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
8月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
609 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
9月前
|
机器学习/深度学习 人工智能 安全
Stable Diffusion 3.0 :一键开启你的AI绘画之旅
本文介绍了Stable Diffusion 3.0的主要优化,包括采用DiT架构提升多对象生成能力及“流匹配”技术加速采样。同时解决了部署复杂、显卡需求高等问题,可通过阿里云计算巢一键部署,实现即开即用。文章展示了人像、动漫风、科幻风等生成效果,并提供中文菜单设置与插件下载教程。无论是专业设计师还是普通用户,都能轻松开启智能创作新时代。 Flux模型支持即将上线,值得期待。
|
人工智能 算法 机器学习/深度学习