7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(1)

简介: 7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构
本周主要论文包括奇虎360人工智能研究院和清华大学联合发布的大规模中文跨模态基准数据集 Zero,以及 Science 封面特刊的五篇 AI 帮助揭示核孔复合体结构的论文


目录:

  1. AI-based structure prediction empowers integrative structural analysis of human nuclear pores
  2. Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold
  3. Quantum computational advantage with a programmable photonic processor
  4. Rethinking Graph Neural Networks for Anomaly Detection
  5. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework
  6. Siamese Image Modeling for Self-Supervised Vision Representation Learning
  7. FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:AI-based structure prediction empowers integrative structural analysis of human nuclear pores


摘要:虽然核孔复合体(NPC)介导核质转运,它们错综复杂的 120 兆道尔顿架构仍未完全得到了解。马克斯・普朗克生物物理研究所等机构的研究者报告了具有显式膜和多构象状态的人类 NPC 支架的 70 兆道尔顿模型。他们将基于 AI 的结构预测与原位和细胞冷冻电子断层扫描、综合建模相结合。结果表明,接头核孔蛋白在亚复合体内和亚复合体之间组织支架,以建立高阶结构。微秒长的分子动力学模拟表明,支架不需要稳定内外核膜融合,而是扩大中心孔。他们举例阐释了如何将基于 AI 的建模与原位结构生物学相结合,以了解跨空间组织级别的亚细胞结构。

人类 NPC 支架架构的 70 兆道尔顿模型。

推荐:新研究将基于 AI 的结构预测与原位和细胞冷冻电子断层扫描、综合建模相结合。

论文 2:Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold


摘要:哈佛医学院等机构的研究者使用单粒子冷冻电子显微镜和 AlphaFold 预测,从非洲爪蟾卵母细胞中确定了近乎完整的 NPC 细胞质环结构。具体地,他们使用 AlphaFold 预测核孔蛋白的结构,并使用突出的二级结构密度作为指导来适应中等分辨率的地图。某些分子相互作用通过使用 AlphaFold 的复杂预测进一步得到建立或确认。

研究者确定了五份 Nup358 的结合模式,它是最大的 NPC 亚基,具有用于转运的 Phe-Gly 重复序列。他们预测 Nup358 包含一个卷曲螺旋结构域,可以提供活性以帮助它在一定条件下作为 NPC 形成的成核中心。

非洲爪蟾 NPC 细胞质环的 Cryo-EM 结构。

推荐:研究者使用 DeepMind 的 AlphaFold 来预测核孔蛋白的结构。

论文 3:Quantum computational advantage with a programmable photonic processor


摘要:在一项新研究《可编程光子处理器的量子计算优越性》中,多伦多量子计算初创公司 Xanadu 推出了全新的设备 Borealis,它可能是第一台完全可编程的光子量子计算机。这项研究 6 月 1 日正式发表在 Nature 杂志。

在 Borealis 中,量子比特由所谓的「压缩态」构成,由光脉冲中的多个光子的叠加组成。由于量子物理学的超现实性质,传统量子比特能够以一种称为叠加的状态存在,它们可以表示数据的 0 或 1,而压缩态能够以 0、1、2、3 或更多的状态存在。它能够生成多达 216 个压缩光脉冲序列。「重要的是要认识到 Borealis 并不等同于 216 量子比特的传统设备。由于它使用压缩态的量子比特,它处理的量子任务与基于超导电路量子比特或离子阱的设备不同。」Lavoie 说。

来自完全可编程光子处理器的高维 GBS。

GBS 设备的实验验证。

相对于真值的基准。

推荐:首台完全可编程光量子计算机面世:超过最强超算富岳 7.8 万亿倍。

论文 4:Rethinking Graph Neural Networks for Anomaly Detection


摘要:图神经网络(GNN)被广泛应用于结构化数据的异常检测,例如社交网络恶意账号检测、金融交易欺诈检测等。香港科技大学和斯坦福大学首次从谱域的角度(即图拉普拉斯矩阵的谱分解)分析了异常数据可能造成的影响。

他们的核心发现是:异常数据将导致频谱能量出现 “右移” 现象,即频谱能量分布从低频向高频移动。基于这一发现,他们又提出了 Beta 小波图神经网络(BWGNN)。它拥有多个具有局部性的带通滤波器,能够更好捕获 “右移” 产生的高频异常信息。在四个大规模图异常检测数据集上,BWGNN 的性能均优于现有的模型。

传统异常检测与面向图的异常检测任务对比。

频谱能量 “右移” 现象的可视化。

热核小波与 Beta 核小波在谱域(左)和空域(右)上的对比,Beta 函数具有更好的带通与局部性质。

推荐:基于结构化数据的异常检测再思考:我们究竟需要怎样的图神经网络?入选 ICML 2022

论文 5:Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework


摘要:最近,奇虎 360 人工智能研究院和清华大学的研究者在其最新论文中重点关注了大规模视觉语言数据集和跨模态表征学习模型。研究者提出了一个大规模中文跨模态基准数据集 Zero,它包含了两个被称为 Zero-Corpus 的预训练数据集和五个下游任务数据集,一定程度上填补了中文图文跨模态领域数据集的空白。
进一步,研究者们还提出了一个视觉语言预训练框架 R2D2,用于大规模跨模态学习,基于所提出的 Zero-Corpus 数据集进行预训练,并在多个下游任务上进行测试,R2D2 取得多项超越 SOTA 的结果。上述数据集和模型,均已开源。

研究者还尝试用更大的 2.5 亿内部数据集训练 R2D2 模型,相对 2300 万数据,模型效果依然有显著提升。特别是在零样本任务上,相对此前的 SOTA,在 Flickr30k-CN 数据集上,R@M 提升到 85.6%(提升了 4.7%),在 COCO-CN 数据集上,R@M 提升到 80.5%(提升了 5.4%),在 MUGE 数据集上,R@M 提升到 69.5%(提升了 6.3%)。

提出框架的示意图。

Zero-Corpus 图文对示例。

ITM 任务上的性能。

推荐:从 50 亿图文中提取中文跨模态新基准 Zero,奇虎 360 全新预训练框架超越多项 SOTA。


相关文章
|
7月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38954 20
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
248 0
|
9天前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
63 26
|
10天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
62 37
|
25天前
|
人工智能 数据挖掘 BI
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。
72 12
|
2月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
63 4
|
3月前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
5月前
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
6月前
|
人工智能 PyTorch TensorFlow
分布式训练:大规模AI模型的实践与挑战
【7月更文第29天】随着人工智能的发展,深度学习模型变得越来越复杂,数据集也越来越大。为了应对这种规模的增长,分布式训练成为了训练大规模AI模型的关键技术。本文将介绍分布式训练的基本概念、常用框架(如TensorFlow和PyTorch)、最佳实践以及可能遇到的性能瓶颈和解决方案。
969 2

热门文章

最新文章