7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)

简介: 7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构

论文 6:Siamese Image Modeling for Self-Supervised Vision Representation Learning


摘要:研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。

ID、 MIM 和 SIM 框架的比较。

Siamese Image Modeling 概览。

ViT-B/16 上 SIM 与其他方法的结果比较。

推荐:自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法。

论文 7:FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects


摘要:最近,CMU 机器人学院 David Held 教授 R-PAD 实验室的两名学生 Ben Eisner 和 Harry Zhang 在操纵复杂的关节物体方面取得了突破,并推出了基于 3D 神经网络的 FlowBot 3D,一种有效表达和预测关节物体部分运动轨迹的算法,如日常家具。该算法包含两个部分。
第一个部分是感知部分,这个部分使用 3D 深度神经网络从被操纵家具物体的点云数据中预测三维瞬时运动轨迹。算法的第二个部分是策略部分,它使用预测得到的 3D Articulated Flow 来选择机器人的下一个动作。
两者都在模拟器中完全学习,可以直接在现实世界中实现,无需重新训练或调整。在 FlowBot 3D 算法的帮助下,机器人可以像人类一样随意操纵日常家具等关节物体。

FlowBot 3D 的两个模块。

打开冰箱门。

打开马桶盖。

推荐:CMU 发表新型灵巧机器人算法,准确学习日常家具的操纵方法。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0022:27
本周 10 篇 NLP 精选论文是:


1. Unsupervised Key Event Detection from Massive Text Corpora.  (from Jiawei Han)

2. Beyond Opinion Mining: Summarizing Opinions of Customer Reviews.  (from Bing Liu)

3. Words are all you need? Capturing human sensory similarity with textual descriptors.  (from Thomas L. Griffiths)

4. Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos.  (from Alexander Waibel)

5. Plumber: A Modular Framework to Create Information Extraction Pipelines.  (from Sören Auer)

6. LegoNN: Building Modular Encoder-Decoder Models.  (from Abdelrahman Mohamed)

7. Latent Topology Induction for Understanding Contextualized Representations.  (from Mirella Lapata)

8. Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future.  (from Bonnie Webber)

9. Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization.  (from Grigorios Tsoumakas)

10. Factuality Enhanced Language Models for Open-Ended Text Generation.  (from Bryan Catanzaro)


本周 10 篇 CV 精选论文是:1. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images.  (from Xiangyu Zhang, Jian Sun)2. Revisiting the "Video" in Video-Language Understanding.  (from Li Fei-Fei)3. PrivHAR: Recognizing Human Actions From Privacy-preserving Lens.  (from Li Fei-Fei)4. Compositional Visual Generation with Composable Diffusion Models.  (from Antonio Torralba, Joshua B. Tenenbaum)5. Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps.  (from Antonio Torralba)6. Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval.  (from Shih-Fu Chang)7. Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields.  (from Martial Hebert)8. Generating Long Videos of Dynamic Scenes.  (from Alexei A. Efros)9. STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction.  (from Wen Gao)10. Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution.  (from Wen Gao)



本周 10 篇 ML 精选论文是:
1. Schema-Guided Event Graph Completion.  (from Jiawei Han)2. BaCaDI: Bayesian Causal Discovery with Unknown Interventions.  (from Bernhard Schölkopf, Andreas Krause)3. Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis.  (from Bernhard Schölkopf)4. Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination.  (from Philip S. Yu)5. DORA: Exploring outlier representations in Deep Neural Networks.  (from Klaus-Robert Müller)6. Imitating Past Successes can be Very Suboptimal.  (from Sergey Levine, Ruslan Salakhutdinov)7. Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks.  (from Shuicheng Yan)8. From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation.  (from Thomas Wiegand)9. Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning.  (from Aaron Courville)10. Beyond Tabula Rasa: Reincarnating Reinforcement Learning.  (from Aaron Courville, Marc G. Bellemare)

相关文章
|
3月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
346 2
|
7月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38954 20
|
8月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
248 0
|
9天前
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
63 26
|
10天前
|
人工智能 测试技术
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
著名数学家陶哲轩联合60多位数学家推出FrontierMath基准测试,评估AI在高级数学推理方面的能力。该测试涵盖数论、实分析等多领域,采用新问题与自动化验证,结果显示最先进AI通过率仅2%。尽管存在争议,这一基准为AI数学能力发展提供了明确目标和评估工具,推动AI逐步接近人类数学家水平。
62 37
|
25天前
|
人工智能 数据挖掘 BI
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。
72 12
|
2月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
63 4
|
3月前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
6月前
|
人工智能
魔搭多模态AI单词助记&通义APP即时口语练习,你从未体验过的全新版本!
首次接触魔搭多模态AI单词助记工具让我颇感惊喜。传统背单词方式枯燥低效,而该工具通过生成关联图像、短语或故事,让记忆变得生动有趣。访问[Word-wizard](https://modelscope.cn/studios/makabakaing/Word-wizard)体验其图文记忆和视觉学习功能。目前图文记忆功能似乎存在问题,但视觉学习功能仍可正常使用,能识别图片特征并生成释义和例句,辅助学习效果不错。此外,可通过通义APP实现即时口语练习,尽管缺乏上下文记忆功能,但仍是一个优秀的练习工具。

热门文章

最新文章