论文推荐:CoSTAast、Transformers without Normalization

简介: 由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会论文投稿选题不迷惘。快来看看「机智流」和「ModelScope」社区推荐的热门论文吧!

CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

论文链接:

https://huggingface.co/papers/2503.10613  

简要介绍:

由马里兰大学团队提出的CoSTA*,针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型(LLM)的子任务规划与A搜索算法,构建了一个高效的工具选择路径,不仅降低了计算成本,还提升了图像编辑质量。通过视觉语言模型评估子任务输出,CoSTA能在失败时快速调整路径,并在全新多轮图像编辑基准测试中超越现有最佳模型。

核心图片:

image.png


Transformers without Normalization

论文链接:

https://modelscope.cn/papers/126286

简要介绍:

由Meta FAIR、NYU等团队联手推出的这项研究,挑战了规范化层在Transformer中的必要性。他们提出了Dynamic Tanh(DyT),一种简单操作替代规范化层,不仅保持甚至提升了模型性能,还无需过多超参数调整。实验验证了DyT在视觉与语言任务中的广泛适用性,为神经网络设计提供了新思路。

核心图片:

image.png


Charting and Navigating Hugging Face's Model Atlas

论文链接:

https://huggingface.co/papers/2503.10633  

简要介绍:

耶路撒冷希伯来大学团队打造了Hugging Face模型图谱,试图为数百万公开神经网络绘制导航蓝图。该工作通过可视化模型演化与趋势,预测模型属性,并在未文档区域利用结构先验填补空白,为大规模模型库研究提供了新工具与数据集。

核心图片:

image.png


World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

论文链接:

https://modelscope.cn/papers/126368  

简要介绍:

复旦大学等机构提出的D²PO,通过双重偏好优化联合训练状态预测与动作选择,提升了大型视觉语言模型在实体任务规划中的能力。结合树搜索机制自动收集数据,该方法在VoTa-Bench上显著超越GPT-4o,展现了更高的成功率与执行效率。

核心图片:

image.png


Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

论文链接:

https://modelscope.cn/papers/126588  

简要介绍:

KAIST团队揭示了文本到图像扩散模型的新漏洞,提出了“无声品牌攻击”。通过在训练数据中隐秘注入品牌标志,该方法让模型在无触发词的情况下生成含标志的图像,成功率高且不影响图像质量,引发了对数据安全的深思。

核心图片:

image.png


CoRe^2: Collect, Reflect and Refine to Generate Better and Faster

论文链接:

https://modelscope.cn/papers/126707  

简要介绍:

香港科技大学(广州)团队推出的CoRe²,通过“收集-反思-精炼”三阶段范式,提升了文本到图像生成的速度与质量。该方法适用于多种扩散模型与自回归模型,在多项基准测试中表现优异,且与Z-Sampling集成时进一步提升性能。

核心图片:

image.png


GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

论文链接:

https://modelscope.cn/papers/126628  

简要介绍:

香港中文大学等团队提出了Generation Chain-of-Thought(GoT),通过语言推理链指导图像生成与编辑。结合Qwen2.5-VL与新型语义-空间引导模块,该框架在生成质量与编辑精度上均有突破,并支持交互式调整,开启了推理驱动视觉合成的新方向。

核心图片:

image.png


VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

论文链接:

https://modelscope.cn/papers/126372  

简要介绍:

上海AI实验室等机构开发的VisualPRM,一个8B参数的多模态过程奖励模型,通过Best-of-N策略提升了MLLM的推理能力。搭配VisualPRM400K数据集与VisualProcessBench基准,该模型在七个推理任务中表现出色,甚至对InternVL2.5-78B也有显著提升。

核心图片:

image.png


OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting

论文链接:

https://modelscope.cn/papers/125491

简要介绍:

罗切斯特大学与Adobe Research合作推出的OmniPaint,将对象移除与插入视为相互依存的过程。通过CycleFlow训练与全新CFD指标,该框架实现了高保真编辑,保留场景几何与物理效应,成为对象导向编辑的新标杆。

核心图片:

image.png


Shifting Long-Context LLMs Research from Input to Output

论文链接:

https://modelscope.cn/papers/123598

简要介绍:

由清华大学等团队倡议的研究转向,强调长输出生成在LLM中的重要性。该文指出当前研究过于聚焦输入处理,忽略了长篇写作、规划等任务的需求,呼吁开发专为高质量长输出设计的模型,潜力巨大。

核心图片:

image.png

目录
相关文章
|
机器学习/深度学习 人工智能 编解码
AIMv2:苹果开源多模态视觉模型,自回归预训练革新图像理解
AIMv2 是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能,适用于多种视觉和多模态任务。
616 5
AIMv2:苹果开源多模态视觉模型,自回归预训练革新图像理解
|
12月前
|
机器学习/深度学习 PyTorch API
MindIE Torch快速上手
MindIE Torch 是一款高效的深度学习推理优化工具,支持 PyTorch 模型在 NPU 上的高性能部署。其核心特性包括:1) 子图与单算子混合执行,配合 torch_npu 实现高效推理;2) 支持 C++ 和 Python 编程语言,灵活适配不同开发需求;3) 兼容多种模式(TorchScript、ExportedProgram、torch.compile),覆盖广泛场景;4) 支持静态与动态 Shape 模型编译,满足多样化输入需求。通过简单易用的 API,开发者可快速完成模型加载、编译优化、推理执行及离线模型导出等全流程操作,显著提升开发效率与性能表现。
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
617 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
供应链 算法 安全
探索区块链技术中的隐私保护机制
探索区块链技术中的隐私保护机制
557 27
|
机器学习/深度学习 人工智能 自然语言处理
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。
838 21
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
|
人工智能 资源调度 数据可视化
StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务
StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型,通过知识图谱和角色定制技术,实现高质量的故事可视化。
822 18
StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务
|
机器学习/深度学习 自然语言处理
掩码语言模型(MLM)
掩码语言模型(MLM)
|
资源调度 JavaScript API
解锁一个尚未被 Vue 正式实现的提案或想法集合的库,真的很有趣!
解锁一个尚未被 Vue 正式实现的提案或想法集合的库,真的很有趣!
|
供应链 监控 算法
ERP系统中的库存优化与库存周转率分析解析
【7月更文挑战第25天】 ERP系统中的库存优化与库存周转率分析解析
1358 1
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备
【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。
3931 1

热门文章

最新文章