RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-MMBench点燃创意火花: 今日论文

简介: 由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

5eecdaf48460cde5d5fb57f04567d5924607b27caa4c0b5458e70b814913bc360a414d3de9277d871abf3af1cbd752490a6821246a42478fac60da290331e111f9ef99549683b2f93c7e273e20172cc2b8c2f1031b0cf01bfc653b69905bac42.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,AI 时代不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日论文吧。


RWKV-7 "Goose" with Expressive Dynamic State Evolution

论文链接:

https://modelscope.cn/papers/128111

简要介绍:

由 RWKV 项目(Linux Foundation AI & Data)和 EleutherAI 等机构提出的 RWKV-7 "Goose",是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录,媲美顶级英文语言模型,同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化,超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码,助力社区研究。

核心图片:

image.png


Impossible Videos

论文链接:

https://modelscope.cn/papers/128074

简要介绍:

由新加坡国立大学 Show Lab 提出的 "Impossible Videos" 研究,聚焦于生成和理解“不可能视频”(如违反物理规律的场景)。该工作推出了 IPV-Bench 基准,包含4大领域、14类场景,挑战视频生成与理解模型的极限。实验揭示了现有模型在创意与推理上的不足,为下一代视频模型指明方向。

核心图片:

image.png



DAPO: An Open-Source LLM Reinforcement Learning System at Scale

论文链接:

https://modelscope.cn/papers/128212

简要介绍:

由 ByteDance Seed 和清华大学 AIR 等机构联合开发的 DAPO,是一种开源的大规模强化学习系统,基于 Qwen2.5-32B 模型在 AIME 2024 上取得50分佳绩。它提出了“解耦剪切与动态采样策略优化”算法,通过四大技术突破提升了长链推理能力,完全开源代码和数据集,推动社区复制工业级RL成果。

核心图片:

image.png


Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

论文链接:

https://modelscope.cn/papers/127996

简要介绍:

由浙江大学、上海人工智能实验室等机构推出的 Creation-MMBench,是首个评估多模态大语言模型(MLLM)创意能力的基准。它包含765个测试用例,覆盖51个细粒度任务,揭示开源MLLM在创意任务中远逊于商业模型,并分析视觉微调对创造力的负面影响,为多模态智能发展提供洞见。

核心图片:

image.png




DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding

论文链接:

https://modelscope.cn/papers/127746

简要介绍:

由澳门大学、清华大学等机构提出的 DeepPerception,针对知识密集型视觉接地(KVG)任务增强了MLLM的认知视觉感知能力。通过自动数据合成和两阶段训练框架(监督微调+强化学习),它在 KVG-Bench 上提升了8.08%的准确率,展现出卓越的跨领域泛化能力。

核心图片:

image.png



Infinite Mobility: Scalable High-Fidelity Synthesis of Articulated Objects via Procedural Generation

论文链接:

https://modelscope.cn/papers/127434

简要介绍:

由上海人工智能实验室、香港大学等机构提出的 Infinite Mobility,通过程序化生成技术合成高保真关节对象。它超越传统数据驱动方法,生成结果媲美人工标注数据集,并可作为生成模型的训练数据,推动具身AI任务的扩展。

核心图片:

  image.png



Frac-Connections: Fractional Extension of Hyper-Connections

论文链接:

https://modelscope.cn/papers/128162

简要介绍:

由 ByteDance Seed 团队提出的 Frac-Connections,改进了Hyper-Connections,通过分割隐藏状态而非扩展宽度,降低了内存消耗。它在7B MoE模型上验证了优于残差连接的性能,为深层网络训练提供新思路。

核心图片:

image.png


 


Aligning Multimodal LLM with Human Preference: A Survey

论文链接:

https://modelscope.cn/papers/128033

简要介绍:

由 IEEE Fellow 领衔团队完成的综述,系统回顾了多模态大语言模型(MLLM)与人类偏好对齐的算法。文章探讨了应用场景、数据集构建、评估基准及未来方向,为研究者提供全面指南。

核心图片:

image.png



Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

论文链接:

https://modelscope.cn/papers/128127

简要介绍:

由 NVIDIA 推出的 Cosmos-Transfer1,是一种基于多模态控制(分割、深度、边缘)的条件世界生成模型。它通过自适应时空控制图实现高度可控生成,支持机器人Sim2Real等应用,并在NVIDIA GB200上实现实时推理。

核心图片:

image.png


目录
相关文章
|
存储 JavaScript 前端开发
|
缓存 关系型数据库 MySQL
MySQL并发支撑底层Buffer Pool机制详解
【10月更文挑战第18天】在数据库系统中,磁盘IO操作是性能瓶颈之一。为了提高数据访问速度,减少磁盘IO,MySQL引入了缓存机制。其中,Buffer Pool是InnoDB存储引擎中用于缓存磁盘上的数据页和索引页的内存区域。通过缓存频繁访问的数据和索引,Buffer Pool能够显著提高数据库的读写性能。
664 2
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek vs. ChatGPT:大语言模型的技术分野与应用边界全解析
DeepSeek更适合中文环境下对语言理解和生成准确性要求高、专业领域内容生成需求大,以及对成本敏感、实时性要求高和硬件资源有限的场景。ChatGPT则更适合需要处理多种语言,尤其是以英文等西方语言为主,以及对创意写作、开放域对话有需求,对成本和实时性要求不高且有强大硬件支持的场景。两款模型各有侧重,用户可根据具体需求选择最适合的工具。
|
安全 Linux API
恶意代码分析入门--静态分析(chapter1_Lab01-01)
本文档介绍了在Windows XP SP3环境下,利用PEiD、Strings、PETools等工具对Lab01-01.exe和Lab01-01.dll两个文件进行恶意代码分析的过程。实验包括在线扫描、PE结构分析、检查是否加壳、分析导入函数、字符串搜索等步骤,最终推测出这两个文件的潜在恶意行为及目的。通过这一系列的静态分析手段,能够初步判断出恶意代码的性质与功能,为后续的深入研究提供了基础。
415 5
恶意代码分析入门--静态分析(chapter1_Lab01-01)
|
IDE 物联网 开发工具
STM32:微控制器领域的璀璨明星与其实践应用
STM32:微控制器领域的璀璨明星与其实践应用
455 0
|
机器学习/深度学习 供应链 TensorFlow
使用Python实现智能供应链风险预测
使用Python实现智能供应链风险预测
345 1
|
XML 关系型数据库 MySQL
Web Services 服务 是不是过时了?创建 Web Services 服务实例
本文讨论了WebServices(基于SOAP协议)与WebAPI(基于RESTful)在开发中的应用,回顾了WebServices的历史特点,比较了两者在技术栈、轻量化和适用场景的差异,并分享了使用VB.net开发WebServices的具体配置步骤和疑问。
435 0
|
安全 JavaScript Java
停车场|基于Springboot的停车场管理系统设计与实现(源码+数据库+文档)
停车场|基于Springboot的停车场管理系统设计与实现(源码+数据库+文档)
1124 1
|
程序员 编译器 C++
【继承】菱形继承以及虚拟菱形继承
【继承】菱形继承以及虚拟菱形继承
|
存储 弹性计算 数据库
阿里云云计算工程师ACA认证(Alibaba Cloud Certified Associate - Cloud Computing)考试大纲
介绍阿里云云计算工程师ACA认证(Alibaba Cloud Certified Associate - Cloud Computing)所需具备的知识及学习方法等。
3281 2

热门文章

最新文章