今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher

简介: 由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。

v2-55ac1631fa64ba3d35b4fb276a3fe9d1_1440w.gif

作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。来看看机智流和modelscope社区今日推荐的热门论文吧。


RuCCoD: Towards Automated ICD Coding in Russian

论文链接:

https://modelscope.cn/papers/121670

简要介绍:

由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。


Unified Reward Model for Multimodal Understanding and Generation

论文链接:

https://modelscope.cn/papers/124332

简要介绍:

由复旦大学、上海AI实验室等机构联手打造的UnifiedReward,提出了首个统一的多模态理解与生成评估奖励模型。针对现有任务特定模型的局限性,该模型通过联合学习图像和视频任务,利用大规模人类偏好数据集,实现了成对排序和逐点评分。实验证明,其通过直接偏好优化(DPO)显著提升了视觉模型性能,展现了跨任务协同增益的潜力。

核心图片:

  image.png


EuroBERT: Scaling Multilingual Encoders for European Languages

论文链接:

https://modelscope.cn/papers/124319  

简要介绍:

由CentraleSupélec、里斯本大学等机构研发的EuroBERT,重新审视了多语言编码器的发展,推出了一组覆盖欧洲及全球广泛使用语言的模型。EuroBERT在检索、分类和回归任务中超越现有模型,支持高达8192 token的序列,且无需位置嵌入。团队公开了模型及训练框架,为多语言研究注入新活力。

核心图片:

image.png  


S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

论文链接:

https://modelscope.cn/papers/124126  

简要介绍:

由香港中文大学(深圳)提出的S2S-Arena,是首个关注语音到语音(S2S)指令遵循能力并融入副语言信息的基准测试。包含154个样本,覆盖4个领域21个任务,该研究揭示了现有语音模型在理解输入副语言信息上的潜力,但生成相应音频仍具挑战性,为未来多模态语音模型设计提供了方向。

核心图片:

image.png


Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

论文链接:

https://modelscope.cn/papers/124263  

简要介绍:

由KAIST和DeepAuto.ai提出的Sketch-of-Thought(SoT),通过认知启发的推理范式优化大语言模型的推理效率。SoT引入三种自适应范式减少76%的token使用,同时保持甚至提升数学和多跳推理的准确性。其代码已开源,展示了高效推理的巨大潜力。

核心图片:

image.png


R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

论文链接:

https://modelscope.cn/papers/124102  

简要介绍:

由加州大学洛杉矶分校等机构提出的R1-Zero,在2B非SFT模型上首次复现了多模态推理中的“顿悟时刻”。基于Qwen2-VL-2B,通过强化学习,该模型在CVBench上提升约30%准确率,超越SFT设置,揭示了非监督模型在视觉推理中的潜力。

核心图片:

image.png


Forgetting Transformer: Softmax Attention with a Forget Gate

论文链接:

https://modelscope.cn/papers/122938

简要介绍:

由Mila及蒙特利尔大学提出的Forgetting Transformer(FoX),通过在softmax注意力中引入遗忘门,增强了Transformer的长上下文建模能力。FoX在语言建模和下游任务中表现出色,且兼容FlashAttention,开源代码进一步推动了研究。


R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

论文链接:

https://modelscope.cn/papers/124030  

简要介绍:

由中国人民大学提出的R1-Searcher,通过两阶段强化学习框架提升大语言模型的搜索能力。无需预训练或蒸馏,该方法使模型自主调用外部搜索系统,显著超越传统RAG方法,甚至挑战GPT-4o-mini,展现了强大的泛化性。

核心图片:

image.png


SafeArena: Evaluating the Safety of Autonomous Web Agents

论文链接:

https://modelscope.cn/papers/124153  

简要介绍:

SafeArena由多机构合作推出,是首个评估网络代理恶意使用的基准测试。包含250个安全和250个有害任务,覆盖五大危害类别。测试显示GPT-4o等模型对恶意请求的遵从率高达34.7%,凸显了网络代理安全对齐的迫切需求。

核心图片:

image.png


VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

论文链接:

https://modelscope.cn/papers/124052  

简要介绍:

由香港中文大学、腾讯ARC Lab等提出的VideoPainter,推出了双流架构实现任意长度视频修复和编辑。通过轻量级上下文编码器和ID重采样技术,该模型在390K+片段的VPData上训练,展现了卓越的视频质量和一致性。

核心图片:

image.png


结语:

今天的热点论文推荐到此结束!从俄语编码自动化到视频修复创新,每一篇论文都为AI领域带来了新的火花。🔥 您最看好哪项研究?欢迎留言讨论,一起期待AI的更多突破!🚀

-- 完 --

欢迎访问 https://chat.intern-ai.org.cn/

和书生·浦语一起读论文

目录
相关文章
|
JavaScript 前端开发
Vue实现模糊查询
Vue实现模糊查询
483 1
|
5月前
|
人工智能 自然语言处理 数据可视化
阿里云万小智AI建站是什么?产品架构、优势、功能与收费标准参考
万小智AI建站是阿里云面向企业及个人用户提供的一款AI驱动的自助建站产品,无需编程基础,通过对话式交互、可视化拖拽操作和AI辅助内容生成,即可快速搭建响应式网站。用户购买后无需单独配置服务器,只需注册域名并完成备案(如部署在中国内地),即可上线网站。
730 20
|
7月前
|
JSON 监控 API
京东:对接秒杀活动API策划限时抢购,制造稀缺感
京东秒杀活动通过API实现限时抢购,制造稀缺感,提升用户转化率。本文详解API对接流程、稀缺策略及代码示例,助力商家高效运营,实现销量增长。
293 0
|
供应链 安全 量子技术
OASA走进三未信安、奇安信和360,共建龙蜥安全生态
开展操作系统安全技术创新交流合作,提供更便捷的商业合作渠道,服务好联盟成员间共同的客户、用户。
OASA走进三未信安、奇安信和360,共建龙蜥安全生态
|
机器学习/深度学习 自然语言处理
交叉熵损失
【10月更文挑战第2天】
|
小程序 Java 程序员
JDK 和 JRE 有什么区别
JDK(Java Development Kit)是Java开发工具包,包含编译器、调试器等开发工具,用于开发Java程序。JRE(Java Runtime Environment)是Java运行环境,包含Java虚拟机和类库,用于运行Java程序。简言之,JDK用于编写Java程序,JRE用于运行这些程序。
625 2
|
机器学习/深度学习 测试技术
如何选择合适的多任务学习模型?
【5月更文挑战第25天】如何选择合适的多任务学习模型?
339 5
|
前端开发 JavaScript UED
【专栏】CSS Modules是一种将CSS与模块系统结合的技术,解决传统CSS管理中的全局样式污染和可维护性问题
【4月更文挑战第29天】CSS Modules是一种将CSS与模块系统结合的技术,解决传统CSS管理中的全局样式污染和可维护性问题。它提供局部作用域、模块隔离和自动生成唯一类名,保证样式安全性。与现有CSS语法兼容,且与React、Vue等现代框架集成良好,支持动态样式和主题切换。通过引入CSS Modules,开发者能提升代码的可维护性、可读性和稳定性。了解和使用CSS Modules对于前端开发至关重要。
518 2
|
运维 物联网 Linux
嵌入式面试求职分享(经典)
嵌入式面试求职分享(经典)
786 0
|
SQL 算法 API
NiceGui:Python中的轻量级GUI框架初体验
NiceGui:Python中的轻量级GUI框架初体验
1799 0

热门文章

最新文章