AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。
探索云端数据力量:MaxFrame的革命性实践
MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计,支持大规模数据处理和AI模型开发。本文介绍MaxFrame方案,评测其在分布式Pandas处理、大语言模型数据处理中的表现,分析产品开通使用步骤及功能满足度,并提出改进建议。对比其他工具,MaxFrame易用性高、性能优,但在功能丰富度上仍有提升空间。总结指出MaxFrame潜力巨大,未来有望更加完善。
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
与阿里合作的《人工智能(导论)》出版编辑中
《人工智能导论——深度学习大模型基础》由赵卫东编著,清华大学出版社出版。本书旨在帮助读者理解深度学习与大模型技术的底层逻辑,通过机器视觉、语音处理及自然语言处理等章节,结合实际应用场景,深入浅出地讲解相关理论。书中引入低代码开发平台和云端实验室资源,助力读者实践所学。无论专业背景如何,本书都能成为进入AI领域的理想入门书籍。特别感谢阿里云及参与编校工作的同学们的支持。
智源研究院发布开源中文互联网语料库CCI 4.0,新增高质量英文数据与合成数据
2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。
超强辅助!Bolt.diy 自然语言建站工具一键云端部署方案
Bolt.diy 是一款从创意到部署的极速开发工具,支持多语言模型(如 OpenAI、DeepSeek 等)灵活适配,满足不同任务需求。其模块化架构提供高度定制化能力,可扩展自定义服务与私有模型。全栈开发流程覆盖代码生成、调试、版本管理到一键部署,内置数据库管理与 API 自动生成功能。智能化辅助工具实时分析代码错误并提供建议,帮助开发者高效理解复杂项目。基于云原生平台 CAP 构建,支持快速部署与实时预览,适用于快速原型设计、教育及企业级开发等场景。
推理速度开挂!谷歌推出 Gemini 2.5 Flash:在保持Gemini 2.5精度的同时,延迟降低到竞品的1/3
谷歌最新推出的Gemini 2.5 Flash AI模型在保持低延迟和成本效益的同时,通过引入思考能力为开发者解锁了智能代理构建、代码辅助等新应用场景。
今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher
由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。
CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
MiniRAG:迷你 RAG 系统加成小型语言模型,爆发出与大型语言模型相当的性能
MiniRAG 是香港大学推出的新型 RAG 系统,专为资源受限场景设计,支持高效知识检索与推理,适用于多种应用场景。
GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全
GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。