一年输送旅客数千万次,浦东国际机场的效率秘密藏在这个智能体里
秋冬旅游高峰,浦东机场迎百万客流挑战。蚂蚁百宝箱推出“浦东国际机场”智能体,集成航班查询、停车导航、交通路线、餐饮酒店等一站式服务,实现“出发—到港”全链路智慧出行,提升旅客体验与机场运营效率。
仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!
11月11日,百度开源文心ERNIE-4.5-VL-28B-A3B-Thinking多模态模型,仅3B激活参数,性能媲美顶级大模型。具备强大视觉语言理解、跨模态推理与“图像思考”等创新功能,支持工具调用与视频分析,适用于复杂图文任务,全面开放商用。
Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!
魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化…
65_GPU选择:A100 vs RTX系列
在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1,从专业领域应用到消费级产品,LLM正在以前所未有的速度改变着我们的工作和生活方式。然而,这些强大模型的训练和部署背后,都离不开高性能计算硬件的支持,尤其是GPU(图形处理单元)的选择,往往直接决定了项目的可行性、效率和成本。
8月23日南京Unstructured Data Meetup 启动
8月23日,南京场Unstructured Data Meetup 将在阿里中心·南京建邺 江苏省南京市建邺区沙洲街道新城科技园科技创新综合体A2栋举办。
TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人
GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。
支付宝率先接入!魔搭社区上线「MCP广场」与1400款MCP服务
4月15日,中国第一AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门的MCP服务,包括支付宝、MiniMax等全新MCP服务在魔搭独家首发。魔搭社区为AI开发者提供丰富的MCP服务及调试工具,并支持第三方平台集成和调用,通过开源开放的方式加速Agent及AI应用的创新和落地。
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
14B小模型代码成绩紧逼O3-Mini!DeepCoder-14B-Preview:基于Deepseek-R1蒸馏优化的开源代码生成模型
DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型,通过强化学习微调在LiveCodeBench达到60.6%准确率,开源训练数据与系统优化方案。
智谱AI新突破!GLM-Z1-Rumination:新一代沉思模型,推动AI助手进入"高智商+高自主"的新阶段
GLM-Z1-Rumination是智谱推出的新一代沉思模型,通过扩展强化学习训练实现长程推理能力,支持动态工具调用与自我验证机制,显著提升AI自主研究能力。
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
VantAI推出的Neo-1是全球首个统一分子生成与原子级结构预测的AI模型,采用潜在空间扩散技术,结合大规模训练和定制数据集,显著提升药物研发效率。
Amazon Nova Act:网页操作全自动!亚马逊黑科技把浏览器变AI机器人,请假/订餐/写邮件一键搞定
Amazon Nova Act是亚马逊AGI实验室推出的通用AI代理系统,通过原子化分解网页操作任务并配合Playwright实现高可靠性浏览器自动化,其配套SDK支持开发者快速构建智能体应用原型。
Qwen2.5-VL Technical Report
Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。
weixin116大学生就业平台微信小程序+ssm(文档+源码)_kaic
本文介绍了一款大学生就业平台微信小程序的开发过程,涵盖开发环境、系统设计、实现与测试等方面。该小程序基于微信平台特性,采用MYSQL数据库存储数据,确保系统稳定与安全,同时满足学生、企业和管理员不同权限用户的功能需求。通过简化操作流程,实现了招聘信息查看、简历投递等实用功能,旨在为用户提供便捷高效的求职体验,符合“操作简单,功能实用”的设计理念。
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
MIT颠覆传统!分形生成模型效率暴涨4000倍,高分辨率图像秒级生成
Fractal Generative Models 是麻省理工学院与 Google DeepMind 团队推出的新型图像生成方法,基于分形思想,通过递归调用模块构建自相似架构,显著提升计算效率,适用于高分辨率图像生成、医学图像模拟等领域。
Mahilo:多智能体实时协作框架开源!人类与AI无缝交互,复杂任务一键协同
Mahilo 是一个灵活的多智能体框架,支持创建与人类互动的多智能体系统,适用于从客户服务到紧急响应等多种场景。
DeepSeek开源周第四弹之二!EPLB:专为V3/R1设计的专家并行负载均衡器,让GPU利用率翻倍!
EPLB 是 DeepSeek 推出的专家并行负载均衡器,通过冗余专家策略和负载均衡算法,优化大规模模型训练中的 GPU 资源利用率和训练效率。
Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与效率双突破!
最近,Muon优化器在训练小规模语言模型方面展示了强大的效果,但其在大规模模型上的可扩展性尚未得到验证。
HiveChat:告别模型选择困难!开源ChatGPT聚合神器上线:一键切换10+模型,权限管控全免费
HiveChat 是一款专为中小团队设计的开源 AI 聊天应用,支持多种主流 AI 模型,提供高效的团队沟通和智能辅助功能。
MoBA:LLM长文本救星!月之暗面开源新一代注意力机制:处理1000万token能快16倍,已在Kimi上进行验证
MoBA 是一种新型注意力机制,通过块稀疏注意力和无参数门控机制,显著提升大型语言模型在长上下文任务中的效率。
基于Qwen-3B-Raw的本地化SD Prompt生成器研究
本项目用NLP技术把人类的模糊美学意图,蒸馏成可重复、可微调、可部署的图像生成指令引擎。
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
美团LongCat团队发布并开源LongCat-Flash-Thinking-2601,升级支持“重思考模式”,在智能体搜索、工具调用等任务中达开源SOTA。具备强泛化与抗噪能力,支持在线免费体验,助力开发者高效落地复杂应用场景。
Python 初学者常见 10 大误区与避坑指南
本文总结Python初学者易犯的10大编码误区,如缩进错误、混淆“==”与“is”、修改迭代列表等,结合典型案例解析原因并提供实用解决方案,帮助新手规避常见陷阱,建立正确的Python编程思维,提升代码质量与可读性。
C 语言为何能稳居底层开发主流语言宝座
自1972年诞生以来,C语言凭借极致性能、直接操控硬件的能力及完善的生态,在嵌入式系统、操作系统等底层开发领域始终占据核心地位,成为近半个世纪不可替代的编程基石。
Java高效学习指南:从入门到精通的科学路径与实践方法
本文系统梳理Java从入门到精通的科学学习路径,涵盖基础语法、面向对象、集合框架、并发编程、JVM原理、主流框架(Spring/Spring Boot/MyBatis)及项目实战,结合高效学习方法与优质资源推荐,助力开发者构建扎实技术体系,少走弯路,快速进阶。
MySQL 开发进阶:从初级到数据库工程师的能力提升路径
本文系统梳理MySQL开发从初级到高级工程师的四阶段进阶路径,涵盖数据库设计、高可用架构、性能优化与分库分表等核心能力,结合实操案例与学习原则,助力开发者实现职业跃迁。
Python 实用标准库与工具函数使用指南
本文系统梳理Python高效开发三大利器:标准库(如datetime、pathlib)、第三方库(如requests、Pillow)及自定义工具函数(如空值判断、重试装饰器),结合高频场景与实操代码,助开发者提升效率,避免重复造轮子。
持久层框架MyBatisPlus
MyBatisPlus是MyBatis的增强工具,简化单表CRUD操作,无需编写XML即可实现增删改查。通过继承BaseMapper、使用条件构造器(如QueryWrapper)、集成分页插件等,显著提升开发效率,并支持代码生成、逻辑删除、枚举处理器等高级功能。
你的数据库不是性能差,是你的SQL在“烧钱”:用这条指令让AI化身资深DBA
硬件升配解决不了烂SQL!本文提供一套经过验证的AI指令,将大模型转化为资深DBA,通过深度诊断、索引优化和执行计划分析,帮助开发者从根源解决慢查询问题,实现数据库性能的降本增效。
为什么你学了那么多算法,代码性能还是“一塌糊涂”?
本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench:揭示单模态与全模态能力的组合规律
美团LongCat团队推出一站式全模态大模型评测基准UNO-Bench,首创“组合定律”揭示多模态能力协同增益,支持中文场景,以98%跨模态问题占比和创新多步开放式题型,科学评估模型真实融合能力。
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
137_安全强化:输入过滤与水印 - 实现输出水印的检测算法与LLM安全防护最佳实践
随着大语言模型(LLM)在各行业的广泛应用,安全问题日益凸显。从提示注入攻击到恶意输出生成,从知识产权保护到内容溯源,LLM安全已成为部署和应用过程中不可忽视的关键环节。在2025年的LLM技术生态中,输入过滤和输出水印已成为两大核心安全技术,它们共同构建了LLM服务的安全防护体系。
121_训练评估:困惑度分析 - 分析指标与下游任务关系
在大规模语言模型(LLM)的训练过程中,评估模型性能是一个至关重要但常被简化处理的环节。2025年的研究表明,仅依赖单一指标(如困惑度)来判断模型质量已经无法满足复杂应用场景的需求。困惑度作为语言模型训练中最核心的评估指标,其与下游任务表现之间的关系远比直觉更复杂。本文将深入剖析困惑度的数学原理、计算方法、优化策略,以及其与各类下游任务表现的相关性分析,为大规模语言模型的训练优化提供全面的技术指导。
90_推理优化:性能调优技术
随着大型语言模型(LLM)规模的不断扩大和应用场景的日益复杂,推理性能已成为制约模型实际部署和应用的关键因素。尽管大模型在各项任务上展现出了令人惊艳的能力,但其庞大的参数量和计算需求也带来了严峻的性能挑战。在资源受限的环境中,如何在保持模型效果的同时,最大化推理性能,成为了研究人员和工程师们亟待解决的核心问题。