阿里云基础设施 AI Tech Day|AI Infra建设方案及最佳实践沙龙圆满结束

简介: 在AI迈向业务刚需的今天,阿里云AI Tech Day聚焦“智驱未来 云网随行”主题,携手VIVO、TCL、金蝶等数十家企业,共探AI基础设施(AI Infra)建设路径。活动深入解析算力、网络、存储三大核心能力,分享训练推理优化、数据高效流转等最佳实践,并通过分组讨论直击企业落地痛点,推动产研协同,共建高效、弹性、稳定的AI底座,助力企业智能化跃迁。

云布道师

在大模型与智能体(Agent)加速落地的时代,AI已从“技术尝鲜”迈向“业务刚需”。而支撑这场智能化跃迁的底层引擎,正是一套高效、弹性、稳定的AI基础设施(AI Infra)。

11月27日,阿里云基础设施 AI Tech Day 深圳站成功举办。本次活动以“智驱未来 云网随行:AI Infra建设方案及最佳实践”为主题,吸引了来自VIVO、TCL、金蝶、两面针、嘉立创科技、时空壶技术、犀思云、玉湖冷链、麦风科技、九九互动、技威时代、桥介数物、蓝鲲智创、Bidnex Limited等数十家领先企业的技术负责人与架构师齐聚一堂,与阿里云专家共探AI时代基础设施的演进路径与落地实践。

全栈能力解构:从算力、网络到存储,打造 AI Infra“铁三角”

随着AI应用场景从单点实验走向规模化生产,企业对基础设施的要求早已超越“有GPU可用”——低时延、高吞吐、弹性调度、数据高效流转,成为衡量AI Infra成熟度的核心指标。

活动开始,阿里云智能集团公共云事业部华南大区资深解决方案架构师姚蛟开场致辞中强调:“AI的竞争,正在演变为基础设施效率的竞争。唯有构建面向未来的云网存一体化底座,才能真正释放AI的业务价值。”

随后,阿里云华南大区解决方案架构师陈铖带来《企业AI加速场景解析:从业务价值到基础设施建设》主题分享。他指出,不同发展阶段的企业需采取差异化的AI建设策略——成熟企业重在基础设施复用与效能提升,创新企业则需快速验证、敏捷迭代,而底层Infra必须具备足够的弹性与开放性。

在技术纵深层面,阿里云多位专家系统拆解了AI Infra的关键能力:

• 面向训练/推理:阿里云智能集团计算产品高级解决方案架构师徐果详解《面向AI的阿里云容器解决方案》,展示如何通过ACK+ECI实现训练/推理任务的统一调度与秒级弹性;容器作为 AI 时代的 infra,在可观测性、资源管理、以及更上层的应用交付等场景都需要提供更多的能力,ACK作为这个入口,将阿里云在 Iaas 层沉淀多年的能力,用更加便捷的方式交付给客户,助力客户在 AI 的场景上提高迭代速度。

• 面向训练/推理:阿里云智能集团云网络高级产品专家彭昔敏揭秘《VPC RDMA加速网络性能提升的实践与演进》,PD分离的网络方案,让训练任务更高效,同时将分布式训练通信延迟压至微秒级,让“数据跑得比指令还快”;阿里云高性能VPC网络为应对AI应用挑战进行升级。它提供200Gbps大带宽灵骏实例,支持标准网络特性;即将发布的VPC RDMA将降低60%的端到端延迟;ENI Express机制改善了90%的长尾延迟。未来将致力于TCP协议创新、高性能云服务访问和最优时延调度,打造坚实的AI算力网络基础。

• 面向AI应用部署:阿里云智能集团云网络高级产品专家贺剑分享《基于AI的负载均衡及网络场景化最佳实践》,主要介绍了数据采集、AI训练及推理和AI应用全球化的网络最佳实践。 AI应用在全生命周期给网络带来了新的挑战,本次分享探讨了各个阶段的最佳实践和实战经验,覆盖了如何进行数据采集,训推一体网络的Qos控制、模型代理/MCP工具等推理场景的网关使用,以及AI应用如何全球化,让客户可以快速构建全球算力网络,助力AI应用落地。

• 面向AI数据存取:阿里云智能集团存储产品解决方案架构师王太平带来《面向AI的阿里云存储方案及最佳实践》,覆盖从PB级训练数据高效读取到模型版本管理的全链路优化。 存储作为AI Infra最容易被忽略的部件,却成为制约AI系统性能的关键。从模型训练、推理到AI Agent,阿里云提供了完善的存储选型以及最佳实践,帮助客户解决AI瓶颈,释放算力;并且提供了针对视频监控等场景的场景化AI原生能力,助力客户借助存储AI能力创造新的增值点,扩大营收。

深度碰撞:分组讨论直击企业AI落地痛点

“算、网、存三位一体,才是完整的AI Infra拼图。”一位参会嘉宾在茶歇交流中感慨道。

技术分享之外,本次活动特别设置沉浸式分组讨论环节。现场嘉宾按行业与业务场景分为多个小组,由阿里云PDSA及产品专家引导,围绕四大核心议题展开激烈探讨:

1. IaaS 层能力诉求:在AI训练/推理/智能体场景中,哪些基础设施能力最被看重?

2. 数据获取与合规:如何高效、安全地引入外部数据优化模型?

3. AI 服务部署策略:公网 vs 私网?如何平衡性能、安全与成本?

4. 异构资源融合:CPU/GPU/NPU如何统一调度?资源池化如何落地?

来自金蝶的代表提出:“我们在构建企业级AI助手时,最关注模型调用的稳定性与响应速度,这对网络SLA提出了极高要求。”嘉立创科技的技术负责人则聚焦于“如何在有限预算下实现训练资源的极致利用率”,引发小组关于Spot实例与弹性调度策略的深入讨论。而柳州两面针等传统制造企业,则更关心“如何从0到1构建AI基础设施,避免重复造轮子”。

共建共赢:AI Infra 不是选择题,而是必答题

活动尾声,主持人陈铖总结道:“今天的每一份提问、每一次碰撞,都是推动AI基础设施向前的力量。阿里云将持续深耕云网存协同能力,做企业AI化转型最坚实的底座。”

从理论到实践,从架构到落地,本次Tech Day不仅是一场技术盛宴,更是一次产研共创的深度对话。未来,阿里云将持续举办AI Infra系列沙龙,携手更多行业伙伴,智驱未来,云网随行!

相关文章
|
16天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
966 78
大厂CIO独家分享:AI如何重塑开发者未来十年
|
21天前
|
算法 安全 Java
压缩教程学习,文件压缩包解压推荐,BANDIZIP、win_RAR、7-Zip工作使用教程
压缩教程学习,文件压缩包解压推荐,BANDIZIP、win_RAR、7-Zip工作使用教程
483 138
|
1月前
|
存储 人工智能 监控
视频也能“验真”?高维数据获边缘隐藏防篡改专利,为每帧内容穿上“隐形防护服”(第2期)
合肥高维数据获“视频防篡改水印”专利,创新性将水印嵌入边缘像素,利用人眼视觉特性与感知哈希算法,实现隐蔽、鲁棒的内容保护,为司法取证、新闻媒体、在线教育等提供真伪验证,构筑可信视频生态防线。
138 11
视频也能“验真”?高维数据获边缘隐藏防篡改专利,为每帧内容穿上“隐形防护服”(第2期)
|
17天前
|
缓存 运维 监控
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
420 67
|
2月前
|
监控 JavaScript 编译器
从“天书”到源码:HarmonyOS NEXT 崩溃堆栈解析实战指南
本文详解如何利用 hiAppEvent 监控并获取 sourcemap、debug so 等核心产物,剖析了 hstack 工具如何将混淆的 Native 与 ArkTS 堆栈还原为源码,助力开发者掌握异常分析方法,提升应用稳定性。
432 40
|
8天前
|
人工智能 安全 Java
SpecKit 在成熟 Java 项目中的 AI 编码实践
本文探索AI Code与SpecKit在Java应用中的实践,结合规格驱动开发(SDD)与测试驱动开发(TDD),通过定义原则、需求规格化、技术方案设计等步骤,实现风格统一、可追溯的AI辅助编码。分享选型考量、执行流程及问题优化,总结经验并沉淀为应用级知识资产,提升研发效率与代码规范性。(239字)
SpecKit 在成熟 Java 项目中的 AI 编码实践
|
16天前
|
存储 数据采集 监控
分钟级定位 IO 瓶颈:多租户云环境下的智能诊断
阿里云推出IO一键诊断功能,智能识别IO延迟高、流量异常等问题,通过动态阈值与多指标关联分析,实现秒级异常发现与根因定位,提升云环境存储性能问题解决效率。
150 10
分钟级定位 IO 瓶颈:多租户云环境下的智能诊断
|
19天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1009 59
Meta SAM3开源:让图像分割,听懂你的话