AI芯片的搜索结果_热门_第13页-阿里云开发者社区

Deephub

|

4月前

|

博文

|

来自：大数据与机器学习

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

本文介绍了使用四块Framework主板构建AI推理集群的过程，并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试，重点评估其并行推理能力及集群表现。

# 人工智能 # 测试技术 # 芯片 # 异构计算 # AI芯片

aliyun9170107523-43660

|

2月前

|

博文

|

来自： ModelScope模型即服务

75_TPU集成：Google Cloud加速

在大型语言模型(LLM)训练和推理的竞赛中，计算硬件的选择直接决定了研发效率和成本。Google的Tensor Processing Unit(TPU)作为专为AI计算设计的专用芯片，正逐渐成为大规模LLM开发的首选平台之一。随着2025年第七代TPU架构Ironwood的发布，Google在AI计算领域再次确立了技术领先地位。

# PyTorch # 算法框架/工具 # 异构计算 # AI芯片 # Perl

极智视界

|

博文

|

来自：视觉智能

极智AI | 一文看懂winograd卷积加速算法

本文详细解释了 winograd 算法加速卷积的实现原理。

# 存储 # 人工智能 # 算法 # 计算机视觉 # AI芯片

布客飞龙

|

博文

JAX 中文文档（一）（1）

JAX 中文文档（一）

# GPU云服务器 # 并行计算 # Linux # 异构计算 # AI芯片 # Python

技术员阿伟

|

11月前

|

博文

《脉动阵列：AI硬件加速的“秘密武器”》

脉动阵列（Systolic Array）是一种高效的并行计算架构，灵感源自人体血液循环系统。它通过网格排列的处理单元（PE），以同步并行方式处理数据，尤其在矩阵乘法和卷积运算中表现出色，极大提升了AI计算效率。其优势包括降低内存带宽需求、高运算吞吐率和设计简洁，但也面临灵活性有限、全局同步难等挑战。尽管如此，脉动阵列仍为AI硬件加速提供了重要支持，推动了人工智能技术的发展。

# 机器学习/深度学习 # 存储 # 人工智能 # 并行计算 # AI芯片

游客7dgyrbdm3doqi

|

9月前

|

博文

NPU上如何使能pytorch图模式

本文介绍了PyTorch的`torch.compile`技术和TorchAir的相关内容。`torch.compile`通过将动态图转换为静态图并结合JIT编译，提升模型推理和训练效率。示例代码展示了如何使用`torch.compile`优化模型。TorchAir是昇腾为PyTorch提供的图模式扩展库，支持在昇腾设备上进行高效训练和推理。它基于Dynamo特性，将计算图转换为Ascend IR，并通过图引擎优化执行。文章还提供了TorchAir的使用示例及功能配置方法。

# PyTorch # 编译器 # 算法框架/工具 # AI芯片

开发者小助理

|

博文

2022云栖精选—“双碳”目标下的新型电力系统及其数字化转型

摘要：本文整理自工业控制系统产业联盟理事长、国家电网公司国家电力调度控制中心原副主任辛耀中，在云栖大会的分享。本篇内容主要分为三个部分： 1. 新型电力系统背景情况 2. 智能电网和安全防护 3. 电力行业数字化转型

# 人工智能 # 安全 # 物联网 # 网络安全 # 调度 # 数据安全/隐私保护 # 芯片 # ice # 异构计算 # AI芯片

阿里云

|

博文

架构师长文 | 七千字详解阿里云CIPU技术架构

# GPU云服务器 # 云原生大数据计算服务 MaxCompute # 弹性裸金属服务器 # 存储 # 运维 # 安全 # 虚拟化 # 云计算 # 网络虚拟化 # 芯片 # 异构计算 # AI芯片 # 内存技术

王嘉祥

|

9月前

|

博文

国产NAS也支持本地部署DeepSeek了：极空间Z423上手

极空间Z423 NAS新增本地部署DeepSeek大模型功能，支持7B和14B两种参数量级模型。本文通过实际测试展示了其性能表现：14B模型运行缓慢，Token输出速度低于每秒10个，而7B模型速度稍快但仍不理想。硬件资源占用高，温度显著上升，风扇噪音增大。作者建议优化交互逻辑、提供局域网接口及更好GPU支持，并预测未来NAS可能加入GPU或NPU以提升推理能力。此功能目前更像战略布局，为后续硬件升级铺垫。

# 监控 # 文件存储 # 异构计算 # AI芯片 # 内存技术

RaceSnail

|

7月前

|

博文

飞桨x昇腾生态适配方案：04_模型精度对齐

本文详细介绍了模型在不同硬件（如GPU与NPU）间迁移时的精度对齐方法，包括前向和反向对齐的具体步骤。前向对齐通过模块化对比计算结果（如平均值、最大最小值等），确保误差在合理范围内；反向对齐则聚焦于梯度差异，利用二分法定位问题算子。同时，文章结合PPHGNet_small和MultiHead等具体模块代码，说明了如何打印输出并分析中间结果。此外，还探讨了私有格式、梯度异常及特殊shape等可能影响精度的因素，并提出相应解决策略。整体流程清晰，为跨硬件模型迁移提供了实用指导。

# 文字识别 # 算法 # API # 异构计算 # AI芯片

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI芯片