ZOMI酱_个人页

ZOMI酱

文章

159

问答

视频

个人介绍

AI系统专家/移动视觉/强化学习

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2024年12月

12.02 15:01:47

发表了文章 2024-12-02 15:01:47

【AI系统】编译器基础介绍

随着深度学习的发展，AI模型和硬件技术不断演进，开发者面临如何有效利用算力及应对AI框架迭代的挑战。AI编译器成为解决这些问题的关键技术，它帮助用户专注于上层模型开发，减少手动优化性能的成本，最大化硬件效能。本文探讨编译器基础概念，解释编译器与AI框架的关系，介绍编译器与解释器的区别，以及AOT和JIT编译方式的特点和在AI框架中的应用。通过分析Pass和中间表示IR的作用，进一步理解编译器在AI领域的核心价值。
12.02 14:47:56

发表了文章 2024-12-02 14:47:56

【AI系统】AI 芯片的思考

为了应对数据中心算力需求，谷歌自2014年起研发TPU，专为深度学习设计的硬件加速器。TPU加速了谷歌的机器学习任务，尤其在大模型训练和推理方面表现突出。大卫·帕特森教授加入谷歌TPU团队后，分享了TPU发展历程及技术心得，强调了AI模型对内存和算力需求的快速增长、模型结构的快速演变、生产部署中的多租户需求、SRAM与DRAM的权衡、内存优化的重要性、DSA的专业与灵活性、半导体供应链选型、编译器优化及AI应用兼容性等方面的关键挑战与解决方案。
12.02 14:27:44

发表了文章 2024-12-02 14:27:44

【AI系统】从 CUDA 对 AI 芯片思考

本文从技术角度探讨英伟达生态，特别是CUDA与SIMT的关系及其对AI芯片DSA架构的影响。通过分析流水编排、SIMT前端、分支预测及交互方式，指出英伟达CUDA的成功在于其硬件设计与软件易用性的结合，为未来AI芯片的设计提供了宝贵的经验和启示。
12.02 14:08:22

发表了文章 2024-12-02 14:08:22

【AI系统】CUDA 编程模式

本文介绍了英伟达GPU的CUDA编程模型及其SIMT执行模式，对比了SIMD和SIMT的特点，阐述了SIMT如何提高并行计算效率和编程灵活性。同时简要提及了AMD的GPU架构及编程模型，包括最新的MI300X和ROCm平台。
12.02 11:55:35

发表了文章 2024-12-02 11:55:35

【AI系统】SIMD & SIMT 与 CUDA 关系

本文深入解析了AI芯片中SIMD和SIMT的计算本质，基于NVIDIA CUDA实现的对比，探讨了不同并行编程模型，包括串行(SISD)、数据并行(SIMD)和多线程(MIMD/SPMD)。文章详细介绍了各模型的特点及应用场景，特别强调了英伟达GPU中的SIMT机制如何通过SPMD编程模型实现高效并行计算，以及SIMD、SIMT、SPMD之间的关系和区别。
12.02 11:44:52

发表了文章 2024-12-02 11:44:52

【AI系统】SIMD & SIMT 与芯片架构

本文深入解析了SIMD（单指令多数据）与SIMT（单指令多线程）的计算本质及其在AI芯片中的应用，特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作，提高数据并行处理能力；而SIMT则在GPU上实现了多线程并行，每个线程独立执行相同指令，增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系，为理解现代AI计算架构提供了理论基础。

2024年11月

11.29 18:27:58

发表了文章 2024-11-29 18:27:58

【AI系统】芯片的编程体系

本文探讨了SIMD与SIMT的区别及联系，分析了SIMT与CUDA编程的关系，深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构，强调了理解AI芯片编程体系的重要性，旨在帮助开发者更高效地利用AI芯片算力，促进生态繁荣。
11.29 18:22:39

发表了文章 2024-11-29 18:22:39

【AI系统】昇腾数据布局转换

华为昇腾NPU采用独特的NC1HWC0五维数据格式，旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0，适应达芬奇架构的高效计算需求，支持FP16和INT8数据类型。此外，昇腾还引入了NZ分形格式，进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换，确保在不同硬件上达到最优性能。
11.29 17:48:18

发表了文章 2024-11-29 17:48:18

【AI系统】昇腾 AI 核心单元

本文深入解析了华为昇腾AI处理器的核心——AI Core及其达芬奇架构。AI Core采用特定域架构（DSA），专为深度学习算法优化，通过矩阵、向量和标量计算单元的高效协作，实现了对深度学习算法的加速。文章详细介绍了AI Core的计算单元、存储系统及控制单元的设计，展示了其如何通过优化数据通路和控制流程，显著提升计算性能。
11.29 17:30:11

发表了文章 2024-11-29 17:30:11

【AI系统】昇腾 AI 处理器

本文介绍华为昇腾AI处理器的架构与卷积加速原理，基于达芬奇架构设计，支持云边端一体化解决方案，具备高能效比和强大的3D Cube矩阵计算单元。文章详细解析了昇腾AI处理器的核心组件及其高效的数据处理机制，旨在通过软硬件优化实现高效的卷积计算加速。
11.29 17:13:37

发表了文章 2024-11-29 17:13:37

【AI系统】昇腾 AI 架构介绍

昇腾计算产业基于华为昇腾系列处理器，涵盖硬件、基础软件、应用使能等，构建全栈AI计算基础设施。华为通过开放硬件、开源软件，支持多框架，推动AI技术在端、边、云的广泛应用，促进AI产业生态繁荣。
11.29 16:31:32

发表了文章 2024-11-29 16:31:32

【AI系统】寒武纪介绍

中科寒武纪科技股份有限公司，成立于2016年，致力于打造云边端一体、软硬件协同的智能芯片产品和平台化基础系统软件。寒武纪的产品线涵盖了终端智能处理器IP、边缘端和云端智能加速卡，形成了从1A处理器核到思元系列MLU100、MLU200、MLU300的完整布局。其核心技术包括高效的MLU Core架构和Cambricon Neuware软件栈，支持高性能AI计算，助力机器更好地理解和服务人类。
11.29 15:53:04

发表了文章 2024-11-29 15:53:04

【AI系统】谷歌 TPU v4 与光路交换

TPU v4 是谷歌在 TPU v3 发布四年后推出的最新一代 AI 加速器，采用了 7nm 工艺，MXU 数量翻倍，内存容量和带宽显著提升。TPU v4 引入了 Sparse Core 以优化稀疏计算，首次采用了 3D Torus 互联方式，通过 Palomar 光路开关芯片减少系统延迟和功耗。TPU v4 Pod 实现了 1.126 Exaflops 的 BF16 峰值算力，展现了谷歌在大规模并行计算领域的突破。然而，TPU v4 也面临着系统成熟度低、拓扑僵硬和负载均衡问题等挑战。
11.29 15:38:40

发表了文章 2024-11-29 15:38:40

【AI系统】谷歌 TPU v3 POD 形态

TPU v3 是 TPU v2 的增强版，主要改进包括：MXU 数量翻倍至 4 个，时钟频率提升 30%，内存带宽扩大 30%，容量翻倍，芯片间带宽增加 30%，可连接节点数增至 4 倍。TPU v3 通过采用水冷系统，不仅提高了功率，还优化了温度管理，显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成，算力达 100 PFLOPS，适用于大规模神经网络训练。
11.29 15:29:02

发表了文章 2024-11-29 15:29:02

【AI系统】谷歌 TPU v2 训练芯片

2017年，谷歌推出TPU v2，专为神经网络训练设计，标志着从推理转向训练的重大转变。TPU v2引入多项创新，包括Vector Memory、Vector Unit、MXU及HBM内存，以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机，显著提升大规模模型训练的效率和性能。
11.28 19:56:50

发表了文章 2024-11-28 19:56:50

【AI系统】谷歌 TPU v1-脉动阵列

本文详细分析了谷歌TPU v1的架构与设计，重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元（MXU）、累加器及控制指令单元，特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现，展示了TPU v1在提升神经网络计算吞吐量方面的显著优势，尤其是在低延迟和高能效方面。
11.28 19:12:48

发表了文章 2024-11-28 19:12:48

【AI系统】谷歌 TPU 历史发展

本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路，自2016年首次推出以来，经历了多次迭代升级，包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新，如低精度计算、脉动阵列、专用硬件设计等，并探讨了TPU在数据中心和边缘计算中的实际应用效果，以及谷歌如何通过TPU推动移动计算体验的进步。
11.28 18:47:56

发表了文章 2024-11-28 18:47:56

【AI系统】NV Switch 深度解析

英伟达的NVSwitch技术是高性能计算领域的重大突破，旨在解决多GPU系统中数据传输的瓶颈问题。通过提供比PCIe高10倍的带宽，NVLink实现了GPU间的直接数据交换，减少了延迟，提高了吞吐量。NVSwitch则进一步推动了这一技术的发展，支持更多NVLink接口，实现无阻塞的全互联GPU系统，极大提升了数据交换效率和系统灵活性，为构建强大的计算集群奠定了基础。
11.28 17:10:32

发表了文章 2024-11-28 17:10:32

【AI系统】NVLink 原理剖析

随着AI技术的发展，大模型参数量激增，对底层硬件和网络架构提出新挑战。高效训练这些模型需要大规模GPU集群及高速网络连接，以实现快速数据交换。然而，网络瓶颈限制了GPU性能的充分发挥，表明单纯增加GPU数量不能线性提升算力。因此，算存互连和算力互连技术成为关键，如PCIe、NVLink和NVSwitch等，它们通过提高数据传输速度和效率，支持大规模并行计算，解决了大规模GPU集群中的通信延迟问题，推动了万亿级模型训练的实现。
11.28 16:29:27

发表了文章 2024-11-28 16:29:27

【AI系统】分布式通信与 NVLink

进入大模型时代后，AI的核心转向大模型发展，训练这类模型需克服大量GPU资源及长时间的需求。面对单个GPU内存限制，跨多个GPU的分布式训练成为必要，这涉及到分布式通信和NVLink技术的应用。分布式通信允许多个节点协作完成任务，而NVLink则是一种高速、低延迟的通信技术，用于连接GPU或GPU与其它设备，以实现高性能计算。随着大模型的参数、数据规模扩大及算力需求增长，分布式并行策略，如数据并行和模型并行，变得至关重要。这些策略通过将模型或数据分割在多个GPU上处理，提高了训练效率。此外，NVLink和NVSwitch技术的持续演进，为GPU间的高效通信提供了更强的支持，推动了大模型训练的快
11.28 15:55:47

发表了文章 2024-11-28 15:55:47

【AI系统】Tensor Core 深度剖析

Tensor Core 是英伟达 GPU 的关键技术，专为加速深度学习计算设计，尤其擅长矩阵乘法和卷积运算。通过混合精度计算，Tensor Core 使用半精度（FP16）输入输出，内部以全精度（FP32）计算，确保精度同时提高效率。相比传统 CUDA Core，Tensor Core 每个时钟周期可执行 64 个浮点运算，大幅提升计算速度。其工作原理包括指令流水线、线程执行等多级优化，确保高效并行处理。通过分块、分配和并行执行策略，Tensor Core 能有效处理大规模矩阵计算，极大加速神经网络模型的训练和推断。
11.28 15:44:48

发表了文章 2024-11-28 15:44:48

【AI系统】Tensor Core 架构演进

自2017年Volta架构推出以来，英伟达的GPU架构不断进化，从Volta的张量核心（Tensor Core）革新，到Turing的整数格式支持，再到Ampere的稀疏矩阵计算优化，以及Hopper的FP8张量核心和Transformer引擎，直至2024年的Blackwell架构，实现了30倍的LLM推理性能提升。每一代架构都标志着深度学习计算的重大突破，为AI技术的发展提供了强大的硬件支持。
11.28 15:31:09

发表了文章 2024-11-28 15:31:09

【AI系统】Tensor Core 基本原理

本文深入介绍了英伟达GPU中的Tensor Core，一种专为加速深度学习设计的硬件单元。文章从发展历程、卷积计算、混合精度训练及基本原理等方面，详细解析了Tensor Core的工作机制及其在深度学习中的应用，旨在帮助读者全面理解Tensor Core技术。通过具体代码示例，展示了如何在CUDA编程中利用Tensor Core实现高效的矩阵运算，从而加速模型训练和推理过程。
11.28 14:59:25

发表了文章 2024-11-28 14:59:25

【AI系统】GPU 架构回顾（从2018年-2024年）

2018年发布的Turing图灵架构，采用12nm工艺，包含18.6亿个晶体管，大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core，分别用于实时光线追踪和加速深度学习计算，支持GDDR6内存，显著提升了数据传输速率和效率。此外，Turing架构还支持NVLink 2.0，增强了多GPU协同工作的能力，适用于复杂的图形渲染和深度学习任务。
11.28 14:28:10

发表了文章 2024-11-28 14:28:10

【AI系统】GPU 架构回顾（从2010年-2017年）

自1999年英伟达发明GPU以来，其技术不断革新。本文概述了从2010年至2024年间，英伟达GPU的九代架构演变，包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升，还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展，以及Tensor Core、NVLink等技术的迭代，巩固了英伟达在计算领域的领导地位。
11.28 14:12:40

发表了文章 2024-11-28 14:12:40

【AI系统】GPU 架构与 CUDA 关系

本文介绍了英伟达GPU硬件基础概念，重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型，特别是CUDA线程层次结构。最后，文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值，这对于评估大模型训练的算力需求至关重要。
11.28 11:15:58

发表了文章 2024-11-28 11:15:58

【AI系统】为什么 GPU 适用于 AI

本文探讨了GPU在AI计算中的应用，从卷积计算的基本原理入手，解析了GPU线程分级与AI计算模式的关系，以及矩阵乘法如何通过GPU编程提升算力利用率。文章还介绍了计算强度的概念，分析了不同数据结构对计算强度的影响，以及GPU中Tensor Core的作用，强调了在不同存储位置下，找到计算强度与矩阵大小的最佳平衡点对AI计算系统优化的重要性。
11.27 18:34:42

发表了文章 2024-11-27 18:34:42

【AI系统】GPU 工作原理

本文详细解析了AI计算体系中的GPU工作原理，重点介绍了GPU与CPU在架构上的差异，强调了GPU在并行计算方面的优势。文章通过$AX+Y$的例子，展示了GPU如何通过并行和并发提高计算效率，并深入探讨了GPU的缓存机制及线程原理，解释了GPU如何通过大量线程和Warp来掩盖延迟问题，实现高效计算。
11.27 18:10:57

发表了文章 2024-11-27 18:10:57

【AI系统】超异构计算

本文探讨了计算机架构发展的黄金十年，重点介绍了异构计算和超异构计算的概念及其在AI芯片发展中的应用。文章首先回顾了AI芯片发展的三个阶段，随后详细阐述了异构计算的优势和应用场景，如性能飞跃、灵活定制、降低成本和降低功耗。接着，文章分析了超异构计算的出现背景、基本特征及其面临的挑战，包括软件层的复杂性和硬件定义软件与软件定义硬件之间的权衡。最后，展望了超异构计算的未来，强调了跨平台统一计算架构的重要性，以及构建开放生态系统的必要性。
11.27 18:00:54

发表了文章 2024-11-27 18:00:54

【AI系统】NPU 基础

近年来，AI技术迅猛发展，催生了NPU和TPU等AI专用处理器，这些处理器专为加速深度学习任务设计，相比传统CPU和GPU，展现出更高效率和性能。本文将介绍AI芯片的概念、技术发展、部署方式及应用场景，涵盖从数据中心到边缘设备的广泛领域，探讨其如何成为AI技术落地的关键推手。
11.27 17:47:29

发表了文章 2024-11-27 17:47:29

【AI系统】GPU 基础

GPU，即图形处理器，是计算机系统中处理图形和图像的核心组件，从早期的简单图形加速到如今的高性能计算和深度学习加速，GPU 经历了显著的技术革新。本文将介绍 GPU 的发展历程、与 CPU 的区别、在 AI 领域的关键作用及其在游戏、消费电子、自动驾驶等多个领域的广泛应用。
11.27 17:14:09

发表了文章 2024-11-27 17:14:09

【AI系统】CPU 计算时延

CPU（中央处理器）是计算机系统的核心，其计算时延（从指令发出到完成所需时间）对系统性能至关重要。本文探讨了CPU计算时延的组成，包括指令提取、解码、执行、存储器访问及写回时延，以及影响时延的因素，如时钟频率、流水线技术、并行处理、缓存命中率和内存带宽。通过优化这些方面，可以有效降低计算时延，提升系统性能。文中还通过具体示例解析了时延产生的原因，强调了内存时延对计算速度的关键影响。
11.27 16:48:18

发表了文章 2024-11-27 16:48:18

【AI系统】CPU 计算本质

本文深入探讨了CPU计算性能，分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例，解释了算力计算方法、数据加载与计算的平衡点，以及如何通过算力敏感度分析优化性能瓶颈。同时，文章还讨论了服务器、GPU和超级计算机等不同计算平台的性能发展趋势，强调了优化数据传输速率和加载策略的重要性。
11.27 16:23:17

发表了文章 2024-11-27 16:23:17

【AI系统】CPU 指令集架构

本文介绍了指令集架构（ISA）的基本概念，探讨了CISC与RISC两种主要的指令集架构设计思路，分析了它们的优缺点及应用场景。文章还简述了ISA的历史发展，包括x86、ARM、MIPS、Alpha和RISC-V等常见架构的特点。最后，文章讨论了CPU的并行处理架构，如SISD、SIMD、MISD、MIMD和SIMT，并概述了这些架构在服务器、PC及嵌入式领域的应用情况。
11.27 14:45:17

发表了文章 2024-11-27 14:45:17

【AI系统】CPU 基础

CPU，即中央处理器，是计算机的核心组件，负责执行指令和数据计算，协调计算机各部件运作。自1946年ENIAC问世以来，CPU经历了从弱小到强大的发展历程。本文将介绍CPU的基本概念、发展历史及内部结构，探讨世界首个CPU的诞生、冯·诺依曼架构的影响，以及现代CPU的组成与工作原理。从4004到酷睿i系列，Intel与AMD的竞争推动了CPU技术的飞速进步。CPU由算术逻辑单元、存储单元和控制单元三大部分组成，各司其职，共同完成指令的取指、解码、执行和写回过程。
11.27 14:24:32

发表了文章 2024-11-27 14:24:32

【AI系统】计算之比特位宽

本文详细介绍了计算机中整数和浮点数的比特位宽概念及其在AI模型中的应用。通过对比特位宽的定义、整数与浮点数的表示方法、AI中常用的数据类型（如FP32、TF32、FP16、BF16、FP8和Int8）及其在模型训练和推理中的作用进行了阐述。特别关注了FP8数据类型在提高计算性能和减少内存占用方面的新进展，以及降低比特位宽对AI芯片性能的影响，强调了低比特位宽在AI领域的重要性。
11.27 13:56:40

发表了文章 2024-11-27 13:56:40

【AI系统】核心计算之矩阵乘

本文探讨了AI模型中矩阵乘运算的优化实现及其在AI芯片设计中的重要性。文章首先介绍了卷积操作如何转化为矩阵乘，接着阐述了矩阵乘的分块（Tiling）技术以适应芯片内存限制，最后总结了几种常见的矩阵乘优化方法，包括循环优化、分块矩阵乘法、SIMD指令优化等，旨在提高计算效率和性能。
11.27 11:33:30

发表了文章 2024-11-27 11:33:30

【AI系统】关键设计指标

本文介绍了AI芯片设计中的关键指标与设计点，涵盖OPS、MACs、FLOPs等计算单位，以及精度、吞吐量、时延、能耗、成本和易用性等六大关键指标。文章还探讨了MACs和PE优化策略，以及通过算术强度和Roofline模型评估AI模型在特定芯片上的性能表现，为AI芯片的性能优化提供了理论依据和实践指导。
11.27 11:13:02

发表了文章 2024-11-27 11:13:02

【AI系统】AI轻量化与并行策略

本文探讨了AI计算模式对芯片设计的重要性，重点介绍了轻量化网络模型和大模型分布式并行两大主题。轻量化模型旨在减少参数量和计算量，适合资源受限的设备；大模型分布式并行则针对高性能计算需求，通过数据并行、模型并行等技术提高训练效率。文中详细解析了轻量化设计的方法及分布式并行的实现机制，为AI芯片设计提供了理论依据和技术指导。
11.27 10:25:11

发表了文章 2024-11-27 10:25:11

【AI系统】模型演进与经典架构

本文探讨了AI计算模式对AI芯片设计的重要性，通过分析经典模型结构设计与演进、模型量化与压缩等核心内容，揭示了神经网络模型的发展现状及优化方向。文章详细介绍了神经网络的基本组件、主流模型结构、以及模型量化和剪枝技术，强调了这些技术在提高模型效率、降低计算和存储需求方面的关键作用。基于此，提出了AI芯片设计应考虑支持神经网络计算逻辑、高维张量存储与计算、灵活的软件配置接口、不同bit位数的计算单元和存储格式等建议，以适应不断发展的AI技术需求。
11.27 10:04:04

发表了文章 2024-11-27 10:04:04

【AI系统】AI芯片驱动智能革命

本课程深入解析AI模型设计演进，探讨AI算法如何影响AI芯片设计，涵盖CPU、GPU、FPGA、ASIC等主流AI芯片，旨在全面理解AI系统体系，适应后摩尔定律时代的技术挑战。
11.26 18:36:00

发表了文章 2024-11-26 18:36:00

【AI系统】大模型的到来

大模型的兴起，让系统工程师能在前所未有的集群规模上解决复杂工程问题，显著降低成本和时间。本文探讨了大模型的发展历程、技术架构、支持模态及应用领域，特别分析了AI系统与AI基础设施的区别及其对大模型的影响。随着大模型进入爆发期，AI系统的重要性日益凸显，不仅影响着算法的选择与发展，也成为推动大模型研究与应用的关键力量。
11.26 18:15:11

发表了文章 2024-11-26 18:15:11

【AI系统】AI 系统与程序代码关系

本文探讨了AI系统与程序代码之间的关系，通过PyTorch实现LeNet5神经网络模型为例，详细介绍了AI训练流程原理、网络模型构建方法、算子实现的系统问题以及AI系统执行的具体计算过程。文章不仅解释了神经网络的前向传播和反向传播机制，还深入分析了算子在AI框架中的作用及其底层实现，包括卷积层的具体计算和优化问题。此外，文章对比了使用PyTorch与直接使用cuDNN+CUDA编程实现神经网络模型的差异，强调了AI框架在提高开发效率、自动化内存管理和实现自动微分等方面的重要性。
11.26 17:44:14

发表了文章 2024-11-26 17:44:14

【AI系统】AI系统架构的组成

本文概述了AI系统的组成，从AI训练与推理框架、AI编译与计算架构到AI硬件与体系结构，详细介绍了各层的功能与技术细节。同时，探讨了AI系统生态的广泛领域，包括核心系统软硬件、AI算法和框架以及更广泛的生态组成部分，强调了在模型训练、推理、安全与隐私等方面的技术挑战与解决方案。
11.26 15:37:53

发表了文章 2024-11-26 15:37:53

【AI系统】AI系统概述与设计目标

本文介绍了AI系统的全栈架构，涵盖设计目标、组成和生态。AI系统旨在连接硬件与应用，提供高效的模型服务和开发支持。文中探讨了高效编程语言、开发框架、工具链的重要性，以及AI任务系统级支持、自动编译优化和云原生自动分布式化等关键设计目标。此外，还详细讨论了AI训练与推理框架、AI编译与计算架构、AI硬件与体系结构等组成部分，以及AI算法和框架、更广泛的生态系统等。
11.26 15:12:57

发表了文章 2024-11-26 15:12:57

【AI系统】AI 发展驱动力

AI起源于20世纪50年代，经历起伏后，2016年AlphaGo的胜利重燃公众热情。实际上，AI技术早已在互联网公司广泛应用，如搜索引擎、广告推荐等。机器学习是实现AI的方法之一，深度学习则是机器学习的重要技术，通过神经网络实现。近年来，随着大数据积累、算法进步及算力增强，AI取得了显著成就，特别是在图像识别、自然语言处理等领域。AI系统的设计需考虑数据驱动、算法优化及高性能计算，以适应更大规模、更复杂的应用需求。
11.26 14:37:23

发表了文章 2024-11-26 14:37:23

【AI系统】AI 基本理论奠定

AI的发展历程经历了萌芽兴奋期、蓬勃发展期和突破驱动繁荣期。从1950年代Warren McCulloch和Walter Pitts提出神经网络计算模型，到2012年AlexNet赢得ImageNet竞赛，再到2020年代的大模型时代，AI技术不断突破，模型结构日益复杂，参数量激增。这一过程中，硬件算力的提升和算法创新相互促进，共同推动了AI领域的繁荣发展。
11.26 14:33:57

发表了文章 2024-11-26 14:33:57

【AI系统】AI的领域、场景与行业应用

本文概述了AI的历史、现状及发展趋势，涵盖AI系统的初步设计原则，并深入探讨了AI在计算机视觉、自然语言处理和音频处理三个领域的具体应用。同时，文中还介绍了AI在金融、医疗、教育、互联网及自动驾驶等行业中的广泛应用，强调了AI基础设施的重要性及其对企业竞争力的影响。通过阅读本文，读者不仅可以获得系统的AI知识，还能激发对AI系统研究的兴趣，掌握相关的设计原则与方法。

2024年10月

10.11 18:42:31

发表了文章 2024-10-11 18:42:31

【AI系统】AI 框架与编译器的作用

AI框架如PyTorch和TensorFlow提供丰富的API，简化神经网络模型的实现与训练，抽象硬件操作并自动管理内存。AI编译器将高级语言编写的模型转换为硬件可执行代码，通过多层次优化提升性能。这使得算法工程师可以专注于模型设计与创新，而无需关注底层计算细节。AI框架和编译器不仅提高开发效率，还能充分利用硬件资源，是推动AI系统性能提升的关键技术。访问昇腾社区官网或下载APP，获取更多AI学习资源和参与各类活动。
10.11 18:22:40

发表了文章 2024-10-11 18:22:40

【AI系统】AI 系统与程序代码关系

在人工智能领域，系统与程序代码间的关系错综复杂。AI系统的设计需高效代码支撑，而代码优化与执行又受制于系统设计。本文剖析二者间的互动及其对AI进步的关键作用，涵盖AI训练流程、经典模型LeNet5实现、底层算子与系统问题，并探讨如何通过高效代码与系统优化推动AI技术革新，提升模型性能。欢迎访问昇腾社区获取更多AI学习资源与实践机会。

发表了文章 2024-12-19

【AI系统】AI 框架之争
发表了文章 2024-12-09

【AI系统】昇思MindSpore并行
发表了文章 2024-12-09

【AI系统】混合并行
发表了文章 2024-12-09

【AI系统】完全分片数据并行 FSDP
发表了文章 2024-12-09

【AI系统】张量并行
发表了文章 2024-12-09

【AI系统】流水并行
发表了文章 2024-12-09

【AI系统】计算图的控制流实现
发表了文章 2024-12-09

【AI系统】动态图与静态图转换
发表了文章 2024-12-09

【AI系统】计算图挑战与未来
发表了文章 2024-12-09

【AI系统】数据并行
发表了文章 2024-12-09

【AI系统】并行训练基本介绍
发表了文章 2024-12-09

【AI系统】计算图与自动微分
发表了文章 2024-12-09

【AI系统】计算图的调度与执行
发表了文章 2024-12-09

【AI系统】计算图原理
发表了文章 2024-12-09

【AI系统】计算图基本介绍
发表了文章 2024-12-09

【AI系统】自动微分的挑战&未来
发表了文章 2024-12-09

【AI系统】动手实现 PyTorch 微分
发表了文章 2024-12-09

【AI系统】微分实现方式
发表了文章 2024-12-09

【AI系统】动手实现自动微分
发表了文章 2024-12-08

【AI系统】微分计算模式

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ZOMI酱_个人页

个人介绍

擅长的技术

【AI系统】AI 框架之争

【AI系统】昇思MindSpore并行

【AI系统】混合并行

【AI系统】完全分片数据并行 FSDP

【AI系统】张量并行

【AI系统】流水并行

【AI系统】计算图的控制流实现

【AI系统】动态图与静态图转换

【AI系统】计算图挑战与未来

【AI系统】数据并行

【AI系统】并行训练基本介绍

【AI系统】计算图与自动微分

【AI系统】计算图的调度与执行

【AI系统】计算图原理

【AI系统】计算图基本介绍

【AI系统】自动微分的挑战&未来

【AI系统】动手实现 PyTorch 微分

【AI系统】微分实现方式

【AI系统】动手实现自动微分

【AI系统】微分计算模式