【AI系统】为什么需要 AI 编译器
本文探讨了AI编译器的黄金年代及其必要性,通过对比传统编译器与AI编译器的区别,揭示了AI编译器在处理复杂神经网络模型时的优化能力和对异构计算平台的支持。随着AI硬件的多样化和软件碎片化问题的加剧,AI编译器成为连接上层应用与底层硬件的关键桥梁,旨在提高性能、降低成本并增强软件的可移植性。
【AI系统】从 CUDA 对 AI 芯片思考
本文从技术角度探讨英伟达生态,特别是CUDA与SIMT的关系及其对AI芯片DSA架构的影响。通过分析流水编排、SIMT前端、分支预测及交互方式,指出英伟达CUDA的成功在于其硬件设计与软件易用性的结合,为未来AI芯片的设计提供了宝贵的经验和启示。
【AI系统】CUDA 编程模式
本文介绍了英伟达GPU的CUDA编程模型及其SIMT执行模式,对比了SIMD和SIMT的特点,阐述了SIMT如何提高并行计算效率和编程灵活性。同时简要提及了AMD的GPU架构及编程模型,包括最新的MI300X和ROCm平台。
如何通过看板工具简化ASIC设计中的沟通与决策流程,提高团队效率?
本文介绍了如何利用看板工具,特别是板栗看板(Banli Kanban),优化ASIC设计流程。从需求分析、设计开发、验证测试到制造交付及项目回顾,板栗看板通过任务可视化、实时信息同步和精准任务指派,有效提升了项目管理的精准性与灵活性,减少了沟通成本,增强了团队协作,促进了流程优化。
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
【AI系统】SIMD & SIMT 与 CUDA 关系
本文深入解析了AI芯片中SIMD和SIMT的计算本质,基于NVIDIA CUDA实现的对比,探讨了不同并行编程模型,包括串行(SISD)、数据并行(SIMD)和多线程(MIMD/SPMD)。文章详细介绍了各模型的特点及应用场景,特别强调了英伟达GPU中的SIMT机制如何通过SPMD编程模型实现高效并行计算,以及SIMD、SIMT、SPMD之间的关系和区别。
【大模型入门系列5】免费使用PAI-DSW部署Qwen大模型进行推理部署微调验证
本文介绍了如何在阿里云PAI平台上本地部署Qwen大模型进行推理验证。首先,通过PAI平台申请免费试用DSW,选择支持资源包抵扣的GPU类型。接着,使用modelscope下载Qwen1.5-7B-Chat模型并进行推理验证。最后,利用vllm构建与OpenAI API兼容的服务,并通过OpenAI客户端接口进行请求验证,同时提供了微调验证的方法。
【大模型入门系列6】Qwen模型微调实战
本文介绍了使用开源框架LLaMA Factory进行大模型微调的技术学习过程,包括环境搭建、数据准备、模型选择、微调、评估及最终的模型导出与测试。通过阿里云PAI提供的DSW环境,以Qwen1.5-0.5B模型为例,展示了如何利用Web UI界面零代码完成模型微调,并通过对比微调前后模型的性能,验证了微调效果。
【大模型入门系列3】通义大模型微调实现修改自我认知
本文介绍了如何使用魔搭社区的SWIFT框架对通义大模型进行微调,以满足个性化需求,如修改模型自我认知等。文中详细描述了微调前的环境配置、微调过程及参数设置、微调后的推理验证,以及资源消耗对比。最后,文章还对比了微调与RAG技术的应用场景,并总结了完整的模型微调流程,包括评测、量化导出和部署等步骤。