异构计算

首页 标签 异构计算
# 异构计算 #
关注
19441内容
|
2月前
|
vLLM 性能优化实战:批处理、量化与缓存配置方案
本文深入解析vLLM高性能部署实践,揭秘如何通过continuous batching、PagedAttention与前缀缓存提升吞吐;详解批处理、量化、并发参数调优,助力实现高TPS与低延迟平衡,真正发挥vLLM生产级潜力。
|
2月前
|
python torch基础用法
本教程系统讲解PyTorch基础,涵盖张量操作、自动求导、神经网络构建、训练流程、GPU加速及模型保存等核心内容,结合代码实例帮助初学者快速掌握深度学习开发基础,是入门PyTorch的实用指南。
|
2月前
|
租用阿里云服务器一年要多少钱?ECS、轻量和GPU服务器租赁价格,手动整理
2025年10月阿里云服务器优惠持续,轻量应用服务器200M带宽38元起/年,ECS 2核2G 99元/年、2核4G 199元/年,4核16G 89元/月,8核32G 160元/月,香港轻量25元/月起,新老同享,续费不涨价。
2025年阿里云GPU服务器租用价格与应用场景详解
阿里云GPU服务器基于ECS架构,集成NVIDIA A10/V100等顶级GPU与自研神龙架构,提供高达1000 TFLOPS混合精度算力。2025年推出万卡级异构算力平台及Aegaeon池化技术,支持AI训练、推理、科学计算与图形渲染,实现性能与成本最优平衡。
|
2月前
|
《3D端游世界角色技能连招的动画状态机轻量化实践》
本文围绕《剑影江湖》武侠端游主角多武器技能体系的动画状态机性能问题展开,针对传统设计中状态冗余、判断链长、资源复用率低等导致的帧率下降、连招断档等问题,提出分层状态机+模板化过渡、动态缓冲时长+优先级输入队列、共享状态机实例+角色数据注入、时间轴同步+预测触发四大优化方案。
|
2月前
|
《3D端游开放世界场景流式加载的资源调度优化实践》
本文聚焦灵墟纪元苍梧山脉场景流式加载问题,针对传统方案因预加载策略僵化、资源分块不合理等导致的“地形透明”“内存过载”等问题,提出五大优化方案:动态预加载半径+行为预测、自适应资源分块+优先级排序、内存冷热数据动态置换+池化复用、多核线程池调度+异步资源传输、纹理LOD渐进加载+Mipmap链动态生成。优化后,飞行时“地形透明”概率降至2%,内存稳定在5GB内,加载线程CPU耗时降5ms,纹理弹出率低于0.5%,各设备帧率稳定58-60帧,为开放世界场景加载优化提供可行路径。
|
2月前
| |
来自: 云原生
16 倍性能提升,成本降低 98%! 解读 SLS 向量索引架构升级改造
大规模数据如何进行语义检索? 当前 SLS 已经支持一站式的语义检索功能,能够用于 RAG、Memory、语义聚类、多模态数据等各种场景的应用。本文分享了 SLS 在语义检索功能上,对模型推理和部署、构建流水线等流程的优化,最终带给用户更高性能和更低成本的针对大规模数据的语义索引功能。
|
2月前
| |
来自: 云原生
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
|
2月前
| |
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
免费试用