并行计算

首页 标签 并行计算
# 并行计算 #
关注
5306内容
预训练技巧
预训练是大模型的核心基础,涵盖混合精度、分布式训练、ZeRO优化、FlashAttention等关键技术,通过高效计算与显存优化,实现大规模模型的快速稳定训练。
|
1天前
|
机器学习超参数调优:十个实用的贝叶斯优化(Bayesian Optimization)进阶技巧
贝叶斯优化虽强大,但直接使用常面临收敛慢、计算贵等问题。本文总结十大实战技巧:引入先验加速冷启动,动态调整采集函数打破平台期,对数变换处理量级差异,避免超-超参数过拟合,成本感知抑制资源浪费,混合随机搜索提升鲁棒性,并行化利用多GPU,正确编码类别变量,约束无效区域,以及集成代理模型降方差。结合这些策略,让BO更智能、高效,真正发挥超参调优潜力。
|
2天前
|
基于MATLAB的混沌优化算法求极值实现
混沌优化算法(Chaos Optimization Algorithm, COA)通过混沌运动的遍历性和随机性实现全局搜索,结合MATLAB的矩阵运算优势,可高效求解复杂函数极值。
|
2天前
|
毅硕HPC | 一文详解HPC环境中的MPI并行计算
MPI主要用于分布式内存系统,适合跨多个服务器节点的大规模并行任务。MPI 不仅仅是一种编程接口,它是连接算法与硬件之间的桥梁,是实现“算得更快、看得更远”的关键技术支撑。
|
3天前
|
LMCache:基于KV缓存复用的LLM推理优化方案
LMCache推出KV缓存持久化方案,显著优化大模型推理首Token延迟(TTFT)。通过将KV缓存存储至GPU、CPU或磁盘,实现跨请求复用,支持任意位置文本匹配,与vLLM深度集成,多轮对话、RAG场景提速3-10倍,降低硬件压力,提升吞吐。开源支持Linux/NVIDIA,正拓展AMD及更多生态支持。
|
7天前
|
openEuler操作系统环境:目标检测软件开发实操与性能评估
本文系统研究了在openEuler 22.03 LTS SP3上基于YOLOv8实现鸟类目标检测的全流程,涵盖环境搭建、模型训练、性能优化与容器化部署。实验表明,openEuler凭借内核优化与异构计算支持,在GPU加速下推理速度达142 FPS,资源占用降低18%以上,展现出卓越的AI任务处理能力。
基于卡尔曼滤波的锂离子电池剩余电量估算
基于卡尔曼滤波的锂离子电池剩余电量(SOC)估算的方案,结合等效电路模型与自适应优化策略
|
8天前
|
包年包月、按量付费和抢占式实例有什么区别?阿里云ECS付费类型如何选择?
阿里云ECS提供三种付费模式:包年包月适合长期稳定使用,价格优惠且支持备案;按量付费按小时计费,灵活但成本较高,适合短期或突发业务;抢占式实例价格低至1折,但可能被释放,仅推荐用于无状态应用。根据业务需求选择合适模式可优化成本与稳定性。
|
10天前
| |
来自: 云原生
为什么别人用 DevPod 秒启 DeepSeek-OCR,你还在装环境?
DevPod 60秒极速启动,一键运行DeepSeek OCR大模型。告别环境配置难题,云端开箱即用,支持GPU加速、VSCode/Jupyter交互开发,重塑AI原生高效工作流。
|
10天前
|
毅硕HPC | 在HPC集群上优雅地使用conda
通过本教程,你将掌握在HPC集群中从零开始部署并高效利用Conda的核心技能。为你的课题创建一个干净的environment.yml文件,让你的科研计算之旅更加规范、高效和可复现。
免费试用