算法框架/工具的搜索结果_第16页-阿里云开发者社区

Deephub

|

7月前

|

博文

|

本文详细介绍了基于PyTorchVideo和PyTorch Lightning构建视频分类模型的全流程。通过Kinetics数据集，利用3D ResNet-50实现高效动作识别。教程涵盖数据加载与增强、模型构建及训练流程，结合两大框架优势，简化开发复杂度并提升性能，为视频理解任务提供完整解决方案。

# 机器学习/深度学习 # PyTorch # 数据处理 # 算法框架/工具 # 计算机视觉

RaceSnail

|

7月前

|

博文

飞桨x昇腾生态适配方案：00_整体方案介绍

本文详细介绍PaddlePaddle与NPU的适配工作，涵盖训练与推理支持、性能优化及离线推理方案。PaddleCustomDevice作为适配层，支持主流模型（详见飞桨-昇腾模型列表），多数性能媲美V100，部分调优模型接近0.8*A800。硬件适配主要针对A2芯片，A1兼容但310系列建议离线推理。提供常用模型仓链接及整体方案导览，包括环境准备、算子适配、性能调优和Paddle转ONNX/OM等内容。

# 机器学习/深度学习 # PyTorch # 算法框架/工具 # 芯片 # AI芯片

aliyun4381607004

|

7月前

|

博文

|

来自：大数据与机器学习

阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析

DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案

# 人工智能平台 PAI # PyTorch # 调度 # 算法框架/工具 # C++ # Python

阿里云基础设施.

|

7月前

|

博文

ACK AI Profiling：从黑箱到透明的问题剖析

本文从一个通用的客户问题出发，描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查，最后到问题定位与解决、业务执行过程的分析，从而展现一个从黑箱到透明的精细化的剖析过程。

# 容器服务Kubernetes版 # 人工智能 # PyTorch # 算法框架/工具 # 异构计算 # Python

Deephub

|

7月前

|

博文

|

来自：大数据与机器学习

Perforated Backpropagation：神经网络优化的创新技术及PyTorch使用指南

深度学习近年来在多个领域取得了显著进展，但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播（Perforated Backpropagation）技术通过引入“树突”机制，模仿生物神经元的计算能力，实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点，使其能够识别神经元分类中的异常模式，从而提升整体网络性能。实验表明，该方法不仅可提高模型精度（如BERT模型准确率提升3%-17%），还能实现高效模型压缩（参数减少44%而无性能损失）。这一革新为深度学习的基础构建模块带来了新的可能性，尤其适用于边缘设备和大规模模型优化场景。

# 机器学习/深度学习 # 算法 # PyTorch # 调度 # 算法框架/工具

Deephub

|

8月前

|

博文

|

来自：大数据与机器学习

加速LLM大模型推理，KV缓存技术详解与PyTorch实现

大型语言模型（LLM）的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术，通过存储复用注意力机制中的Key和Value张量，减少冗余计算，显著提升推理效率。文章从理论到实践，详细解析KV缓存原理、实现与性能优势，并提供PyTorch代码示例。实验表明，该技术在长序列生成中可将推理时间降低近60%，为大模型优化提供了有效方案。

# 机器学习/深度学习 # 存储 # 缓存 # PyTorch # 算法框架/工具

奔跑的数据

|

8月前

|

博文

|

来自：大数据与机器学习

深度学习在DOM解析中的应用：自动识别页面关键内容区块

本文探讨了如何通过深度学习模型优化东方财富吧财经新闻爬虫的性能。针对网络请求、DOM解析与模型推理等瓶颈，采用代理复用、批量推理、多线程并发及模型量化等策略，将单页耗时从5秒优化至2秒，提升60%以上。代码示例涵盖代理配置、TFLite模型加载、批量预测及多线程抓取，确保高效稳定运行，为大规模数据采集提供参考。

# 云解析DNS # 机器学习/深度学习 # 数据采集 # 存储 # JavaScript # 算法框架/工具

Deephub

|

8月前

|

博文

|

来自：大数据与机器学习

10招立竿见影的PyTorch性能优化技巧，让模型训练速度翻倍

本文系统总结了PyTorch性能调优的关键技术，涵盖混合精度训练、PyTorch 2.0编译功能、推理模式优化、Channels-Last内存格式、图优化与变换、cuDNN基准测试、内存使用优化等多个方面。通过实证测试，文章详细分析了各技术的实现细节、优势及适用场景，如混合精度训练可显著提升计算效率和内存利用率，torch.compile()能自动优化代码生成以加速模型运行。此外，还探讨了推理模式的选择、卷积操作优化及模型构建的最佳实践。这些方法结合良好的编码习惯，有助于开发者构建高效、可扩展的深度学习应用。

# 机器学习/深度学习 # 算法 # PyTorch # 算法框架/工具 # 异构计算

Deephub

|

8月前

|

博文

|

来自：大数据与机器学习

从零开始用Pytorch实现LLaMA 4的混合专家（MoE）模型

近期发布的LLaMA 4模型引入混合专家（MoE）架构，以提升效率与性能。尽管社区对其实际表现存在讨论，但MoE作为重要设计范式再次受到关注。本文通过Pytorch从零实现简化版LLaMA 4 MoE模型，涵盖数据准备、分词、模型构建（含词元嵌入、RoPE、RMSNorm、多头注意力及MoE层）到训练与文本生成全流程。关键点包括MoE层实现（路由器、专家与共享专家）、RoPE处理位置信息及RMSNorm归一化。虽规模小于实际LLaMA 4，但清晰展示MoE核心机制：动态路由与稀疏激活专家，在控制计算成本的同时提升性能。完整代码见链接，基于FareedKhan-dev的Github代码修改而成。

# 存储 # 自然语言处理 # PyTorch # 算法框架/工具 # 网络架构

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # PyTorch # 算法框架/工具 # C++

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

算法框架/工具