机器学习/深度学习的搜索结果_第3页-阿里云开发者社区

游客vhylg5zno4ifs

|

3天前

|

博文

预训练技巧

预训练是大模型的核心基础，涵盖混合精度、分布式训练、ZeRO优化、FlashAttention等关键技术，通过高效计算与显存优化，实现大规模模型的快速稳定训练。

# 存储 # 机器学习/深度学习 # 编解码 # 并行计算 # 异构计算

游客vhylg5zno4ifs

|

3天前

|

博文

强化学习

强化学习（RL）是一种通过智能体与环境交互，以最大化累积奖励为目标的学习方法。核心包括状态、动作、奖励、策略与价值函数，依赖试错和延迟奖励机制。常见算法如Q-learning、PPO、DPO等，广泛应用于游戏、机器人及大模型训练。结合人类反馈（RLHF），可实现对齐人类偏好的智能行为优化。（239字）

# 机器学习/深度学习 # 算法 # 关系型数据库 # 机器人 # API

游客vhylg5zno4ifs

|

3天前

|

博文

分词器详解

分词器将文本转为模型可处理的数字序列，主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持中日文。实战中常用SentencePiece处理中文，Hugging Face工具处理英文。面试需掌握算法差异、中文分词策略、词汇表设计及OOV问题解决。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客vhylg5zno4ifs

|

3天前

|

博文

注意力机制详解

注意力机制是Transformer核心，通过自注意力、交叉注意力等实现序列间动态关联。多头、分组、多查询等变体在效率与性能间权衡，广泛应用于大模型设计，助力高效长序列建模与推理优化。

# 机器学习/深度学习 # 存储 # 缓存 # 关系型数据库 # MySQL

游客vhylg5zno4ifs

|

3天前

|

博文

位置编码详解

位置编码为Transformer提供序列位置信息，弥补注意力机制无位置感知的缺陷。主要分绝对与相对两类：绝对编码如可学习和Sinusoidal，简单高效但外推性弱；相对编码如RoPE和ALiBi，通过旋转矩阵或线性偏置实现良好外推，支持长序列，广泛应用于LLaMA、BLOOM等大模型。

# 机器学习/深度学习

游客vhylg5zno4ifs

|

3天前

|

博文

主流分词算法

分词器将文本转为模型可处理的数字序列，主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持中文。实战中需根据语言选择算法，并合理设置词汇表大小与特殊标记，解决OOV等问题。

# 机器学习/深度学习 # 自然语言处理 # 算法

游客vhylg5zno4ifs

|

3天前

|

博文

前馈神经网络

前馈网络（FFN）是Transformer的核心模块，提供非线性变换。标准FFN为两层线性加激活函数，扩展倍数通常为4；MoE则通过稀疏激活、动态路由提升模型容量与效率。常用激活函数包括ReLU、GELU（BERT采用）和SwiGLU（LLaMA采用）。相比标准FFN，MoE参数更多、表达更强，计算更高效。

# 机器学习/深度学习 # 网络架构

游客vhylg5zno4ifs

|

3天前

|

博文

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，彻底革新了自然语言处理。其核心为编码器-解码器架构，通过自注意力并行捕捉长距离依赖，结合位置编码、残差连接与层归一化，显著提升训练效率与模型性能，广泛应用于各类NLP任务。（238字）

# 机器学习/深度学习 # 自然语言处理 # 网络架构

游客viyojp43owme2

|

3天前

|

博文

认识AI

本文介绍了AI核心概念与大模型开发原理，涵盖人工智能发展历程及Transformer神经网络的关键作用。通过注意力机制，Transformer实现对文本、图像、音频的高效处理，成为GPT等大模型的技术基础。文章解析了LLM如何利用Transformer进行持续推理生成，逐字输出连贯内容，揭示ChatGPT类模型的工作机制。

# 机器学习/深度学习 # 人工智能 # 自然语言处理

小陈写代码

|

3天前

|

博文

|

来自：弹性计算

阿里云服务器租用价格：2核4G/4核8G/8核16G配置收费标准与活动价格及选型指南

2核4G、4核8G及8核16G配置是阿里云服务器中深受个人、一般企业级用户喜爱的配置。云服务器实例规格和配置不同，收费标准与活动价格也不同，目前2核4G配置收费标准最低的是经济型e实例，按量收费标准0.225元/小时。2核4G配置包年价格最低的是u1实例，2核4G5M带宽仅需199元且续费不涨价。4核8G配置选择通用算力型u2a实例898.20元/1年起。AMD 计算型c9a实例8核16G配置活动价格为6581.50元/1年起。本文为大家展示截止目前，2核4G、4核8G、8核16G这三大热门配置的收费标准与活动价格以及选型指南参考。

# 存储 # 机器学习/深度学习 # 安全 # 前端开发 # 区块链

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习/深度学习