机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71581内容
分词器详解
分词器将文本转为模型可处理的数字序列,主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持中日文。实战中常用SentencePiece处理中文,Hugging Face工具处理英文。面试需掌握算法差异、中文分词策略、词汇表设计及OOV问题解决。
注意力机制详解
注意力机制是Transformer核心,通过自注意力、交叉注意力等实现序列间动态关联。多头、分组、多查询等变体在效率与性能间权衡,广泛应用于大模型设计,助力高效长序列建模与推理优化。
位置编码详解
位置编码为Transformer提供序列位置信息,弥补注意力机制无位置感知的缺陷。主要分绝对与相对两类:绝对编码如可学习和Sinusoidal,简单高效但外推性弱;相对编码如RoPE和ALiBi,通过旋转矩阵或线性偏置实现良好外推,支持长序列,广泛应用于LLaMA、BLOOM等大模型。
主流分词算法
分词器将文本转为模型可处理的数字序列,主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持中文。实战中需根据语言选择算法,并合理设置词汇表大小与特殊标记,解决OOV等问题。
前馈神经网络
前馈网络(FFN)是Transformer的核心模块,提供非线性变换。标准FFN为两层线性加激活函数,扩展倍数通常为4;MoE则通过稀疏激活、动态路由提升模型容量与效率。常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。相比标准FFN,MoE参数更多、表达更强,计算更高效。
Transformer基础结构
Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,彻底革新了自然语言处理。其核心为编码器-解码器架构,通过自注意力并行捕捉长距离依赖,结合位置编码、残差连接与层归一化,显著提升训练效率与模型性能,广泛应用于各类NLP任务。(238字)
认识AI
本文介绍了AI核心概念与大模型开发原理,涵盖人工智能发展历程及Transformer神经网络的关键作用。通过注意力机制,Transformer实现对文本、图像、音频的高效处理,成为GPT等大模型的技术基础。文章解析了LLM如何利用Transformer进行持续推理生成,逐字输出连贯内容,揭示ChatGPT类模型的工作机制。
|
6天前
| |
来自: 弹性计算
阿里云服务器租用价格:2核4G/4核8G/8核16G配置收费标准与活动价格及选型指南
2核4G、4核8G及8核16G配置是阿里云服务器中深受个人、一般企业级用户喜爱的配置。云服务器实例规格和配置不同,收费标准与活动价格也不同,目前2核4G配置收费标准最低的是经济型e实例,按量收费标准0.225元/小时。2核4G配置包年价格最低的是u1实例,2核4G5M带宽仅需199元且续费不涨价。4核8G配置选择通用算力型u2a实例898.20元/1年起。AMD 计算型c9a实例8核16G配置活动价格为6581.50元/1年起。本文为大家展示截止目前,2核4G、4核8G、8核16G这三大热门配置的收费标准与活动价格以及选型指南参考。
|
6天前
| |
做了15年认知心理学研究,聊聊我是怎么被文献淹没、又怎么爬出来的
一位认知心理学研究者分享15年科研中如何摆脱文献困扰:从每周耗12小时筛选论文,到借助AI工具将时间减至4小时。通过智能检索、批量分析、跨语言翻译等功能,高效追踪前沿、提升综述质量,并推动团队协作升级。工具助力,让科研回归思考本质。
|
6天前
|
PAC(Probably Approximately Correct)理论简介
PAC理论(概率近似正确)由Leslie Valiant提出,是机器学习的基础理论,用于分析模型在有限数据下以高概率学会近似正确规律的条件,涵盖可学习性、样本与计算复杂度,虽具理想化假设,但仍为算法设计提供重要框架。
免费试用