🔥 高频面试题汇总

简介: Transformer核心基于自注意力机制,通过QKV计算捕捉长距离依赖,结合多头机制增强表达能力。使用位置编码补充序列顺序信息,配合RoPE、绝对/相对编码等技术。采用RMSNorm、SwiGLU等优化架构,结合LoRA、ZeRO实现高效训练与推理。显存估算需综合参数、KV缓存、激活值等,广泛应用于生成、理解与安全对齐任务。

Transformer核心

  1. Q: 解释Transformer中的自注意力机制
    A: 自注意力机制通过计算序列中每个位置与其他位置的关联权重,使模型能够捕获长距离依赖关系。核心公式:
    $\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
  2. Q: 为什么使用多头注意力而不是单头?
    A: 多头注意力允许模型同时关注不同子空间的信息,每个头可以学习不同类型的关系,提高模型表达能力。
  3. Q: 位置编码的作用是什么?有哪些类型?
    A: 为模型提供序列位置信息,因为注意力机制本身不包含位置概念。包括绝对位置编码(可学习、Sinusoidal)和相对位置编码(RoPE、ALiBi)。
  4. Q: Attention计算中为什么要除以${\sqrt{d_k}}$?
    A: 为了避免当维度 ${d_k}$ 的值较大时, Q 和 K 的点积结果变得过大,方差变得过大,使softmax函数的结果趋向于极端值(极大值为1 ,其余为0),进而导致梯度消失的问题,影响模型训练的效果。Q: 那为什么不选择其他数,要选${\sqrt{d_k}}$?
    A: 因为希望 Q 和 K 的点积结果期望为0,方差为1。当 Q 和 K 的元素是均值为 0、方差为 1 的独立随机变量时, Q 和 K 的点积的均值为 0,方差为${d_k}$ ,Q 和 K 的点积结果除以${\sqrt{d_k}}$可以使得点积的方差为1,点积的输出范围更集中,从而控制输入 softmax 的数值范围,避免其输出极端化,从而保留梯度的有效性

  5. 的方差是d需要除d的平方根,才能让点积方差为1。

模型架构类

  1. Q: LLaMA和GPT架构的主要区别?
    A: 主要区别在于:
    ○ LLaMA使用RMSNorm和SwiGLU激活函数
    ○ LLaMA使用RoPE位置编码
    ○ LLaMA开源,GPT闭源
  2. Q: Encoder-Only、Decoder-Only、Encoder-Decoder架构分别适合什么任务?
    A:
    ○ Encoder-Only:理解任务(分类、NER)
    ○ Decoder-Only:生成任务(文本生成、对话)
    ○ Encoder-Decoder:序列到序列任务(翻译、摘要)
    ⚙️ 训练优化类
  3. Q: 解释LoRA微调的原理和优势
    A: LoRA通过低秩分解模拟全量微调,将权重更新表示为低秩矩阵乘积:ΔW = BA。优势:
    ○ 减少可训练参数(1-10%)
    ○ 保持模型质量
    ○ 易于部署和切换
  4. Q: ZeRO-1、ZeRO-2、ZeRO-3的区别?
    A:
    ○ ZeRO-1:优化器状态分片
    ○ ZeRO-2:优化器状态+梯度分片
    ○ ZeRO-3:优化器状态+梯度+参数分片
  5. Q: FlashAttention如何优化内存使用?
    A: FlashAttention通过IO感知的算法设计,减少HBM访问次数,将内存复杂度从O(N²)降低到O(N),同时保持精确注意力。
    🚀 推理部署类
  6. Q: 如何估算大模型的显存需求?
    A: 显存需求包括:
    ○ 模型参数:参数量 × 精度字节数
    ○ 激活值:取决于batch size和序列长度
    ○ 优化器状态:参数量的2-4倍
    ○ KV缓存:序列长度 × 层数 × 隐藏维度
  7. Q: 模型量化的原理和常见方法?
    A: 量化将浮点权重转换为低精度整数,常见方法:
    ○ 权重量化:INT8、INT4
    ○ 激活量化:动态量化
    ○ 量化感知训练:QAT
    📊 实战计算题
    计算题1:训练显存估算
    题目:一个7B参数的FP16模型,batch_size=4,seq_len=2048,估算推理显存需求?
    解答:
    ● 模型参数:7B × 2字节 = 14GB
    ● KV缓存:2048 × 32层 × 4096维度 × 2 × 4 = 2GB
    ● 激活值:约1-2GB
    ● 总计:约17-18GB
    计算题2:训练时间估算
    题目:使用1000张A100训练175B模型,数据量300B tokens,估算训练时间?
    解答:
    ● 单卡算力:312 TFLOPS
    ● 有效算力:约30%利用率
    ● 计算量:6 × 175B × 300B = 3.15×10²³ FLOPs
    ● 训练时间:约3-4个月
    计算题3:如何估算模型kv_cache显存占用量?
    题目:假设模型中有 n_layers 个层块。每个层块中有一个多头注意力层。每个多头注意力层有 n_heads个注意力头,每个头的 k 和 v 的尺寸为 d_head。
    最大上下文长度为 n_context。精度为 n_bytes,例如对于 FP32 是 4。推理时的批量大小为 batch_size。
    解答:
    kv_cache显存占用量 = 2 × n_bytes × n_layers × batch_size × n_context × n_heads × d_head

⚙️ 显存估算
训练显存估算
训练的时候 GPU 显存占用一共包括 4 个部分:模型参数,梯度,优化器状态,激活值。 假设模型参数量是 θ
● 模型参数:假设模型的参数量是 θ,参数精度是BF16/FP16,即每个参数占用两个字节,那么推理时候参数占用的显存是2θ 字节(前向传播),现在的大模型训练基本上会使用混合精度训练,混合精度训练时需要备份一份FP32的参数,用于模型参数更新,需要4θ 字节
● 梯度:梯度内存的大小与模型的参数数量有关,因为每个参数都需要计算对应的梯度。因此梯度量一般等于模型参数量,假设模型参数量是 θ,参数精度是BF16/FP16,那么梯度量是2θ 字节
● 优化器状态:现在的大模型训练基本上会使用混合精度训练和AdamW优化器,AdamW优化器需要存储动量(momentum)、二阶矩(variance)等状态,且由于混合精度训练, 优化器中的参数精度是FP32,因此优化器状态占用的显存是2 4 θ 字节
● 激活值:用于存储神经网络在前向传播过程中计算的中间值,这些激活值在反向传播过程中需要被重用,以计算关于模型参数的梯度。激活内存的大小与网络的深度和输入数据大小(batch size)有关。更深的网络和更大的 batch size 会导致更大的激活内存需求。
● 总显存占用量 = 模型参数量 + 梯度 + 优化器状态 + 激活值 + 其他显存占用量

参考:大模型消耗的显存
推理显存估算
大模型推理时的显存占用量主要取决于:
● 模型参数:假设模型的参数量是 θ,参数精度是BF16/FP16,即每个参数占用两个字节,那么推理时候参数占用的显存是2θ 字节
● kv_cache显存占用量:假设模型中有 n_layers 个层块。每个层块中有一个多头注意力层。每个多头注意力层有 n_heads个注意力头,每个头的 k 和 v 的尺寸为 d_head。最大上下文长度为 n_context。精度为 n_bytes,例如对于 FP16 是 2。推理时的批量大小为 batch_size。那么推理时候参数占用的显存是:2 × n_bytes × n_layers × batch_size × n_context × n_heads × d_head
● 总显存占用量 = 模型参数量 + kv_cache显存占用量 + 其他显存占用量

🎯 开放性问题

  1. Q: 如何解决大模型的幻觉问题?
    A: 多种策略结合:
    ○ 数据质量提升
    ○ RLHF对齐训练
    ○ 知识增强(RAG)
    ○ 事实核查机制
  2. Q: 如何评估大模型的安全性?
    A: 多维度评估:
    ○ 有害内容检测
    ○ 偏见测试
    ○ 鲁棒性测试
    ○ 隐私泄露测试
  3. Q: 大模型在垂直领域如何落地?
    A: 完整流程:
    ○ 领域数据收集
    ○ 继续预训练
    ○ 指令微调
    ○ 强化学习对齐
    ○ 评估和优化
    📚 面试技巧
    回答框架
  4. 定义:清晰解释概念
  5. 原理:说明工作机制
  6. 优缺点:客观分析
  7. 应用:结合实际场景
  8. 扩展:相关技术发展
    注意事项
    ● 用具体数字支撑观点
    ● 结合实际项目经验
    ● 展示系统性思考
    ● 承认知识边界
    🔗 相关资源
    ● 基础架构详解
    ● 训练优化技巧
    ● 模型架构对比
相关文章
|
SQL 存储 数据挖掘
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
虚拟机数据恢复环境: 某品牌R710服务器+MD3200存储,上层是ESXI虚拟机和虚拟机文件,虚拟机中存放有SQL Server数据库。 虚拟机故障: 机房非正常断电导致虚拟机无法启动。服务器管理员检查后发现虚拟机配置文件丢失,所幸xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还在。服务器管理员在尝试恢复虚拟机的过程中,将原虚拟机内的xxx-flat.vmdk删除后新建了一个虚拟机,并分配了精简模式的虚拟机磁盘和快照数据盘,但原虚拟机内的数据并没有恢复。
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
|
机器学习/深度学习 存储 机器人
LLM系列 | 19: ChatGPT应用框架LangChain实践速成
本文以实践的方式将OpenAI接口、ChatOpenAI接口、Prompt模板、Chain、Agent、Memory这几个LangChain核心模块串起来,从而希望能够让小伙伴们快速地了解LangChain的使用。
|
5月前
|
机器学习/深度学习 人工智能 API
构建AI智能体:二十四、RAG的高效召回方法论:提升RAG系统召回率的三大策略实践
本文探讨了检索增强生成(RAG)系统中的高效召回技术。RAG系统通过检索相关文档增强大语言模型的回答质量,但性能受制于垃圾进,垃圾出原则。为提高召回效果,文章重点分析了三种方法:Small-to-Big通过大小文本块映射兼顾检索精度与上下文丰富度;索引扩展(如HyDE)利用大模型生成假设文档来优化检索;双向改写弥合用户查询与文档表述的差异。这些方法从不同角度解决了RAG系统中的语义鸿沟、词汇不匹配等核心问题,可单独或组合使用。高效召回技术能显著提升RAG系统的回答质量和效率。
751 5
|
5月前
|
机器学习/深度学习 人工智能 缓存
面试官连问21题:Transformer底层原理与测试工程全解析!
Transformer是大模型的核心架构,掌握其原理有助于理解AI推理、设计测试策略、排查异常。本文梳理21个高频面试题,从测试开发视角解析模块化结构与关键机制,助力构建智能测试体系。
|
3月前
|
人工智能 专有云 索引
Qwen3-Pro重磅发布!基于阿里云APG服务器的专属优化模型,性能翻倍
近日,阿里云专有云团队联合通义实验室推出针对阿里云APG服务器的专属优化模型Qwen3-Pro:对比Qwen3-VL-235B(开源版)模型效果持平、性能翻倍
437 0
|
9月前
|
消息中间件 数据管理 Serverless
阿里云消息队列 Apache RocketMQ 创新论文入选顶会 ACM FSE 2025
阿里云消息团队基于 Apache RocketMQ 构建 Serverless 消息系统,适配多种主流消息协议(如 RabbitMQ、MQTT 和 Kafka),成功解决了传统中间件在可伸缩性、成本及元数据管理等方面的难题,并据此实现 ApsaraMQ 全系列产品 Serverless 化,助力企业提效降本。
|
7月前
|
监控 数据可视化 Linux
LangSmith:大模型应用开发的得力助手
LangSmith 是大模型应用开发的高效助手,提供从调试、追踪到评估的全流程支持。通过可视化追踪树,清晰展现 LLM 应用每一步执行逻辑,提升可观察性;支持提示词优化、实时监控与自动化评估,助力开发者快速定位问题、迭代优化,构建稳定可靠的智能应用。
866 0
LangSmith:大模型应用开发的得力助手
|
7月前
|
存储 机器学习/深度学习 人工智能
RAG系统嵌入模型怎么选?选型策略和踩坑指南
嵌入是RAG系统的核心,直接影响检索质量。本文详解嵌入原理,解析稠密/稀疏、长上下文、多向量等类型,梳理选型关键:领域匹配、上下文长度、维度与成本,并结合MTEB基准给出实用建议,助你为业务挑选高效稳健的嵌入方案。
867 2
RAG系统嵌入模型怎么选?选型策略和踩坑指南
|
7月前
|
运维 安全 测试技术
Hydra-SSH 漏洞安全防范
Hydra 是由 THC 组织开发的强力网络安全测试工具,主要用于对 SSH、FTP、HTTP 等协议进行认证爆破,适用于授权渗透测试与弱口令检测。其高效性依赖于优化的字典策略,强调质量优先,结合目标信息定制密码列表,提高破解成功率。
573 1

热门文章

最新文章