游客vhylg5zno4ifs_个人页

游客vhylg5zno4ifs
个人头像照片
38
0
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年12月

  • 12.12 14:26:41
    发表了文章 2025-12-12 14:26:41

    模型评估

    模型评估涵盖能力、对齐与效率三大维度,涉及语言理解、知识问答、推理代码等任务,常用MMLU、C-Eval、GSM8K等基准,结合Hugging Face工具实现自动评测,面试关注幻觉检测、指标设计与人工协同评估。
  • 12.12 14:26:00
    发表了文章 2025-12-12 14:26:00

    模型压缩与量化

    模型压缩通过量化、稀疏化、知识蒸馏等技术,减小模型体积与计算开销,助力大模型在端侧部署。涵盖INT8/INT4、GPTQ、SmoothQuant等方法,平衡压缩比、精度与速度,并支持实战量化加载,提升推理效率。
  • 12.12 14:25:17
    发表了文章 2025-12-12 14:25:17

    模型推理加速

    大模型推理加速关键技术:KV-Cache优化、连续批处理、投机解码、模型并行与vLLM等。涵盖原理、内存计算、优化策略及实战,助力高效部署与面试备战。
  • 12.12 14:21:28
    发表了文章 2025-12-12 14:21:28

    知识蒸馏

    知识蒸馏是一种模型压缩技术,通过让小模型(学生)模仿大模型(教师)的输出或中间特征,实现性能逼近甚至超越。核心方法包括基于软标签的Hinton蒸馏、带温度的softmax平滑分布、以及利用隐藏层特征的特征蒸馏。分为黑盒(仅用输出)与白盒(访问内部)两种模式,广泛用于加速推理与提升小模型泛化能力。(238字)
  • 12.12 14:20:44
    发表了文章 2025-12-12 14:20:44

    强化学习

    强化学习(RL)是一种通过智能体与环境交互,以最大化累积奖励为目标的学习方法。核心包括状态、动作、奖励、策略与价值函数,依赖试错和延迟奖励机制。常见算法如Q-learning、PPO、DPO等,广泛应用于游戏、机器人及大模型训练。结合人类反馈(RLHF),可实现对齐人类偏好的智能行为优化。(239字)
  • 12.12 14:19:47
    发表了文章 2025-12-12 14:19:47

    微调技术

    微调是适配预训练模型的关键技术,涵盖指令微调、对齐微调与高效参数微调。LoRA通过低秩分解减少参数量,提升训练效率;其变体如LoRA+、QLoRA、AdaLoRA进一步优化性能与资源消耗。Prefix Tuning与Prompt Tuning则通过少量参数实现高效微调,适用于不同场景需求。(239字)
  • 12.12 14:19:02
    发表了文章 2025-12-12 14:19:02

    预训练技巧

    预训练是大模型的核心基础,涵盖混合精度、分布式训练、ZeRO优化、FlashAttention等关键技术,通过高效计算与显存优化,实现大规模模型的快速稳定训练。
  • 12.12 14:17:43
    发表了文章 2025-12-12 14:17:43

    主流大模型结构

    本文介绍了四大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only和Prefix-Decoder,涵盖代表模型与应用场景。详解GPT系列演进、LLaMA发展及主流中文大模型,并对比GPT-4、LLaMA-3、Qwen等在架构、参数量与上下文长度等方面的异同。
  • 12.12 14:16:12
    发表了文章 2025-12-12 14:16:12

    解码策略

    解码策略影响文本生成的创造性与准确性。贪婪解码确定性强但重复性高;Beam Search提升质量,适合翻译;随机采样(如Top-p)增强多样性,适用于创意写作。不同方法在多样性、质量与计算成本间权衡,适配多样场景需求。
  • 12.12 14:14:33
    发表了文章 2025-12-12 14:14:33

    前馈神经网络

    前馈网络(FFN)是Transformer的核心模块,提供非线性变换。标准FFN为两层线性加激活函数,扩展倍数通常为4;MoE则通过稀疏激活、动态路由提升模型容量与效率。常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。相比标准FFN,MoE参数更多、表达更强,计算更高效。
  • 12.12 14:11:55
    发表了文章 2025-12-12 14:11:55

    归一化技术

    归一化技术对大模型训练至关重要,常见方法包括LayerNorm与RMSNorm。前者稳定高效,广泛用于Transformer;后者简化计算,提升效率,见于LLaMA等模型。Pre-norm结构更受现代架构青睐,整体助力模型快速收敛与稳定训练。(238字)
  • 12.12 14:11:03
    发表了文章 2025-12-12 14:11:03

    位置编码详解

    位置编码为Transformer提供序列位置信息,弥补注意力机制无位置感知的缺陷。主要分绝对与相对两类:绝对编码如可学习和Sinusoidal,简单高效但外推性弱;相对编码如RoPE和ALiBi,通过旋转矩阵或线性偏置实现良好外推,支持长序列,广泛应用于LLaMA、BLOOM等大模型。
  • 12.12 14:09:27
    发表了文章 2025-12-12 14:09:27

    注意力机制详解

    注意力机制是Transformer核心,通过自注意力、交叉注意力等实现序列间动态关联。多头、分组、多查询等变体在效率与性能间权衡,广泛应用于大模型设计,助力高效长序列建模与推理优化。
  • 12.12 14:07:02
    发表了文章 2025-12-12 14:07:02

    主流分词算法

    分词器将文本转为模型可处理的数字序列,主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持中文。实战中需根据语言选择算法,并合理设置词汇表大小与特殊标记,解决OOV等问题。
  • 12.12 14:05:06
    发表了文章 2025-12-12 14:05:06

    分词器详解

    分词器将文本转为模型可处理的数字序列,主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱;WordPiece用于BERT,适合英文;SentencePiece语言无关,支持中日文。实战中常用SentencePiece处理中文,Hugging Face工具处理英文。面试需掌握算法差异、中文分词策略、词汇表设计及OOV问题解决。
  • 12.12 14:04:21
    发表了文章 2025-12-12 14:04:21

    Transformer基础结构

    Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络,彻底革新了自然语言处理。其核心为编码器-解码器架构,通过自注意力并行捕捉长距离依赖,结合位置编码、残差连接与层归一化,显著提升训练效率与模型性能,广泛应用于各类NLP任务。(238字)
  • 12.12 09:51:17
    发表了文章 2025-12-12 09:51:17

    Java泛型类型擦除以及类型擦除带来的问题

    Java泛型在编译时会进行类型擦除,所有泛型信息被移除,替换为原始类型(如Object或限定类型)。例如,List<String>和List<Integer>在运行时均为List,导致反射可绕过泛型限制。类型检查发生在编译期,针对引用而非对象本身。擦除后通过桥方法解决多态冲突,自动插入类型转换,但不支持基本类型、静态成员不能使用类级泛型参数,且instanceof无法用于泛型类型判断。
  • 12.12 09:50:01
    发表了文章 2025-12-12 09:50:01

    ArrayList扩容机制

    ArrayList添加元素时,先调用ensureCapacityInternal()确保容量,首次添加时默认扩容至10。每次扩容通过grow()实现,新容量为原容量的1.5倍(oldCapacity + (oldCapacity >> 1)),提升性能。当元素数超过当前容量时触发扩容,保证后续添加不越界。注意:length用于数组,length()用于字符串,size()用于集合。
  • 12.12 09:40:53
    发表了文章 2025-12-12 09:40:53

    Eclipse运行SSM/SSH项目教程

    本教程介绍如何在Eclipse中配置并运行Java Web项目。涵盖JDK、Tomcat环境搭建,项目导入(支持Maven与非Maven),Eclipse中绑定Tomcat服务器及项目部署步骤。提供常见问题解决方案,如数据库连接配置错误等,助你快速启动项目并访问。
  • 12.12 09:35:08
    发表了文章 2025-12-12 09:35:08

    One Trick Per Day

    初始化Map建议用Guava指定预期大小,避免扩容;禁用Executors创建线程池,防止OOM,应手动通过ThreadPoolExecutor或Guava方式创建;Arrays.asList返回不可变集合,禁止修改操作;遍历Map优先使用entrySet或forEach提升性能;SimpleDateFormat非线程安全,建议用ThreadLocal或JDK8新时间API;并发修改记录需加锁,推荐乐观锁配合version机制。
  • 12.12 09:28:07
    发表了文章 2025-12-12 09:28:07

    物理部署图

    物理部署图从运维视角展示系统运行时的硬件配置与软件部署结构,体现节点、构件、物件及连接关系,常用于理解分布式系统。通过UML元素清晰呈现应用如何在硬件上部署运行。
  • 12.12 09:27:09
    发表了文章 2025-12-12 09:27:09

    领域模型图(数据架构/ER图)

    数据架构核心输出为ER图,包含实体、关系与属性。通过四色原型法进行领域建模:红色MI表示时标事件,绿色PPT为业务对象,黄色Role是参与角色,蓝色DESC提供描述信息。以风控系统为例,从业务流程中提炼MI,构建PPT实体,补充Role与DESC,最终提取出ER图,明确实体间一对一、一对多或多对多关系,形成清晰的数据模型。(238字)
  • 12.12 09:26:13
    发表了文章 2025-12-12 09:26:13

    系统时序图

    时序图(Sequence Diagram)是UML中描述对象间消息传递时间顺序的交互图,横轴为对象,纵轴为时间。用于展示交互流程、强调时序、体现并发过程。主要元素包括角色、对象、生命线、控制焦点和消息(同步、异步、返回及自关联消息),直观呈现系统动态协作过程。
  • 12.12 09:25:13
    发表了文章 2025-12-12 09:25:13

    应用架构图

    在业务架构基础上,技术架构将产品需求转化为技术实现。它涵盖分层设计、技术选型与关键技术关系,包括单体四层结构(表现、业务、数据、基础层)和分布式应用的调用关系,明确内外系统边界,形成完整技术体系图谱。
  • 12.12 09:24:21
    发表了文章 2025-12-12 09:24:21

    业务架构图

    业务架构图是将现实业务抽象为分层、分模块、分功能的可视化工具,旨在清晰表达业务层级与关系。它淡化技术细节,聚焦业务逻辑,帮助客户理解业务全貌,助力开发者快速掌握系统结构,提升协作效率与系统可扩展性。
  • 12.12 09:21:07
    发表了文章 2025-12-12 09:21:07

    如何做好SQL质量监控

    SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,帮助用户全面掌握SQL使用情况,定位性能瓶颈,优化资源利用,提升日志分析效率与治理能力。
  • 12.12 09:20:25
    发表了文章 2025-12-12 09:20:25

    生产环境缺陷管理

    git-poison基于go-git实现分布式bug追溯,解决多分支开发中bug漏修、漏发问题。通过“投毒-解药-银针”机制,自动化卡点发布流程,降低协同成本,避免人为失误,已在大型团队落地一年,显著提升发布安全与效率。
  • 12.12 09:19:17
    发表了文章 2025-12-12 09:19:17

    生产环境发布管理

    语雀新手指南:完成四步任务,赢30天会员!新建知识库、文档,写下第一篇笔记,下载客户端即可。同时详解大型团队生产发布管理:从开发到生产多环境部署,结合CI/CD、Jenkins、Docker实现自动化发布与日志追踪,提升效率与稳定性。(239字)
  • 12.12 09:17:45
    发表了文章 2025-12-12 09:17:45

    为什么要单元测试

    本文探讨单元测试如何让软件开发“提速”而非“踩刹车”。通过解析测试体系演进、测试金字塔理念,阐明单元测试在提升调试效率、代码质量与研发效能方面的核心价值,揭示其作为高质量软件基石的重要性。
  • 12.12 09:15:59
    发表了文章 2025-12-12 09:15:59

    公司第一天做什么

    入职首日需完成账号开通(如Git、Jenkins、Nacos等)、环境配置(JDK、Maven、IDEA)、服务连接测试,并拉取代码熟悉项目结构与业务流程,及时与团队沟通确认,确保开发环境正常运行。
  • 12.12 09:13:41
    发表了文章 2025-12-12 09:13:41

    快速入门

    本课程讲解Java变量与基本数据类型,涵盖变量定义、使用规范、不同进制写法及类型转换。通过实例演示整型、浮点型等数据类型的声明与操作,深入解析自动与强制类型转换规则,并介绍方法的定义、重载及参数传递机制,夯实编程基础。
  • 12.12 09:11:20
    发表了文章 2025-12-12 09:11:20

    快速入门

    本课程讲解JDK安装与环境变量配置、IDEA开发工具使用及Java基础语法。涵盖真实工作场景中的开发准备,如JDK和IDEA的安装激活、首个Java程序编写、注释规范、字面量类型及常用快捷键,助你快速上手Java开发。
  • 12.11 11:01:42
    发表了文章 2025-12-11 11:01:42

    Node连接MySQL实现CRUD

    本课程聚焦Node.js与MySQL全栈开发,系统讲解Node.js核心语法、异步编程、模块化封装,并实现连接MySQL数据库完成增删改查全流程。通过实战项目掌握前后端数据交互逻辑,夯实后端开发基础能力。
  • 12.11 10:25:25
    发表了文章 2025-12-11 10:25:25

    前端知识回顾与页面搭建

    今日开启前端开发实战,打通数据库增删改查与页面展示,实现业务闭环。通过构建新浪新闻及无畏契约商城页面,系统学习HTML、CSS布局与JavaScript交互,掌握工程搭建、样式优先级、盒子模型及AI工具辅助开发,完成从理论到实践的跨越。
  • 12.11 09:46:31
    发表了文章 2025-12-11 09:46:31

    游戏饰品前后端开发与联调

    已完成前端核心布局,今日实现前后端数据打通及增删改查功能。通过分页查询展示武器皮肤数据,结合MySQL数据库与Node.js后端接口,完成筛选、价格修改等功能,并利用AI工具Cursor提升开发效率,快速生成详情页与购物车逻辑,助力项目迭代优化。
  • 发表了文章 2025-12-12

    模型评估

  • 发表了文章 2025-12-12

    模型压缩与量化

  • 发表了文章 2025-12-12

    知识蒸馏

  • 发表了文章 2025-12-12

    预训练技巧

  • 发表了文章 2025-12-12

    微调技术

  • 发表了文章 2025-12-12

    强化学习

  • 发表了文章 2025-12-12

    解码策略

  • 发表了文章 2025-12-12

    主流大模型结构

  • 发表了文章 2025-12-12

    模型推理加速

  • 发表了文章 2025-12-12

    分词器详解

  • 发表了文章 2025-12-12

    归一化技术

  • 发表了文章 2025-12-12

    注意力机制详解

  • 发表了文章 2025-12-12

    位置编码详解

  • 发表了文章 2025-12-12

    主流分词算法

  • 发表了文章 2025-12-12

    前馈神经网络

  • 发表了文章 2025-12-12

    Transformer基础结构

  • 发表了文章 2025-12-12

    Eclipse运行SSM/SSH项目教程

  • 发表了文章 2025-12-12

    ArrayList扩容机制

  • 发表了文章 2025-12-12

    Java泛型类型擦除以及类型擦除带来的问题

  • 发表了文章 2025-12-12

    One Trick Per Day

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息