做大模型应用所需的一点点基础数学理论(神经网络基础)

简介: 神经网络的灵感来源于生物学,人工智能的进步与生物学发展紧密相关。其核心组成部分神经元,通过模拟生物神经元的工作方式进行信息处理。神经网络由一系列神经元构成激活函数是神经网络中的关键,属于非线性化函数。它能针对不同输入值x产生不同输出值y,通过训练不断调整权重值(w)和偏移参数(b),实现预期的分类效果。深度神经网络包含多层神经元。训练时,投喂大量数据样本,不断修正权重值(参数),使整个运算功能达到预期值。

 1.神经网络的基本理解

神经网络的灵感来源于生物学,人工智能的进步与生物学发展紧密相关。其核心组成部分神经元,通过模拟生物神经元的工作方式进行信息处理。

image.gif 编辑

神经网络由一系列神经元构成

image.gif 编辑

激活函数是神经网络中的关键,属于非线性化函数。它能针对不同输入值x产生不同输出值y,通过训练不断调整权重值(w)和偏移参数(b),实现预期的分类效果。

深度神经网络包含多层神经元。训练时,投喂大量数据样本,不断修正权重值(参数),使整个运算功能达到预期值。

训练过程:训练模型中的参数(w和b)让模型中每一层的权重值趋向合理值

训练一个神经网络的步骤:

1.首先搭建好神经网络,之后给予其大量参数,参数初始状态均为随机值

2.投喂数据不断训练,让所有的参数尽可能趋向于合理化

image.gif 编辑

2.参数训练原理

image.gif 编辑

输入的原始数据会经历累加和激活两种运算方式

目标举例:输入某组组合数x,使其经过运算后得到的y值接近于0,输入另一组组合数x,使其经过运算后得到的y值趋近于1

实现方式:使用某种方式调整权重参数w和偏移参数b使其达到预期的结果

具体实现方式:梯度下降算法

3.梯度下降算法的原理

背景:现在我们有一堆离散的点,我们现在相找出一条线去拟合这些点,因此,我们需要通过梯度下降算法不断训练去找到那条线 image.gif 编辑设直线为y=wx+b,此时,我们要控制的参数是w和b,我们要找的拟合线的方式是找到一条目标线,使得目标线到所有点的距离和值最小。

现在我们对某个点进行分析:假设我现在取x=0.9的点,则此时y的预测值为0.9w+b,将其实际值减去预测值则为某个点到直线的距离,为了消除正负的影响,将得到的结果用平方标识,将所有点得到的(预测值-实际值)平方进行累加和则得到损失值

image.gif 编辑

image.gif 编辑

上述结果为损失值,对于损失值,越小则越好,损失值我们同时可以看作是一个关于w和b的函数

image.gif 编辑

image.gif 编辑

假设我们把b看作常数,此时,loss则可以看作是关于w的一个二次函数 image.gif 编辑

此时,我们把w往w在这一点的函数切线方向去变则会得到更小的loss值,可以loss对w求偏导

image.gif 编辑

image.gif 编辑

w减去一个参数乘上求导计算得到的斜率  
w往切线方向(即往loss减小的方向去更新)
上面的过程调整的参数数量是2个,而我们做大模型调整往往调整的是大量参数而得到最优解,
在此过程中,我们用到的也是梯度下降算法

image.gif


相关文章
|
9天前
|
存储 人工智能 NoSQL
大模型应用开发3-LangChain4j实战
本文介绍了LangChain4j框架的使用方法,主要包括以下内容:1. 基础配置:创建SpringBoot项目并配置OpenAI聊天模型;2. AIServices工具类:简化模型调用,支持流式和阻塞式两种调用方式;3. 会话记忆功能:实现多轮对话记忆,支持会话隔离和Redis持久化存储;4. RAG检索增强:通过向量数据库存储和检索专业领域知识,提升大模型回答质量;5. Tools工具:通过Function Calling机制实现业务功能调用。文章详细讲解了每个功能的实现步骤,包括代码示例和配置方法,帮助
|
9天前
|
人工智能 Linux API
阿里云+本地全平台部署OpenClaw|iMessage集成+千问/Coding Plan API+避坑指南
2026年,AI自动化框架OpenClaw(原Clawdbot)凭借云端+本地双部署、多模型兼容与iMessage深度集成能力,成为连接苹果生态与AI能力的核心工具。阿里云提供轻量服务器、ECS、计算巢三种一键部署方案,本地支持MacOS、Linux、Windows11全系统运行,搭配阿里云千问大模型、免费Coding Plan API,可实现iMessage消息收发、自然语言交互、任务自动化执行,满足个人效率管理、移动AI助手、轻量业务开发等场景需求。
199 19
|
9天前
|
机器学习/深度学习 人工智能 缓存
一篇新闻太长懒得看?我用 Python + 深度学习,3分钟教你做一个“自动摘要神器”
一篇新闻太长懒得看?我用 Python + 深度学习,3分钟教你做一个“自动摘要神器”
92 8
|
9天前
|
人工智能 自然语言处理 Java
大模型应用开发5-SpringAIalibaba实战
本文介绍了SpringAIAlibaba开源项目,该项目基于SpringAI构建,为阿里云通义系列模型提供Java开发实践。主要内容包括: 基础使用:配置模型API、依赖引入、调用示例,支持同步和流式调用; 多种集成方式:对接本地Ollama模型、ChatClient高级API、SSE流式输出; 核心功能实现:提示词模板、结构化输出、持久化内存、文本生成图片/语音; 高级能力:向量数据库、RAG增强检索、工具调用(Tool Calling); MCP协议:标准化工具调用方案,实现服务端工具共享;
|
9天前
|
存储 监控 前端开发
大文件上传下载处理方案-断点续传,秒传,分片,合并
本文介绍了大文件上传下载的断点续传技术方案。上传方面,通过前端将大文件分块(如5MB/块),后端使用MinIO存储分块并合并,实现断点续传和秒传功能。下载方面,采用Range请求分片下载,前端合并分片触发下载。技术要点包括:1)前端分块计算MD5;2)后端MinIO存储管理;3)分片校验与合并;4)进度监控和异常处理。该方案解决了大文件传输中断问题,提升用户体验,适用于视频等大文件传输场景,完整代码示例包含前后端实现。
|
9天前
|
机器学习/深度学习 存储 人工智能
大模型应用开发1-认识大模型
摘要: 本文系统介绍了大模型的基础概念、本地部署及API调用方法。首先阐述了AI及神经网络的基本原理,重点解析了Transformer架构及其在大语言模型(LLM)中的应用。其次详细对比了三种模型使用方案(开放API/云部署/本地部署)的优缺点,并以Ollama为例演示了本地部署流程,包括模型管理、交互指令和GPU加速配置。最后说明了大模型API调用规范,列举了主流大模型产品及其应用场景,强调大模型在自然语言处理、内容生成等领域的优势,以及与传统编程结合开发智能应用的可能性。全文涵盖技术原理到实践操作,为大
|
21天前
|
IDE PHP 开发工具
提升PHP开发效率的5个实用技巧
提升PHP开发效率的5个实用技巧
|
9天前
|
缓存 Java Linux
深入剖析Java通信架构下的三种IO模式2
文章摘要: Java NIO(New I/O)是Java 1.4引入的高效I/O API,支持非阻塞操作,核心组件包括Channel(通道)、Buffer(缓冲区)和Selector(选择器)。与BIO(阻塞I/O)相比,NIO以块方式处理数据,效率更高;通过Selector单线程可监听多通道事件,实现高并发。Buffer提供数据存取,Channel负责传输,支持双向读写;文件操作通过FileChannel实现,网络通信结合SocketChannel和Selector实现非阻塞多路复用。文章还对比了BIO/
|
9天前
|
消息中间件 运维 Java
详解RabbitMQ1-基础使用
MQ异步通信技术摘要 MQ(消息队列)是一种异步通信方式,通过消息Broker实现生产者、消费者解耦。RabbitMQ作为主流MQ方案,支持多种交换机类型(Fanout广播、Direct路由、Topic主题)实现灵活消息路由。Spring AMQP简化了RabbitMQ集成,提供: 自动声明队列/交换机 注解式监听器 RabbitTemplate消息模板 核心优势包括降低耦合、提升性能、故障隔离,但也需考虑Broker可靠性问题。实际开发中需注意: 配置prefetch控制消费速率 使用JSON转换器替代默

热门文章

最新文章