图解人工智能的数学基础(线性代数)

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文系统讲解线性代数核心概念,涵盖向量(定义、几何/坐标表示、内积)、矩阵(含义、运算、秩、逆、相似、分解)、行列式(几何意义与变换关系)、线性方程组、特征值与特征向量、二次型、向量空间及范数等,强调其在AI与神经网络中的实际应用。

 引言

      向量的定义为具有大小和方向的量。这里我们主要关注神经网络中用到的内容,弄清向量的性质。

研究对象:向量

      向量是有方向的线段线段的长度代表向量的大小,箭头代表向量的方向

几何视角和坐标表示

image.gif 编辑

image.gif 编辑

现实视角

向量可以代表着一些信息

image.gif 编辑

向量的大小

image.gif 编辑

image.gif 编辑

向量的内积

坐标视角

image.gif 编辑几何视角

      从几何角度来看,向量内积与向量的长度和它们之间的夹角有关。具体地,两个向量的内积可以表示为:

image.gif 编辑

研究手段:线性变换

image.gif 编辑

对称变换

image.gif 编辑

image.gif 编辑

image.gif 编辑

伸缩变换

image.gif 编辑

image.gif 编辑


行列式

image.gif 编辑

       矩阵是为了表达信息,行列式可以当成矩阵的一个性质。二维行列式的几何含义就是二维图像的有向面积。三维行列式的几何含义就是三维集合的有向体积。如果这个矩阵参与变换的话,对应的二维行列式的含义就是变换前后的有向面积之比。对应的三维行列式的几何含义就是变换前后的有向体积之比。

image.gif 编辑

行列式的意义

    如果这个矩阵参与变换的话,对应的二维行列式的含义就是变换前后的有向面积之比。对应的

三维行列式的几何含义就是变换前后的有向体积之比。

原始图形:单位正方形(顶点坐标构成的矩阵)顶点坐标:(0,0), (1,0), (1,1), (0,1)用矩阵表示(每

行一个顶点):

image.gif 编辑

    原始面积计算:单位正方形的面积公式:面积=边长×边长=1×1=1

    变换矩阵(选择拉伸变换):

    image.gif 编辑

    变换后图形

    image.gif 编辑

      变换后面积计算:拉伸后的矩形长 = 2,宽 = 1,面积 = 2×1=2

      变换后面积=∣det(M)∣×原始面积⟹2=∣2∣×1

      image.gif 编辑

      单位立方体的变换(体积比)

      原始图形与矩阵

      原始图形:单位立方体(顶点坐标构成的矩阵)顶点坐标(8 个顶点): (0,0,0), (1,0,0), (1,1,0),

      (0,1,0), (0,0,1), (1,0,1), (1,1,1), (0,1,1) 用矩阵表示(每行一个顶点):

      image.gif 编辑

      原始体积计算:单位立方体的体积公式:体积 =1×1×1=1

      变换矩阵(选择拉伸变换)

      image.gif 编辑

      变换后图形

      image.gif 编辑

      变换后体积计算:拉伸后的长方体长 = 2,宽 = 3,高 = 1,体积 =  2×3×1=6

      变换后体积=∣det(M)∣×原始体积⟹6=∣6∣×1

      image.gif 编辑

            对于行列式的计算而言,在实际的工程应用中直接可以用计算机计算,这里我们不做重点进行讨论。

      image.gif 编辑


      矩阵

      矩阵的含义

             一个标量就是一个单独的数。只具有数值大小,没有方向(部分有正负之分),运算遵循一般的代数法则。比如质量是数据标量。向量指具有大小和方向的量,在机器学习中,单条数据样本的表征都是以向量化的形式来完成的。矩阵是二维数组,AI中的应用:样本以矩阵形态表示: 公式条数据/样本,公式个特征的数据集,就是一个公式 的矩阵。

      image.gif 编辑

             标量,可以视为零阶张量。向量,可以视为一阶张量。矩阵,可以视为二阶张量。图片以矩阵形态表示:将一张彩色图片表示成一个公式的三阶张量(高度,宽度,通道)。 在这个例子的基础上,将这一定义继续扩展,即:用四阶张量(样本,高度,宽度,通道)表示一个包含多张图片的数据集。AI中的应用:张量是深度学习中一个非常重要的概念,大部分的数据和权重都是以张量的形态存储的,后续的所有运算和优化算法也都是基于张量进行的。

      image.gif 编辑

      矩阵的运算

            矩阵的运算有很多种,比如加减法,数乘,乘法,转置等等,每种运算都有现实含义和工程应用,这里我们讨论矩阵的乘法和转置的应用。

      矩阵的乘法

      image.gif 编辑

      矩阵的转置

             在现实问题中,系统信息表示的矩阵可能不是一个方阵,为了挖掘出这个数据集更多的信息,会左乘这个矩阵的转置,使其变成一个方阵,这个方阵中会包含更多的信息。

      image.gif 编辑

      矩阵的逆

      逻辑角度

      我们知道矩阵没有乘法,但是我们可以乘以一个逆数,这实现了同样的事情。

      如何与 2 个人分享 10 个苹果?

      image.gif 编辑

      集合角度

      image.gif 编辑

      现实角度

           如果乘坐公共汽车旅行,每位儿童 3 元,每位成人 3.20 元,总计 118.40 元。如果乘坐火车旅行,每位儿童3.50 元,每位成人 3.60  元,总计 135.20 元。

      有多少孩子,有多少成年人?

      image.gif 编辑

      伴随矩阵

             我们发明伴随矩阵的目的就是为了求逆矩阵的,课本上我们学到的是用初等行变换的方式去求逆矩阵,但是初等行变换的方法是不可控的,比较混乱,所以为了计算机可以更加便捷的去求到逆矩阵,所以我们便引入了伴随矩阵。

      image.gif 编辑

      矩阵相似

      定义角度

      image.gif 编辑

      几何角度

        初等行变换对应于在几何上进行基本的几何操作,例如缩放、旋转、平移等。这些操作不会改变变换的本质特性(矩阵矩阵的秩相同),只是改变了其表示形式。

      矩阵的秩

           矩阵的秩会决定最后的输出y的维度,所以研究矩阵的秩是很有意义的。的秩决定着有效方程的个数。r越小,y的维度越小。

      image.gif 编辑

            可以把矩阵看成是一个筛子,矩阵的秩看成是筛眼的大小,矩阵A的秩越小,对应的筛眼越小,自然漏过去的面粉越少。

      image.gif 编辑

      矩阵的秩

      假设我们有 3 名学生(A、B、C)的 3 科成绩(数学、语文、总分),用矩阵记录数据(行 = 学

      生,列 = 科目),矩阵记为X:

      image.gif 编辑

      从 “几何角度” 理解:秩是 “向量空间的维度”

      矩阵的本质是 “向量的集合”(这里每行是 1 个 3 维向量,代表 1 名学生的 3 科成绩),秩的几何

      含义就是这些向量能共同 “撑开” 的空间维度。

      将矩阵X的每行看作一个 3 维向量:

      学生 A 的向量: a  =(80,85,165)

      学生 B 的向量: b  =(70,90,160)

      学生 C 的向量: c  =(65,75,140)

      image.gif 编辑

        image.gif 编辑

      image.gif 编辑

      从 “实际意义角度” 理解:秩是 “独立信息的数量”

          实际场景中,矩阵的列代表 “特征”(这里是数学、语文、总分),秩的实际意义就是 “非冗余的

      独立特征数量”,即 “真正能提供新信息的科目数量”。数学和语文:这两科成绩相互独立 —— 数学

      考高分不代表语文一定高分(比如学生 B 数学 70 分,语文 90 分;学生 A 数学 80 分,语文 85

      分),因此这两科是 “独立信息”;总分:总分 = 数学 + 语文,它的所有数值都能由前两科计算得

      出,没有任何新信息(比如知道学生 A 的数学 80、语文 85,不用看也能算出总分 165),因此总

      分是 “冗余信息”。

      image.gif 编辑


      向量

      线性组合

      image.gif 编辑

      线性表示

      image.gif 编辑

      线性相关

      image.gif 编辑

      线性无关

      image.gif 编辑

      正交矩阵

             它可以改变原始向量的相对位置,保留了向量的长度和角度。(在计算机图形学中,正交矩阵用于表示旋转和反射。这些变换在动画和3D建模中非常重要。例如,3D物体的旋转可以用正交矩阵来表示,从而保持物体的形状和比例不变。)

      image.gif 编辑

      image.gif 编辑

      极大线性无关组

      所有有效向量(增加空间维度)构成的向量组

      image.gif 编辑

      向量组的秩

      张成空间的维数,张成的空间是2维的,秩为2。

      image.gif 编辑

      等价向量组

      image.gif 编辑

      image.gif 编辑

      施密特正交化

            非正交基转换为正交基。假设现在有两个向量是二维平面的一组非正交基。我们将其中一个向量向另外一个向量进行投影。操作时候就能得到该平面的一组正交基。

      image.gif 编辑

      image.gif 编辑

      矩阵分解

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑


      线性方程组

      非齐次线性方程组的解

      几何角度

      image.gif 编辑

      秩的角度

      image.gif 编辑

      基础解析

      基础解析:构成解空间的基

      b是在解空间的一个坐标

      基础解析的个数

      image.gif 编辑

      方程组的近似解

      image.gif 编辑


      矩阵的特征值和特征向量

      矩阵的特征值和特征向量

            特征值和特征向量反应了矩阵某种性质。矩阵可以对某个特征值对应的特征向量空间中的向量起到伸缩作用。

      image.gif 编辑

      相似矩阵

            我们就说B和A是相似的,既然相似那么一定有相同点,相同点是什么呐?它们是同一个线性映射在不同基下的线性表达。

      image.gif 编辑

      相似对角化

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑

      image.gif 编辑


      二次型

      用矩阵处理曲面曲线等非线性对象

      image.gif 编辑

      二次型理论来源于解析几何中化二次曲线及二次曲面方程为标准方程问题,我们学的普通二次型、标准形、规范形、正定二次型、非正定二次型实际上就是对图形的分类。

      image.gif 编辑

      image.gif 编辑

      矩阵合同

      同一事物在不同坐标系下的不同形态(本质就是在原来的坐标系下不好求最值,可以变换到另一个空间上求,求出坐标再映射到原来的坐标系)

      image.gif 编辑


      向量空间

      向量空间

      3个3维线性无关的向量,构成了一个3维空间(向量空间)

      image.gif 编辑

      线性表示

      这个空间种的其它向量都可由这三个向量线性表示。系数对应着这个向量的坐标。

      image.gif 编辑

      子空间

      下图分别是三维空间的一维子空间和二维子空间

      image.gif 编辑张成空间

      image.gif 编辑

      image.gif 编辑

      基底

      基底选择并不唯一

      image.gif 编辑

      过渡矩阵(基底变换)

      应用

      RGB颜色空间

      RGB颜色空间是通过红色(Red)、绿色(Green)和蓝色(Blue)三种基本颜色的不同组合来表示颜色的。每种颜色的值通常在0到255之间,表示颜色的强度。

      YPbPr颜色空间

      YPbPr颜色空间是一种常用于视频压缩和传输的颜色空间。它将颜色信息分为亮度(Y)和两种色度(Pb和Pr),其中:

      • Y 表示亮度(Luminance)
      • Pb 表示蓝色色差分量(Blue-difference Chroma)
      • Pr 表示红色色差分量(Red-difference Chroma)

      image.gif 编辑

      坐标变换

      image.gif 编辑

      相似对角化的重要意义

            简单来说学习相似的目的就是为了矩阵分解,比如我现在一个机器学习的表格数据,可以把它看成是一个矩阵,一般我们会让这个矩阵乘以它的转置变成一个对称阵。对这个对称阵矩阵分解成n个同样大小的矩阵,特征值的大小代表对应矩阵的重要程度。(主成分分析)

      矩阵的相似对角化

      image.gif 编辑

      实对称矩阵的相似对角化

      image.gif 编辑

      普通矩阵的分解(奇异值分解)

      但是一张照片不太可能是一个方阵,如何把它压缩存贮呐?中间是奇异值矩阵,奇异值越大表示和原来的照片越相似。

      image.gif 编辑


      矩阵求导

      image.gif 编辑


      范数

      为什么?    

      范数就是一种数学上的通用“尺子”或“度量衡”,它把复杂的向量世界简化为一个简单的数

      字,从而让我们能衡量大小、比较差异、约束行为等等。

               就比如在自然语言处理领域,向量的长度可以被视为该词的频率重要性范数

      越大, 可能表示这个词在语料库中出现的频率更高。

      image.gif 编辑

      曼哈顿距离(L1范数)

      image.gif 编辑

      image.gif 编辑

              最终我们计算的曼哈顿距离 = 0.8,两个水果在 “甜度” 上的差异(0.6)是主要贡献项,说明

      “草莓比柠檬甜很多” 是两者最核心的区别;两者在 “酸度” 上的差异较小(0.2),仅 “柠檬略酸于

      草莓”。草莓和柠檬的距离是0.8说明两者的口感特征差异显著。

      欧氏距离(L2范数)

      image.gif 编辑

      image.gif 编辑

          最终我们计算的柠檬和草莓的欧式距离 = 0.8,蓝莓和草莓的欧式距离是0.14,也可以说明,草

      莓和蓝莓的口感更相似。

      目录
      相关文章
      |
      4天前
      |
      人工智能 自然语言处理 文字识别
      阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
      Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
      2044 7
      阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
      |
      12天前
      |
      人工智能 开发工具 iOS开发
      Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
      Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
      3379 10
      |
      15天前
      |
      Shell API 开发工具
      Claude Code 快速上手指南(新手友好版)
      AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
      3432 25
      |
      8天前
      |
      人工智能 Linux BI
      国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
      JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
      2535 5
      国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
      |
      27天前
      |
      人工智能 JSON 供应链
      畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
      LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
      23606 15
      畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
      |
      6天前
      |
      人工智能 自然语言处理 安全
      Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
      Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
      1093 3
      |
      13天前
      |
      存储 Linux iOS开发
      【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
      MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)