认识AI

简介: 本文介绍了AI发展及大模型核心原理,重点解析Transformer神经网络如何通过注意力机制实现自然语言处理突破。以GPT等大模型为例,揭示其基于上下文持续生成文本的推理机制,帮助理解AI为何能生成连贯内容。

本篇介绍了AI的一些核心概念,有利于你理解大模型开发的一些原理。
1.人工智能发展
AI,人工智能(Artificial Intelligence),使机器能够像人类一样思考、学习和解决问题的技术。
AI发展至今大概可以分为三个阶段:

其中,深度学习领域的自然语言处理(Natural Language Processing, NLP)有一个关键技术叫做Transformer,这是一种由多层感知机组成的神经网络模型,是现如今AI高速发展的最主要原因。
我们所熟知的大模型(Large Language Models, LLM),例如GPT、DeepSeek底层都是采用Transformer神经网络模型。以GPT模型为例,其三个字母的缩写分别是Generative、Pre-trained、Transformer:

那么问题来, Transformer神经网络有什么神奇的地方,可以实现如此强大的能力呢?
2.大模型原理
其实,最早Transformer是由Google在2017年提出的一种神经网络模型,一开始的作用是把它作为机器翻译的核心:

Transformer中提出的注意力机制使得神经网络在处理信息时可以根据上下内容调整对数据的理解,变得更加智能化。这不仅仅是说人类的文字,包括图片、音频数据都可以交给Transformer来处理。于是,越来越多的模型开始基于Transformer实现了各种神奇的功能。
例如,有的模型可以根据音频生成文本,或者根据文本生成音频:

还有的模型则可以根据文字生成图片,比如Dall-E、MidJourney:

不过,我们今天要聊的大语言模型(Large Language Models, 以下简称LLM)是对Transformer的另一种用法:推理预测。
LLM在训练Transformer时会尝试输入一些文本、音频、图片等信息,然后让Transformer推理接下来跟着的应该是什么内容。推理的结果会以概率分布的形式出现:

可能大家会有疑问:
仅仅是推测接下来的内容,怎么能让ChatGPT在对话中生成大段的有关联的文字内容呢?
其实LLM采用的就是笨办法,答案就是:持续生成
根据前文推测出接下来的一个词语后,把这个词语加入前文,再次交给大模型处理,推测下一个字,然后不断重复前面的过程,就可以生成大段的内容了:

这就是为什么我们跟AI聊天的时候,它生成的内容总是一个字一个字的输出的原因了。
以上就是LLM的核心技术,Transformer的原理了~
如果大家想要进一步搞清楚Transformer机制,可以参考以下两个视频:
https://www.bilibili.com/video/BV1atCRYsE7x
https://www.youtube.com/watch?v=wjZofJX0v4M&t=1169s

相关文章
|
1天前
|
存储 缓存 算法
学习数据结构和算法的框架思维
本文系统梳理数据结构与算法核心思想:所有数据结构本质为数组或链表的变形,基本操作均为遍历与访问;算法本质是穷举,关键在于“无遗漏”和“无冗余”。掌握框架思维,方能以不变应万变,高效刷题。
学习数据结构和算法的框架思维
|
1天前
|
存储 数据可视化 Java
用拉链法实现哈希表
本文详解哈希表中拉链法的实现原理,通过简化版与完整版Java代码,介绍如何用链表解决哈希冲突,支持泛型、动态扩容及增删查改操作,帮助深入理解哈希表底层机制。
|
1天前
|
存储 缓存 算法
哈希表核心原理
哈希表不等于Map。Map是键值映射的抽象接口,哈希表(如HashMap)是其基于数组和哈希函数的具体实现之一。增删查改O(1)的性能依赖于哈希函数效率与冲突处理,而Map其他实现(如TreeMap)复杂度可能为O(logN)。需注意哈希冲突、扩容、负载因子及key不可变性等核心问题。
|
1天前
|
存储 算法 Java
动态数组代码实现
本文详解动态数组的底层实现,涵盖自动扩缩容、索引越界检查与内存泄漏防范三大关键点,结合Java代码演示增删查改操作及扩容机制,帮助理解数据结构设计原理。
|
1天前
|
算法 数据可视化
二叉树的递归/层序遍历 递归遍历(DFS)
本文详解二叉树的遍历框架,涵盖递归遍历的固定访问顺序及前、中、后序的本质区别——即代码在递归函数中的位置不同所致。同时深入讲解层序遍历(BFS)的三种实现方式,适用于不同场景,尤其适合求最短路径问题;而DFS则因结构天然适合搜索所有路径。通过实例对比,阐明BFS与DFS的应用偏好及原理依据。
二叉树的递归/层序遍历 递归遍历(DFS)
|
1天前
|
人工智能 Java 程序员
JavaSE进阶
本文介绍了Java开发入门的完整流程,涵盖JDK安装、IDEA配置与使用、第一个Java程序的创建与运行。内容包括项目搭建、模块与包的创建、代码注释规范、常用快捷键及通义灵码插件安装等实用技巧,并结合真实工作场景给出操作建议,适合初学者快速掌握开发环境配置与基础编码技能。(239字)
JavaSE进阶
多叉树的递归/层序遍历
多叉树是二叉树的扩展,每个节点可有多个子节点。遍历方式类似:递归遍历无中序概念;层序遍历用队列实现,可记录深度或适配加权边,代码结构与二叉树一致,仅子节点处理由左右变为列表遍历。
|
1天前
|
存储 算法 索引
二叉树基础及常见类型
二叉树是最核心的数据结构之一,不仅是红黑树、堆、字典树等复杂结构的基础,更体现了递归思维的本质。掌握二叉树,等于掌握算法解题的钥匙。从满二叉树到完全二叉树,再到二叉搜索树,各类变体应用广泛。其链式存储与哈希表表示法在算法题中灵活实用,是刷题进阶的必经之路。
|
1天前
|
算法 Python
双端队列(Deque)原理及实现
双端队列支持在队头和队尾高效地插入、删除元素,时间复杂度均为O(1)。相比标准队列的“先进先出”,它更灵活,类似两端可进出的过街天桥。可用链表或环形数组实现,常用于算法题中模拟栈或队列。
|
1天前
|
Java API
用数组实现队列/栈
使用数组实现栈时,可将动态数组尾部作为栈顶,利用ArrayList的add和remove方法实现O(1)时间复杂度的入栈、出栈操作。若以头部为栈顶,则需借助环形数组(如CycleArray)实现高效操作。同样,基于环形数组还可轻松实现队列,通过addLast入队、removeFirst出队,满足队列先进先出特性,所有操作均保持O(1)时间复杂度。