压缩下一个token通向超过人类的智能(3)

简介: 压缩下一个token通向超过人类的智能


  • Extrapolate into the future (There's no guaranteed truth here)


  • 长期看来,碳基的智能一定会远远小于硅基的智能


  • 现在的 gpt 表现出的硅基智能是 “人类可以理解的智能”,但在压缩过程中也可能会产生 “人类不可理解的智能”。
  • 我们可以将 GPU 和人类进行对比
  • GPU 加能源超频,人脑加能源发烧
  • GPU 之间传输 nvlink+infiniband,人脑之间传输靠动能(说话 = 空气震动,打字 = 手敲键盘,所以三体人很厉害)
  • 机器 24x7 小时工作,人脑每天高强度工作 8 小时,剩下的时间在睡觉放松养身,否则就会认为在被 PUA。
  • 从计算到通信到能源使用量,人类统统不占优。


  • 压缩可以超过人类智能


  • 当压缩率足够高时,模型将不得不找到数据中的规律。而有些规律可能是我们不知道的。
  • DeepMind 已经在数学的纽结理论上做出了一些尝试。
  • 压缩也可以发现物理定律。如果我们把很多 “苹果树的生长” 的视频给压缩好了 ,那么苹果可能 “砸中” 的不是牛顿而是模型,因为模型需要会预测苹果落下的规律,那么其 weights 中一定有一个隐式的 “牛顿定律”。压缩天文视频我们可以得到开普勒定律。那么压缩强子对撞机的数据呢?
  • 这样看起来,AI for Science 的前途好像一片光明。

  • 但正因为这样, AI for Science 单独存在的意义反而可能变低了

  • 进一步,我们把天文地理人文政治生物化学物理数学的知识一起压缩,说不定 gpt 会一口气吐出基于某种 新的 penrose tiling 而设计出的拥有新物理化学特性的晶体,可以作为脑机接口的优秀植入材料,并预测人因此能力的增强对于科技发展的二阶推动作用,分析对社会发展造成冲击,进而如何影响地缘政治,导致可能人类需要尽快殖民火星成为 multi-planetary species 而避免因地球毁灭产生的种族灭绝危机(这里 @elonmusk)
  • 相对于 gpt 只是是一个模型在 inference,人类需要调动大量不同领域的专家并耗费大量资源来维持人这个生物化学计算机的运行,并且通过高超的管理艺术协调解决人类之间靠空气振动传播知识带宽低下的问题,加上毅力和运气才能有可能做出相同的工作。

  • GPT 很危险

  • 没人同时是天文地理人文政治生物化学物理数学专家,而 GPT 压缩了足够的知识后就可以是。
  • 如果一个毒贩问 GPT 你是否有便宜简单的方法合成冰毒,GPT 若回答了,那可能地球上某个地区就会毒品泛滥
  • 当然 GPT-4 已经做好了一定的防护措施(即使使用了 "DAN" prompt)
  • GPT 的价值观和政治倾向也可能会对世界格局产生巨大影响。
  • 为了不教大家做坏事,这里就不展开了。


  • 如何控制训练好的硅基智能?

  • 不要让它控制自己的能源
  • 用 EMP (电磁脉冲) 设备对准机房,不听话就电疗(杨教授?)
  • 对有限数据压缩只能对有限世界进行解释。如果这时智能 “有意识”,那么也只是 “有限世界” 的意识,
  • 可以推断的是,现有的 GPT 如果造成了对人类的破环,那么这个行为的要求一定最初是人类发起的。
  • 因为虽然 GPT 在训练中在不停地通过 SGD 尝试压缩一个 token 的表示,但就目前的使用形态来说并没有在尝试在优化对未来世界的观察的压缩率,a.k.a, 没有做 SGD。@niuyuanlei


  • 硅基只需要 encode “对未来下一个 token 预测的压缩” 这一条规则,并且人类给了它这个机会,可能也会造成不可控的危害。
  • 所以 “GPT 继续训练” 这个按钮应该要选执剑人?:)


  • 但,别慌:压缩告诉了我们目标,但没有告诉我们道路。


  • 我们如果把视野放得开一点,我们会发现,其实很多计算问题都是学习问题,于是都可以从压缩角度来理解。
  • 一个例子是密码学。从某个角度看,机器学习和密码学其实都在研究数据的学习能力:机器学习研究一份数据有 多可学,而密码学研究一个东西有 多不可学。
  • 假设我们用 RSA 算法生成了一对密钥后,对于一段明文 u, 用其私钥u加密  得到密文 v,把 u、v 连在一起得到 [v,u] ,然后用看做一个 autoregressive 学习问题。如果能正确预测 u,则说明模型学到了 RSA 算法 + 所用的密钥。
  • 虽然可以认为现在只有 2^n 的指数级 “学习”(a.k.a, 破译) 算法,虑到模型还懂那么多数学 + RSA 的算法实现本身但我无法断定在强大的压缩算法下,依然学不到破译算法。
  • 希望懂密码学的同学可以来展开讲一下。

  • 同样的,刚才 8 位数加法的问题,如果我们认为数据是一个很长的序列 [a1+b1=c1, a2+b2=c2, ...] ,且压缩算法足够厉害(可能 Transformer + SGD 还不够),那么最后不仅应该学会加法,还应该能学到随机数生成器及随机数种子。

  • 当然,还有很多很多的问题可以探讨,这里还有一些没有展开的话题


传统统计机器学习学习分布 的视角和压缩的联系是什么?VAE 是否也是在做压缩 (@malike)?判别模型中的 Information Bottleneck 和 生成模型的 Minimum Description Length (a.k.a., 压缩) 之间关系该怎么理解?( @Xiangyu Zhang )

  • Mathematica 的 symbolic computation 能力被 GPT 学会是不是只是时间问题?最近也有一些 用 GPT 模拟图灵机 的工作。这样下去是不是 google/bing/wolframalpha 最后都会沦为 gpt 的一个外部数据库?wolframalpha 可能是其中 truthfulness 最高的。
  • RLHF 在压缩的视角里是什么作用?
  • Computer Vision 为什么抄 NLP 到今天也还在一个百分点一个百分点地把 ImageNet/MSCOCO 往上拱?
  • Transformer -> ViT,BERT -> MAE,GPT -> ViT-VQGAN,为什么还是不 work ?


  • BERT 也建模了,并且如果只 mask x_n 则可以建模 从目标包含了 Auto Regressive,并且也可以 通过 Gibs 采样生成文本,那如果用 BERT 会怎么样?
  • 被压缩的数据该以什么样的视角来理解?图片里信息量这么大(随便找三支笔往桌上一扔,请用语言精确描述一下这三支笔的姿态)为什么压缩了也没见 “智能的感觉” 有本质提升?究竟什么是我们想压缩的东西?
  • BPE 对序列的压缩和 GPT 对 token 的压缩是否能统一看待?多模态是否有单独研究的必要?是否应该直接把 jpeg/h264/mp3 扔进去压缩?是否有从 bit/byte 层面直接做压缩的高效算法?
  • 扩散模型 (Diffusion Model) 在计算过程中加入了随机噪声,是否意味着白白增大了 aleatoric uncertainty?是否意味着其压缩效率上限在更多任务上会受到天生的劣势。
  • 小测验:diffusion model 里有随机噪声,那还是无损压缩么?


  • 经验上加宽网络,可以使得网络学习能力更强,从而提高压缩率。从 NTK 角度如何理解压缩?( @Xiangyu Zhang )
  • 如果我的 GPT 输出的是围棋棋谱, Alignment 的 Reward Model 是读棋谱数目数,那么在 RLHF 是否包含了一个 AlphaGo 的实现?如果不是还差什么?
  • 如果我想把中文学术做好,知网数据的价值该怎么来衡量?
  • Chain of Thoughts 利用 "Let's think step-by-step" 诱导出更多的 token,从而使得能 Transformer 能写更多中间步骤,最后给出更好的答案。Self-critique or self-relfection 也可以看作是一种广义的 CoT。从压缩角度好像选择了一条 Alice 和 Bob 同时 “降智”、压缩率更低的解。如何理解这一点?

这里面的问题很多都想写一些观点,也想把我们对数据 和 Alignment 的一些想法写出来(上面有一些很相关的问题),但发现到这里文章已经挺长了,并且 “猜想” 的不严谨部分已经挺多了,所以打算先写到这里。如果大家对于哪个问题比较好奇,可以告诉我,之后有时间会再来谈谈。


结语


前段时间在研究 OpenAI 到底在做什么时,发现了其过去的主要路径只是在做一件事:压缩。这段时间拉着很多小伙伴们或多或少的讨论后,大家纷纷觉得有道理,也 写了 几篇 文章 。从无损压缩开始,有了一个非常具体的实现和证明,便能一点点来解释 OpenAI 坚定这样做的原因、Sam Altman 为什么 2019 年 给投资人说我们把 AGI 造出来问他怎么赚钱就行了,为什么他这么担心 AI 安全, OpenAI 的使命是 "Creating safe AGI that benefits all of humanity"。这很马后炮,但如果从 “通过压缩的观点可以合理解释 OpenAI 的行为” 这句话来看,我们其实也是把 对 OpenAI 的观察做了很高的压缩,那么这句话的压缩率其实也挺高的 ,可能还是值得花时间来思考一下。


本篇文章内容没有用 ChatGPT,为人类创作作品。封面为 Midjourney V5 生成。


One More Thing


很多朋友也知道,我最近刚从本科毕业工作了快 9 年的旷视离职,和同学一起成立一家新公司,专注于实现对人类有益的 AGI,当然不免俗也会从用大模型做起(毕竟是目前最 scalable 的压缩算法)。还在观望想下场的同学欢迎来联系我(知乎私信即可),方便的话还可以线下找个地方聊聊(我 base 北京)。


Acknowledgement


  • @wangyuzhi@xuxinran @wangguan @zhangmeng @xionghuixin@zhengyanan@duyulun@zhouerjin@yangtong @linzongyu @yangzhilin@zhangyutao@niuyuanlei@malike@zhangzilun @chenfeng
  • Reference
  • Ilya Sutskever (OpenAI Chief Scientist) - Building AGI, Alignment, Spies, Microsoft, & Enlightenment | Youtube
  • Sam Altman: OpenAI CEO on GPT-4, ChatGPT, and the Future of AI | Lex Fridman Podcast #367 | Youtube
  • Compression for AGI - Jack Rae | Stanford MLSys #76 | Youtube
  • Theory of Mind Breakthrough: AI Consciousness & Disagreements at OpenAI [GPT 4 Tested] | Youtube
  • GPT-4 Creator Ilya Sutskever | Youtube
  • What is NOT Random | Youtube
  • Hutter Prize
  • Neural Data Compression
  • An Introduction to Arithmetic Coding
  • 压缩即智慧 @xuxinran
  • 智慧信息的压缩:模型智能的涌现之道 @wangguan
  • 为什么说 GPT 是无损压缩 @wangyuzhi
  • 毅马当闲
  • Pause Giant AI Experiments: An Open Letter
  • 【搜出来的文本】⋅(三)基于 BERT 的文本采样
  • 基于算数编码的二分查找进行压缩的期望查询次数证明 @zhangmeng
  • Can LLMs Critique and Iterate on Their Own Outputs?
  • Reflexion: an autonomous agent with dynamic memory and self-reflection
相关文章
|
SQL 分布式计算 MaxCompute
MaxCompute SQL使用小技巧之时间日期处理
业务需求分析中经常会对时间日期进行处理,MaxComputer中也有很多关于日期的处理函数,文章就是对这些内置函数相互嵌套使用达到分析要求的分析
6050 0
|
10月前
|
并行计算 前端开发 异构计算
告别服务器繁忙,云上部署DeepSeek
本文以 DeepSeek-R1-Distill-Qwen-32B-FP8 为例,向您介绍如何在GPU实例上使用容器来部署量化的 DeepSeek-R1 蒸馏模型。
|
JavaScript
js计算时间差,包括计算,天,时,分,秒
js计算时间差,包括计算,天,时,分,秒
1216 16
|
7月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1215 2
|
11月前
|
机器学习/深度学习 存储 数据中心
《深度揭秘:TPU张量计算架构如何重塑深度学习运算》
TPU(张量处理单元)是谷歌为应对深度学习模型计算需求而设计的专用硬件。其核心矩阵乘法单元(MXU)采用脉动阵列架构,显著提升矩阵运算效率;内存管理单元优化数据流通,减少瓶颈;控制单元协调系统运作,确保高效稳定。TPU在训练和推理速度、能耗方面表现出色,大幅缩短BERT等模型的训练时间,降低数据中心成本。尽管通用性和易用性仍有挑战,但TPU已为深度学习带来革命性变化,未来有望进一步优化。
754 19
|
10月前
|
人工智能 算法 数据格式
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
946 3
|
存储 SQL 分布式计算
AnalyticDB for MySQL最佳实践总结
随着AnalyticDB for MySQL(下文统一简称:ADB)在阿里集团各个业务线、社会上各行各业的推广应用,我们沉淀了一些最佳实践,现在笔者整理在这里,供大家参考,希望对大家有帮助。本篇文章总结了ADB表的设计的最佳经验、数据写入的最佳经验、高效查询的最佳实践,以及一些常见的问题。 说明: 1.在读这篇文章之前,请先了解ADB的产品官方文档,以提前适当了解ADB; 2.本文写的最佳实践主要针对ADB3.0,ADB2.0在原理上也同样适用。
5841 1
AnalyticDB for MySQL最佳实践总结
|
存储 SQL 关系型数据库
mysql新增表或字段时判断是否存在
mysql新增表或字段时判断是否存在
1281 0
|
弹性计算 人工智能 网络协议
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践
弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云自研的云上弹性RDMA网络,底层链路复用VPC网络,采用全栈自研的拥塞控制CC(Congestion Control )算法,兼具传统RDMA网络高吞吐、低延迟特性,同时支持秒级的大规模RDMA组网。基于弹性RDMA,开发者可以将HPC应用软件部署在云上,获取成本更低、弹性更好的高性能应用集群;也可以将VPC网络替换成弹性RDMA网络,加速应用性能。
揭秘!CIPU最新秘密武器–弹性RDMA的技术解析与实践