下围棋so easy ,AlphaZero开始玩量子计算!

简介: AlphaZero虽然在围棋项目上战胜了人类选手,但所需的大量算力使其很难走进寻常人的生活。最近,丹麦和德国的研究人员使用Deepmind的AlphaZero 开发了一种混合算法,将AlphaZero强大的搜索能力与量子计算有机结合起来,参数搜索速度大幅提升。

微信图片_20220108182938.png


在过去的几十年里量子物理技术的探索中,最引人注目的就是量子计算机


微信图片_20220108182942.png


量子计算机的能力,是所有现有的计算机组合加起来都无法匹敌。但到目前为止还没有人能够制造出一台功能齐全的量子计算机。这就需要我们在控制量子系统的能力上向前跨一步。


为什么 AlphaZero 能快人一步“预知未来”?


AlphaZero一开始是专门用来下围棋的。围棋的落子位置太多了大约有种。相比之下,国际象棋只有种可能的走位。


所以AlphaZero使用了一个深层的神经网络,它学会了从一个特定的位置开始评估它获胜的可能性。为了获胜,AlphaZero有一个功能叫做蒙特卡洛树搜索,这种方法能够帮助它在游戏中“预知未来”。


微信图片_20220108182944.png


由于在所有可能策略中抽样的可能性比较小,而且神经网络只能近似估计,所以特别是在其训练阶段,蒙特卡洛树搜索能够极大地提高游戏的准确性以及训练效率。


这类似于职业棋手在下棋时能够提前想几步棋。训练结果是相当惊人的,AlphaZero 很快就摧毁了专业游戏软件和人类玩家。例如,经过仅仅四个小时的自我对弈练习,AlphaZero 就在国际象棋中击败了领先的棋类软件 Stockfish。而且这完全都是从零开始,一开始AlphaZero根本不知道游戏规则。丹麦国际象棋大师Peter Heine Nielsen将其比作一个访问过地球的高级外星物种。


目前AlphaZero 已经有效地在围棋,国际象棋和星际争霸中战胜对手。AlphaZero成功的关键是将蒙特卡罗树搜索和具有前瞻性的深度神经网络结合起来。结果表明,从树下方延展出来的预测信息极大地提高了深度神经网络的精度,使预测结果更加准确集中,而非试探性的探索。


AlphaZero后发制人:30小时性能提高一个数量级

与普通计算机类似,量子计算机使用门操作(gate operations)来操纵其量子位。我们试图通过构建分段恒定的脉冲序列来实现特定的门操作,即AlphaZero必须为每个时间步长(time-step)选择一个脉冲幅度。物理系统在每个时间步长tj上都由一个4x4复杂的矩阵U(tj)进行数学描述,我们将其折叠成一个长度为32的向量。这是神经网络的输入,如图1所示。脉冲序列完成后,就可以将复数矩阵U(T)映射为一个实数,称为仿真逼真度(fidelity)F,该实数的取值在0到1之间。从本质上讲,仿真逼真度是一种概率度量,其中1表示100%成功。


微信图片_20220108182947.png


图1.AlphaZero使用的MCTS(左)和深度神经网络(右)的图示


左图和右图分别演示了 AlphaZero 的树搜索和神经网络。利用树搜索中统一的搜索结果作为神经网络的输入项。神经网络的上限输出接近给定输入状态的现行策略,即 p a ∼ a pa ∼ a。同时,下限输出提供了一个能够预估期望最终报酬的值函数,即 v (s t)∼(t) v (st)∼ f (t)。在我们的工作中,我们发现以一致的形式向 AlphaZero 提供物理系统的完整信息,有利于提升它的性能,尽管这种方式可能比较难以调整以适应具有较大希尔伯特空间的系统。神经网络输出一个值,该值是对最终仿真逼真度v≈F和一些移动概率p=(p1, p2, ...)的估计。


两者都在蒙特卡洛树搜索中使用。树由节点(状态)和边(状态-动作对)组成。树搜索从根节点开始,并通过在每个步骤中选择动作来贯穿树。选择哪种行动,是通过比较每一个边缘的内在属性,以平衡勘探和开发的方式进行的。一旦探索到了边缘,其内在属性将根据搜索结果进行更新。


树中的正向搜索将继续,直到遇到一个以前未访问过的节点,然后将该节点添加到树中,并使用p初始化其边缘。搜索中的所有访问过的边都将使用v在反向过程中更新。一旦执行了多次此类搜索,AlphaZero将确定一个操作并更新根节点,而丢弃树的其余部分。最后,基于树搜索产生的数据对神经网络进行更新,使得v接近保真度,并且移动概率增加了选择更有希望动作的机会。


简言之:蒙特卡洛树搜索允许AlphaZero向前看几步,从而可以在解决方案空间中进行更全面的搜索。这使得AlphaZero在长期策略至关重要的复杂任务中比大多数其他强化学习方法更具优势。


成功实现AlphaZero之后,我们使用相同的算法超参数将其用于三个不同的量子控制问题。对于每个问题,我们将AlphaZero与更常规的算法进行了比较。例如,在图2中,我们比较了AlphaZero和遗传算法在50小时运行期间创建二进制脉冲的任务。在y轴上,我们绘制infidelity 1-F,这实际上是错误率(即越低越好)。最初,AlphaZero在学习量子力学关联时表现不如遗传算法,但是这个学习阶段相当短。在30小时内,我们发现AlphaZero的性能比遗传算法提高了一个数量级,并且具有大量独特的高保真脉冲序列。


微信图片_20220108182949.png


图2.遗传算法和AlphaZero在50小时运行期间的比较。在y轴上绘制了infidelity (1-F),这实际上是一个错误率


混合了AlphaZero的量子计算,搜索速度提升500倍


AlphaZero会输给物理学家在过去15年不断完善的高度量子化的优化算法并不奇怪。但是,如果AlphaZero死在这里,会留下很多遗憾。


由于梯度优化算法没有学习功能,意味着训练过程中其性能没有逐步提高,并且所有生成的数据都将被丢弃,而不是用于后续学习。


奥胡斯大学的团队开始寻求一种混合算法:AlphaZero通过广泛的探索生成了高可用的种子对象,随后通过基于梯度的方法对它们进行优化,这种方法使解决方案的数量和质量都得到了极大的提高


实际上,AlphaZero和梯度优化解决了不同的问题:AlphaZero能学习到解决方案的基础结构,梯度优化在种子解决方案周围的局部空间中进行优化如果仅使用梯度优化,经过50小时的模拟,我们可能有两个或三个有前途的解决方案,但通过我们的混合算法,可以获得一千个


将功能强大的通用领域机器学习方法与人类专业知识、特定领域的蛮力计算相结合的结果令人振奋。国际象棋已经迈出了第一步,混合型人机团队将专家知识和Stockfish引擎结合起来,可以同时胜过人类和算法。


最近Gary Marcus和Ernest David在他们的新书《重新启动AI:构建我们可以信赖的人工智能》中提出,将领域特定方法和领域通用方法与分层的受人类启发的决策过程相结合,是未来构建强大的AI方法的核心元素之一。这可能会解决AlphaZero方法最直接的弊端之一:超参数很多,但仅在有限的范围内有用。在一些案例中,相同的超参数集在三种量子情况下均能很好地工作,当改变问题的设定,AlphaZero将无法解决。


量子计算机利用量子并行性大幅提高了计速度,但是问题再次出现:搜索空间的控制参数成指数级增长。AlphaZero实验证明,神经网络提供的近似和不完善的解决方案可以充当本地蛮力启发式算法的强大种子生成器


除了算法方面的优化设计,量子计算本身的性能也在飞速提升。


金子表面发现马约拉纳费米子,量子计算机时代要来了?

最近量子计算捷报频传。

丹麦、德国科学家奇思妙想用AlphaZero解决量子计算问题,MIT等科学家则在金子的表面,观测到了马约拉纳费米子,从而在将粒子分离为稳定的、防错的量子比特进行量子计算领域迈出了重要的一步,该结果发表在《美国国家科学院院刊》上。在粒子物理学中,马约拉纳费米子是一类基本粒子,包括电子,质子,中子和夸克,它的反粒子就是它本身。由意大利理论物理学家Ettore Majorana在1937年首次提出。


微信图片_20220108182952.png


马约拉纳费米子然而不幸的是,这位物理学家提出该理论后不到一年时间,就在一次神秘的意大利海岸渡轮旅行中失踪了。从此,大家就一直在寻找马约拉纳和他的马约拉纳费米子。最终,大家放弃了寻找马约拉纳,但却从未停止寻找他的费米子。


微信图片_20220108182954.png


现在,由MIT领导的团队制造了在超导材料钒上生长的金纳米线组成的材料表面,发现了接近零能量的特征信号尖峰。显然,根据目前的理论物理学来看,除了马约拉那费米子对,没有其他可能。


马约拉纳费米子将是理想的量子比特或量子计算机的单个计算单位,一个量子位将由成对的马约拉那费米子组成,这是科学家长期以来,一直梦寐以求的材料!


如果该马约拉纳费米子被彻底证实,我们将提前步入量子计算时代!


参考链接:


https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/


https://www.nature.com/articles/s41534-019-0241-0


https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html


相关文章
|
小程序 UED 开发者
小程序如何监听页面的滚动事件
小程序如何监听页面的滚动事件
794 0
|
机器学习/深度学习 自然语言处理 物联网
Chronos: 将时间序列作为一种语言进行学习
Chronos框架预训练时间序列模型,将序列值转为Transformer模型的tokens。通过缩放、量化处理,模型在合成及公共数据集上训练,参数量20M至710M不等。优于传统和深度学习模型,展示出色零样本预测性能。使用分类交叉熵损失,支持多模态输出分布学习。数据增强策略包括TSMix和KernelSynth。实验显示大型Chronos模型在概率和点预测上超越多种基线,且微调小型模型表现优异。虽然推理速度较慢,但其通用性简化了预测流程。论文探讨了优化潜力和未来研究方向。
1007 3
|
存储 人工智能 运维
阿里云AI基础设施产品力全球第二
国际研究和咨询公司 Forrester 发布最新全球AI基础设施解决方案研究报告《The Forrester Wave™: AI Infrastructure Solutions, Q1 2024》,阿里云凭借领先的产品性能,获评AI基础设施服务产品力全球第二。
|
存储 数据库
ODOO中的Related字段及Computed字段原理
难理解的参数: Store = True 原因:ODOO 默认情况下不存储计算字段。(因为,可以减少数据库的开销)。但你知道的, 当您希望能够执行某个函数,需要从数据库中调用此值时,这会导致问题。要修复此问题,odoo 在计算字段上提供 store=true 标志。
3854 0
|
Java 索引
Java“StringIndexOutOfBoundsException”解决
Java中的“StringIndexOutOfBoundsException”异常通常发生在尝试访问字符串中不存在的索引时。解决方法包括:1. 检查字符串长度,确保索引值在有效范围内;2. 使用条件语句避免越界访问;3. 对输入进行有效性验证。
1224 7
|
机器学习/深度学习 人工智能 数据可视化
还在用PPT做神经网络架构图?GitHub2万星项目,手把手教你从入门到可视化大师
现在搞机器学习的成本越来越低了,熟悉了Python和sklearn、Keras、Pytorch等机器学习框架,就能搭建自己的模型了,可是模型建好后如何解释给别人听,难倒了不少人。今天,我们就来介绍两款开源的机器学习画图工具,让你分分钟做出精美的可视化。
2998 0
还在用PPT做神经网络架构图?GitHub2万星项目,手把手教你从入门到可视化大师
|
Kubernetes Linux 容器
解决删除快照后启动虚拟机显示指定的文件不是虚拟磁盘 打不开磁盘“路径”或它所依赖的某个快照磁盘。 模块“disk”启动失败。 未能启动虚拟
解决删除快照后启动虚拟机显示指定的文件不是虚拟磁盘 打不开磁盘“路径”或它所依赖的某个快照磁盘。 模块“disk”启动失败。 未能启动虚拟
1618 2
|
Linux Docker 容器
docker 国内镜像源
【8月更文挑战第26天】
4942 1
【逆向】使用x64dbg实现qq私聊与群消息防撤回
使用x32dbg调试32位QQ,通过附加QQ进程并禁用断点。搜索im.dll,找到消息撤回函数,设断点。发测试消息并观察中断点,定位到0X0F01D112C。用NOP替换疑似撤回函数的CALL指令,测试成功后保存为补丁,替换原IM.dll文件,完成防撤回。群聊防撤回类似,需单独找对应函数。注意仅防本地撤回,服务器上仍会显示撤回。
【逆向】使用x64dbg实现qq私聊与群消息防撤回
|
机器学习/深度学习 TensorFlow 算法框架/工具
全面解析TensorFlow Lite:从模型转换到Android应用集成,教你如何在移动设备上轻松部署轻量级机器学习模型,实现高效本地推理
【8月更文挑战第31天】本文通过技术综述介绍了如何使用TensorFlow Lite将机器学习模型部署至移动设备。从创建、训练模型开始,详细演示了模型向TensorFlow Lite格式的转换过程,并指导如何在Android应用中集成该模型以实现预测功能,突显了TensorFlow Lite在资源受限环境中的优势及灵活性。
1612 0