AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天

简介:
本文来自AI新媒体量子位(QbitAI)

昨天,DeepMind团队又在arXiv上扔了个重磅炸弹,新一代AlphaZero在用了强劲的计算资源(5000个一代TPU和64个二代TPU)之后,用不到24小时的时间自我对弈(tabula rasa,也叫白板)强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。


 AlphaZero和国际象棋冠军程序对弈

其中包括上一代冠军围棋程序AlphaGo Zero,这个程序发布还不到两个月,DeepMind就又把自己颠覆了(所以谷歌团队自我进化速度的时间单位都是按天计,可怕)。

AlphaZero的百局战绩

  • 对弈国际象棋程序Stockfish:28胜,72平;
  • 对弈将棋程序 Elmo:90胜,2平,8负;
  • 对弈围棋程序AlphaGo Zero:60胜,40负。

AlphaZero自我对弈的训练时间

  • 训练次数 | 训练时间 | 对弈冠军棋类程序
  • 30万,2小时,击败将棋Elmo
  • 11万,4小时,击败国际象棋Stockfish
  • 16.5万,8小时,击败围棋AlphaGo

把Go去掉,意味着AlphaZero ,已经是比AlphaGo Zero更通用的程序。

一直以来,尽管众多顶尖的AI的程序都超过了人类世界冠军的水平,但它们都只能在单一的领域执行单一的任务,并不能把这种击败人类的超能力泛化到其他任务中。

而DeepMind的野心可不仅仅是在棋类游戏上超越人类,这次他们研究出了这个更通用的程序AlphaZero,将会马上投入到蛋白折叠的应用上

官方称,他们不久就会发表相关论文,通过检测出蛋白错误折叠来快速诊断神经退行性疾病,比如阿尔茨海默症,帕金森,囊状纤维化。

期待AlphaZero在医疗健康领域的表现。

更多棋技的讨论,可以参看知乎上的PENG Bo的评价:https://zhuanlan.zhihu.com/p/31749249

原论文链接:https://arxiv.org/pdf/1712.01815.pdf

本文作者:Root 
原文发布时间:2017-12-07
相关文章
|
JSON IDE 机器人
超简单:mac导出微信聊天记录(附上粉丝群全部聊天记录)
今天再给大家讲解一下如何直导出mac版本微信的聊天记录,当然如果你没有mac,那可以直接关闭这篇文章了。
10405 0
超简单:mac导出微信聊天记录(附上粉丝群全部聊天记录)
|
消息中间件 边缘计算 物联网
物联网络管理平台(LoRaWAN)介绍|学习笔记
快速学习物联网络管理平台(LoRaWAN)介绍
1145 5
物联网络管理平台(LoRaWAN)介绍|学习笔记
|
5月前
|
SQL 人工智能 Linux
Microsoft SQL Server 下载汇总 (2025 年 7 月更新)
Microsoft SQL Server 下载汇总 (2025 年 7 月更新)
1414 0
|
负载均衡 安全 调度
Docker Swarm集群架构
【10月更文挑战第8天】
402 1
|
前端开发 JavaScript 小程序
前端新人,入职新公司需要注意安装什么软件
前端新人,入职新公司需要注意安装什么软件
223 0
|
机器学习/深度学习 算法 搜索推荐
利用深度学习实现图像风格迁移
【9月更文挑战第21天】本文将介绍一种使用深度学习技术,特别是卷积神经网络(CNN)和生成对抗网络(GAN)来实现图像风格迁移的方法。我们将探索如何将这些技术应用于艺术创作,以及它们如何影响现代视觉艺术的发展。
|
算法 JavaScript 前端开发
游戏物理系统 - 如何在JavaScript中实现基本的碰撞检测算法?
在JavaScript中实现2D矩形碰撞检测,常用AABB方法,适合简单游戏。创建Rectangle类,包含位置和尺寸属性,并定义`collidesWith`方法检查两矩形是否相交。通过比较边界位置判断碰撞,当四条边界条件均满足时,认定发生碰撞。基础算法适用于初级需求,复杂场景可采用更高级的碰撞检测库。
410 1
计算机网络——物理层-信道的极限容量(奈奎斯特公式、香农公式)
计算机网络——物理层-信道的极限容量(奈奎斯特公式、香农公式)
738 0
|
移动开发 数据可视化 算法
贝叶斯优化实战(二)(3)
贝叶斯优化实战(二)
396 0
|
数据采集 机器学习/深度学习 算法
【图像分类】基于yolov5的钢板表面缺陷分类(附代码和数据集)
基于yolov5的钢板表面缺陷分类(附代码和数据集)
【图像分类】基于yolov5的钢板表面缺陷分类(附代码和数据集)