干货 | 纽约大学陈溪： AlphaGo Zero技术演进的必然性（附PPT）-阿里云开发者社区

干货 | 纽约大学陈溪： AlphaGo Zero技术演进的必然性（附PPT）

2018-08-23 3843

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

陈溪：今天我要跟大家分享一下为什么要把机器学习和运筹学这两个学科结合起来，才能有效地解决很多实际的问题。

一、机器学习

什么是机器学习？首先需要有一堆数据，然后有机器学习的算法，对于数据的统计建模、概率建模和数据的假设来作为算法的支撑。机器学习一般常用的应用是对数据进行预测，比如预测明天股票的价格，这种都是一些基础的预测，更重要的是通过机器学习，去学习数据中的一些模式。

b13f79871b399f5a96793de89470bf66fe4abe3c

机器学习从大的角度分成两类：监督学习与无监督学习（Supervised Learning & Unsupervised Learning）。比如我们通过房间里的照片来识别人脸，用某些方式进行一定的标注来确定人脸在什么地方，这时候我们就叫做有监督的学习。监督学习的框架如上图所示，根据预测的函数，把机器学习的特征映射到值域上。

9044c45b5df1362cd3a97b50e4e52f38cc82cc70

没有监督的学习是一个更加广泛的领域，比如我们需要把图片进行分类，这是完全根据人的需求和感觉，通过机器学习方法进行分类。

ff1059f77b1a3d81c53f87ecae2e75a8b8ae52db

深度学习是一个自动提取特征的有效工具，比如图像的结构化让深度学习得以提取足够的特征。然而并不是每个领域的数据都能够通过深度学习的方式把有效的特征提取出来，比如在很多金融领域，一定要把深度学习与非深度学习的方法进行有效的比对。

二、从学习到决策

传统的机器学习通常处理静态数据，但是这并不能满足很多商业需求，许多商业应用最终需要做决策。

fd464fce46422897f04705816bc7e3bcce1a9fde

上面这张图把整个数据分析分成五个阶段：

● 第一阶段：Descriptive（ 描述性 ），对数据进行基本的描述；
● 第二阶段：Diagnostic（ 诊断性 ），对数据进行基本的诊断；
● 第三阶段：Discovery（发现），挖掘数据内在的模型；
● 第四阶段：Predictive（ 预测性 ），预测可能发生的情况的分析；

● 第五阶段：Prescriptive（指定性），数据驱动决策的过程。

c2f718bd559a3ae794fb298981a987b24f8f1ea7

在现实领域中，我们会遇到很多决策的问题，比如决策库存量、设施位置、路线规划、商品价格等。

3654b584e7fda79c6cdd40d17c7d60124f8b06d5

AlphaGo Zero，作为围棋的一个重大进展，它不仅要对对手进行预测，同时还要对落子进行决策。所以Google设计了deep reinforcement learning（深度强化学习），它带有决策的成分，通过Monte Carlo tree search（蒙特卡洛树搜索），让机器和机器自己进行对战，从而进行学习。不管是学习还是决策，Simulation technique（模拟技术）在AlphaGo Zero中也很重要。

对于商业应用仍然很简单，这是为什么？在一个围棋的程序中，尽管搜索空间很大，信息是完整的，然后目标函数简单而明确（赢或输），而在商业决策过程中，目标函数可能会非常复杂。

a597acbfcff4c9e8f7c59fd52f27f86b64d6a743