论文要点:
- 人类通过分层方式进行规划
- 分层规划的复杂性被编码进了前额叶皮层尾侧(caudal prefrontal cortex)
- vmPFC以及海马体编码的是对某个目标状态的接近程度
- 可以从dm PFC解码当前条件(context)
大脑非常神奇,但能力也有限。
当接近极限时,大脑也会宕机。不过,大脑出色的地方之一就是非常善于处理这种极限状况。比如,一些看似棘手的神经计算难题,可以通过快速发明新的算法加以解决。这些算法得到的结果就是未来的行动计划,让我们在极度复杂的情况下,游刃有余地实现目标。
比如,搭乘地铁。
地铁是由许多站点和地铁线路组成的网络,从A点到B点,如何搭乘地铁?大脑需要计算。而且,随着站点、路线的不断增加,计算复杂性会呈指数级增长。大脑如何运作以至于不让自己因为情况的过度复杂而崩溃,并成功实现目标,正是人工智能和机器学习研究人员非常感兴趣的地方。或许,这可以帮助他们设计出更为聪明的机器算法。
动机
通过制定和执行计划,人类可以从事复杂行为,比如准备一杯咖啡或组织一次伦敦之旅。
什么是计划?
计划,通常被描述为一种精神活动,旨在找到一张互联网络,用这张网络来表示情节(episode)或状态(states)。
不过,从计算角度来看,计划是一种搜索所有潜在未来状态的活动。找出并评估这些未来可能的后果,我们穿越着一张由可能性组成的网络,迈出一步,接下来就面临着一些新的行动可能,以此类推。
因此,有观点认为,未来状态属于决策树,决策树上,每一个节点就是一个决策点,每一条分支就是潜在可能的反响。计划,相当于穿行于决策树的轨迹,这是根据长期累积的结果做出的选择。
这也是计算机解决围棋问题的办法:棋子落哪里?计算所有可能性及其结果,然后选择结果最好的。计算机算法已经成功地利用了这一策略,并在国际象棋和围棋等棋盘游戏中实现了专家级水平。比如,Alpha Go 的搜索算法将蒙特卡洛模拟与评估、决策网络综合起来,将非常复杂的搜索树减少到可操作的规模,让搜索少了些蛮力,多了点想象,击败了世界顶级围棋选手。
但是,自然环境远比游戏世界复杂。
怎样在不产生过高的计算成本的前提下根据多种未来状态组织行为?人类认知已经进化到了能够应对这样的难题。我们能够在多个时间尺度上构建并执行规划,比如,设想未来的职业道路并一步步实现目标。
此时,大脑内部情况如何?
根据现有的神经科学研究,当被要求完成这些多步骤任务时,前额皮层病变(PFC)患者往往会表现出无序的动作顺序,不能达成特定的目标;海马体病变患者也很难想象出未来状态。功能性神经成像(functional neuroimaging)已经证实,人类的前额叶和边缘结构会参与制定、执行计划,特别是在空间环境中。
不过,目前为止,我们对这些大脑区域在规划构建和执行过程中的计算机制仍知之甚少。Deep Mind 神经科学家团队想要用更加直接明了的方式,「看见」大脑相关区域的情况。
2016年,研究成果 Neural Mechanisms of Hierarchical Planning in a Virtual SubwayNetwork 发表在重要神经科学刊物 Neuron 上。
实验
研究人员借鉴了一个框架,这个框架以认知心理学为基础,不过,最近也深受机器智能进步启发。
该框架提出:可能状态的空间可以分层地组织和表示成一系列的聚类(cluster)或着条件(context),从而能降低规划的复杂性,以及在规划构建和规划执行的时候带来计算效率的实质性增长。
不妨想一下地铁交通图。站点(状态,state)被组织成线路(也就是条件,context)。
和在「扁平(flat)」的环境中规划不同,在分层环境中,规划行为不需要明确每一个连接当前位置与目标的状态。毋宁说,只要搞清楚当前的条件和通往下一个条件的一些要求就够了,比如,从A到B, 需要搭乘1号线到某站,再转乘2号线。
在机器学习中,可以转接到新条件的状态(地铁转乘站点)被视为一个「瓶颈(bottleneck)」,而且分层学习模型成功预测了:访问这些「瓶颈」会引发独特的行为模式和神经活动。
于是,和 DeepMind 之前的研究方式一样,研究人员用虚拟的导航游戏作为解码大脑计划决策过程的工具。
他们仿照伦敦地铁系统,作了一个虚拟的地铁地图,不同颜色的线路代表着更高一级的分层。22名受试接受了游戏训练,然后,通过按键的方式从一个站点移动到另一个站点,到达给定目的地。过程中,受试要接受fMRI检测。
研究人员确定了两个编码了分层规划表征成本的额叶皮质区,双侧运动前区前部(PMC)和 dmPFC。然后,通过分析行为和 fMRI(功能性磁共振成像)数据,他们想搞清楚,这些受试关注更多的是线路还站点?也就是说,人类的规划方式到底是怎么样的?分层方式(根据线路或条件)还是扁平方式(根据站点或状态)。
结果
最重要的发现:神经活动峰值对应着地铁线路以及转乘站,而与地铁站数的变化没有明显关联。这意味着,大脑正在根据条件(线路)进行计算,而不是详尽搜索站点之间所有可能路线。与此关联的 dmPFC 正好以支持更高水平的认知功能著称,比如计划,结果也与运动前区皮层有关,它更多地参与到了执行真实或想象中行动。
可以说,在规划过程中,人类是以分层方式编码地铁网络和制定规划的。
可以从dm PFC解码当前条件(context)。
有两个额叶区域观察到过神经成本(neural cost):一是 dmPFC 区域,对决策困难(或冲突)敏感;另一个区域是运动前区皮质(PMC)和前额叶皮质边界的侧额叶。
当参与者在换乘站(即瓶颈),有机会换乘线路时,这两个区域也都活跃了起来,这与 dmPFC 会响应子目标实现的研究发现是一致的。
这些区域在瓶颈状态(「换乘」站,参与者可以从一个背景切换到另一个背景)也有不同程度的活跃。通过多变量分析,我们发现 dmPFC 额外编码或监控了当前背景(即当前正被使用的地铁线路),这是执行分层规划所需的关键数量。
另外,研究人员还发现,大脑中有一块区域 vmPFC 与到达目的地的站点数量有很强的(正向)共变(covariation).
与前一发现相反,vmPFC以及海马体编码的是对某个目标状态的接近程度。比如说,快接近地铁1号线的目标站点时,这些区域会更加活跃。
vmPFC 与情节的未来思考有关,并被发现能够追踪涉及顺序、相互依存选择的决策中增长的预期回报。海马体之前也被发现,能与与目标的接近度共变。
但是,海马体和 vmPFC没有分层信号的证据。
未来
论文作者之一,Google DeepMind 科学家Jan Balaguer ,目前正在牛津大学完成博士学业。他说,较之以前的研究成果,我们的研究方法更加直接明了地证实了大脑的确是以分层的方式进行计划的。
「用机器学习方法解决难题以及现实生活中的问题,是我们的兴趣所在。而且,我们常常可以从神经科学汲取灵感。」
「我们希望了解大脑是如何实现诸如分层结构这样的事情,从中获取设计更加聪明算法的灵感。在机器学习中,用于决策的分层表征或许有利,但也可能适得其反,这取决于最开始是否选择实行了正确的分层。」
参考资料:
http://www.cell.com/neuron/fulltext/S0896-6273(16)30057-5
https://www.sciencedaily.com/releases/2016/05/160518125545.htm