能否打开人工智能的“黑箱”?

简介:



Dean Pomerleau还记得自己第一次遭遇“黑箱”的经历。那是1991年,他当时正开创性尝试如今已是自动驾驶汽车研究中司空见惯的问题:教会电脑如何开车。


Pomerleau手握一辆经过特别改装的悍马军车的方向盘在城市中行驶。当时,他是美国卡内基·梅隆大学机器人专业的研究生。而与他同行的是一台经过其编程的计算机,能通过摄像机查看路况,解读交通状况,并记下Pomerleau对各种状况的应对方式。Pomerleau希望这台机器最终能自己掌握方向盘。


在每次行程中,Pomerleau都会先对系统做几分钟训练,然后让它自行驾驶。一切似乎都进展顺利,直到有一天,悍马在一座桥头突然偏向一侧。他敏捷地抓住了方向盘,这才避免了一场事故。


回到实验室,Pomerleau试图弄清电脑哪里出错了。“我论文的部分内容就是打开黑箱,搞清楚电脑在想什么。”他解释道。但该怎么做?他将计算机功能编程为“神经网络”—— 一种以大脑为原型的人工智能(AI),它有望比常规算法更适合应对复杂的现实情况。


不幸的是,神经网络和大脑一样是不透明的。它也没有将学到的东西条理清晰地储存在数字记忆中,而是以一种极难解的方式散布信息。在全面测试了软件对各种视觉刺激的反应后,Pomerleau才发现了问题:他的“神经网络”一直在使用长草的路沿作为道路方向的指示,所以才被桥的出现给迷惑了。


打开黑箱


25年后,破解黑箱的难度呈指数上升。但该AI技术本身的复杂性和应用范围也经历了爆炸式增长。现在,Pomerleau在卡内基·梅隆大学兼职教授机器人学,他说,比起今天的计算机上的巨型神经网络,他的系统只能算是个简陋的低配版。用海量数据训练AI深度学习的技术也已投入到各种商业应用,从自动驾驶汽车到根据用户的浏览历史推荐商品的网站,都能见到它的身影。


该技术还有望在科研中大显身手。未来的射电天文台也需要深度学习,寻找值得探测的信号,否则将无法处理海量信息;引力波探测器需要用它理解和排除最微弱的噪声源;出版商将会用它检索和标记数以百万计的研究论文和书籍。


一些研究者认为,能进行深度学习的计算机最终或能表现出想象力和创造力。“把数据交给机器,它便会推理出自然法则。”加州理工学院物理学家Jean-Roch Vlimant说。


但这些进展只会让黑箱问题显得更突出。例如,这些机器如何找到有价值的信号?人们怎样才能确定机器是对的?人们对深度学习的信任应到什么程度?


“在这些算法面前,我觉得我们正在丢失阵地。”哥伦比亚大学机器人专家Hod Lipson表示。他把这比作外星生物,它们不只看到红绿蓝三原色,还有第四种颜色,要想让人类理解它们看世界的方式,或是让外星人向人们解释其方式都非常困难。计算机向人们解释问题也面临类似困难。“在某种程度上,这就像向狗解释莎士比亚的作品一样。”


面对这些挑战,AI研究者采取了和Pomerleau一样的应对方式——打开黑箱,用相当于神经科学研究理解其中的网络。但欧洲核子研究中心(CERN)一位物理学家Vincenzo Innocente表示,答案无法让人豁然开朗。Innocente是在粒子物理学领域应用人工智能的先锋,他提到,“作为科学家,我对仅仅将小猫和小狗区分开来是不满意的,科学家会希望能说出区别到底在哪里。”


卷起袖子做硬科学


历史上第一个人工神经网络出现在上世纪50年代初,几乎与有能力执行算法的计算机同时产生。人工神经网络的思路是模拟排列成不同层次的小计算单元(也就是“神经元”)与大量数字“突触”相连。底层的单元会收集外部数据,然后将信息传递给下一层次的单元。这些单元随后会根据简单数学法则整合输入的数据,然后将结果向上传递。顶层最终会给出答案,比如判断图形到底是猫还是狗。


这类网络的优势在于其学习能力。有了附带正确答案的训练数据集,该网络便能调整每层连接的强度提升其表现,直到顶层的输出结果也是正确的。这一过程模拟了大脑通过强化或弱化突触学习的过程,最终得到能成功归类非训练集数据的网络。


但这种学习方式也是网络中信息分散的原因:就像人脑,记忆是在许多连接中编码的,而非储存在固定位置。“你手机号的第一位存在大脑的哪里?也许是在一堆突触中,也许离存储号码中其他数字的地方不远。”加州大学欧文分校机器学习专家Pierre Baldi说。


对需要在各自学科中处理大数据的科学家而言,这使得深度学习成了一种需谨慎使用的工具。为了理解原因,英国牛津大学计算机学家Andrea Vedaldi让人们想象这样的情景:在不久的将来,人们用乳房X光片训练深度学习网络。经过训练后,一位外表健康的女性的乳腺组织在机器“看来”或许已经有了患癌的迹象。“该网络或许暗中学会了辨认标志物能预测癌症。”他说。


但如果机器无法解释它是怎么知道的,Vedaldi说,就会给医生和病人带来严重困扰。对女性来说,因为会显著提升乳腺癌风险的遗传变异而选择乳房切除术已经够难了,但如果连风险因素是什么都不知道,做这样的选择就更困难了。


2012年,一些研究团队开始研究这类黑箱问题。加拿大多伦多大学机器学习专家Geoffrey Hinton,领导团队参加了一场计算机视觉竞赛,他们首次表明,从含有120万张图像的数据库中分类照片,深度学习法强于任何其他AI方法。


为了探索这一点是如何实现的,Vedaldi团队反向运行了Hinton的算法,使用了事先经过训练的网络,试图重建产生这些解读的图像。这有助于研究者识别出机器如何表现不同特征的。这就好像是在询问检测癌症的网络:“你认为这张乳房X光片上的哪个部分是癌症风险的标志物?”


不过,2014年,怀俄明大学计算机科学家Jeff Clune团队使用了能放大所有神经元、而不仅仅是顶层神经元反应的方法,并发现黑箱问题可能比人们之前所想的更为严重:神经网络很容易被在人类看来是随机噪声的图像,或是抽象的几何图形愚弄。

研究者提出了一些方法来解决愚弄问题,但目前还没有找到通用方法。在现实生活中,这很可能潜藏着危险。Clune说,尤为令人恐慌的是,黑客也能学会利用这些漏洞,他们可以让自动驾驶汽车认为广告牌是公路而一头撞上去。“我们得卷起袖子做硬科学研究,让机器学习更强大、更智能。”Clune总结道。


放开双手


去年,英国剑桥大学机器学习研究者Zoubin Ghahramani发表了一种能将数据科学家工作自动化的算法——从检查原始数据到写论文都能完成。该软件名叫自动统计学家,能发现数据集中的趋势和异常,呈现结论,其中还包括对推论方式的详细解释。Ghahramani提到,这样的透明度对科学应用来说是至关重要的,对许多商业应用也很重要。


但黑箱也会引发担忧。大数据公司Arundo Analytics的数据科学主管Ellie Dobson表示,许多机构都有类似的关注。例如,如果调整英国利率造成了什么不好的后果,“英格兰银行总不能说,‘是黑箱让我这么干的’。”她说。


计算机科学家认为,尽管存在种种担忧,但开发透明AI应被视为深度学习方法的补充,而不是替代。他们表示,一些透明方法或许适用于已经被描述为一系列抽象事实的问题,但并不适用于感知,也就是从原始数据中提取事实。


无论如何,这些研究人员指出,机器学习给出的复杂答案是必不可少的科学工具,因为真实世界就是非常复杂的。例如,对天气或是股票市场来说,综合、简化的描述可能并不存在。“有一些事情是无法用语言描述的。”巴黎综合理工学院的应用数学家Stéphane Mallat说,“如果你问医生是如何做诊断的,医生会告诉你一些理由,但人们为什么要用20年才能成为优秀的医生呢?因为信息不仅仅在书本中。”


Baldi认为,科学家应该拥抱深度学习技术,而不必太介意黑箱问题。毕竟,所有人的脑袋里都有一个黑箱。“人们一直在使用大脑,也始终相信大脑,但并不知道它是怎么工作的。"

原文发布时间为:2016-12-25


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
人工智能 算法 数据安全/隐私保护
AIGC变革下人工智能平台的算法黑箱问题
AIGC变革下人工智能平台的算法黑箱问题
756 1
AIGC变革下人工智能平台的算法黑箱问题
|
9月前
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能应用领域有哪些
本文全面探讨了人工智能(AI)的应用领域和技术核心,涵盖医疗、交通、金融、教育、制造、零售等多个行业,并分析了AI技术的局限性及规避策略。同时,介绍了生成式人工智能认证项目的意义与展望。尽管AI发展面临数据依赖和算法可解释性等问题,但通过优化策略和经验验证,可推动其健康发展。未来,AI将在更多领域发挥重要作用,助力社会进步。
|
11月前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
310 21
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
268 11
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
869 0
|
11月前
|
机器学习/深度学习 数据采集 人工智能
人工智能在变更管理中的应用:变革的智能化之路
人工智能在变更管理中的应用:变革的智能化之路
483 13
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
机器学习/深度学习 人工智能 自然语言处理
探索未来编程:Python在人工智能领域的深度应用与前景###
本文将深入探讨Python语言在人工智能(AI)领域的广泛应用,从基础原理到前沿实践,揭示其如何成为推动AI技术创新的关键力量。通过分析Python的简洁性、灵活性以及丰富的库支持,展现其在机器学习、深度学习、自然语言处理等子领域的卓越贡献,并展望Python在未来AI发展中的核心地位与潜在变革。 ###

热门文章

最新文章