陆奇对话Gary Marcus:面对技术缺陷、伦理争议和实践缺失的当下,如何构建可信AI?

简介: 新冠疫情是一个警钟,提醒我们要去构建信任度 90% 以上的 AI。


微信图片_20211204003153.png


当人类第一次仰望星空的时候,离文明就不远了。对于当下的 AI 来说,也是如此。席卷全球的疫情释放出信号和警告,我们需要一个新的 AI 剧本。
过去我们花了太多时间开发销售广告的 AI,从现在开始,不妨重新评估未来几十年,我们到底需要打造一个什么样的 AI?如何以我们想要的方式实现更为美好的 AI?对这一 「重启(reboot)」 问题的多维思考,串连起 「围炉夜话」 的所有环节与亮点。


7 月 10 日晚间八点,WAIC· 开发者日正式启动,作为开场的特色环节,机器之心与上海交通大学人工智能研究院联合邀请到了奇绩创坛创始人兼 CEO 陆奇和 Robots.AI CEO 兼创始人 Gary Marcus 进行高峰对话。


此外,在「Demo Day」环节,一系列优质的开源项目陆续登场,除对主流开源工具及框架的探讨外,还有实践中的热门方向,比如人脸图像、热门游戏开源项目等。企业内部的开源及技术框架也成亮点之一,比如阿里巴巴的淘系技术部无限开发专家吴子奇分享路关于 MNN 的部署实践。


而当我们将目光从技术角度转移到整个 AI 产业,会发现 AI 尚处于无法被完全信任的状态,这无疑将阻挡 AI 应用开发的脚步。


比如,深度学习主导下的机器无法灵活的处理不可预知事件,隐私、偏见、版权等伦理问题一次次引发舆论风暴。放眼学界和业界,可复制性审查的缺失和巨头重度垄断的市场都在阻碍行业往前进。


针对这些问题,陆奇和 Gary Marcus 带来了不少精彩观点。对话首先探讨了深度学习的局限性。在 Gary Marcus 看来,现有的深度学习训练方式是在用数据代替机器本身的思考,无法让其对世界有更深层的感知和推理。相比深度学习,「常识推理」是训练 AI 更有效的方法,可从思维方式上改变机器的认知水平。


在 AI 伦理方面,对话直面了近日陷入舆论漩涡的隐私和偏见问题。Gary Marcus 认为,利用分布式学习框架的「联邦学习」可以有效解决数据获取和隐私保护间的矛盾。而 AI 的偏见是由数据本身的不平衡产生,除非能训练 AI 理解数据背后的含义,否则偏见问题还无法解决。


在大多数人的观念中,要解决这些伦理问题,AI 应该朝着 Artificial General Intelligence(通用人工智能)努力。但 AGI 太遥不可及,Gary 认为目前我们的目标应该是「稳健的人工智能」,比如创造一个可以对物理世界进行推理的系统。


如何创建?从学术届的角度来说,应当改革激励机制,鼓励「可复现性」的项目研究;而从 AI 市场来看,则需要改变垄断现状,将巨头公司拆分为多个创业项目,激发市场活力。


一、技术重启:深度学习做的远远不够


当陆奇问到「人工智能在疫情中的应用潜力时」,Gary 的回答是,「AI 做的远远不够。」


在 Gary 的设想中,人工智能的未来方向是在更深层的科研方面帮助人类,它应当可以阅读文献,学习医学、生物学和化学,帮助人类筛查药物,在无需人体测试的情况下通过计算机模拟了解药物安全性,或者筛查新冠病毒论文并判断研究价值。但目前机器最多只可以根据关键词筛选论文。


在深度学习成为人工智能主导的这些年里,机器感知世界的方式就是数据,它需要大量的数据认知物体,行动也需要依靠设定好的程序。


所以,当碰见新冠病毒者这类缺乏庞大数据库的新型疾病时,机器的作用就会非常有限。


学界一直存在对深度学习的批判,如果一直用大量数据代替真正的思考,机器将永远无法像人类一样进行感知和推理。


Gary 举例说,「我现在看见的画面中间有一个红色的水瓶,我没有看见任何支持它的东西,但用物理学常识预测,它肯定不是漂浮在空中,我可以猜测他是稳定的,但是机器不能。」


同样的,机器也无法处理突发情况,正如 AlphaGo 击败人类围棋大师时流传的那则笑话,「当房间着火的时候,我们的机器人可以下出超人一般的围棋棋步。」——人类拥有关于这个世界的基本知识(火很危险),同时还有推理的能力(应该远离火),但机器没有。


如何做到?Gary 给出的回答是,「用常识推理训练机器」,机器不聪明的关键是其不像人类一样拥有世界的常识。


回望 20 世纪 60、70 年代,当时的科学家们并非用数据训练机器,而是尝试教给机器关于世界的常识,让其用逻辑做一些简单的推理。


比如,麦卡锡提出的 Advice Taker 是世界上第一个解决常识知识的人工智能程序,它想让机器做的推理是,「因为想让别人吃蛋糕而去烤蛋糕。」「因为 tweety 是一只鸟,所以 tweety 会飞。」


「任何想要进入人工智能领域的人都需要透过现在回望过去。」Gary 说。在当今时代,尤其是当今的中国,我们拥有极其庞大人类交互数据库,比如微软小冰,每月有上亿人与之聊天,如何利用这些数据库让机器了解世界的常识,进而拥有思想,才是现代科学家应该做的事情。


Gary 所说的机器理解常识在现阶段还无法做到,但已经有一些公司在往这个方向努力。比如 Gary 创建的公司 Robust.AI 一直在将深度学习与符号人工智能结合,培养机器的逻辑思维。


Cyc 项目沿用的传统的常识教授方法,雇佣了来编写 2500 万条常识性规则,比如「水是湿的」或者「大多数人都知道他们朋友的名字」。这让 Cyc 能够推断:「如果你的衬衫湿了,所以你可能是在雨中。」


二、伦理重启:隐私、偏见与版权,AI 会走向何方?


谈及 AI,一个不可忽视的问题就是伦理,人工智能的发展似乎一直伴随着伦理争议。在新冠疫情肆虐的背景下,AI 引发的伦理似乎更加严重。


陆奇和 Gary 的对话并没有回避这个敏感问题,而是就隐私、偏见、版权侵犯等极受争议的领域进行了反思与探讨。


联邦学习:数据与隐私的两全法


在新冠肆虐的背景下,许多组织都开发了追踪者应用程序,但受到了不少隐私捍卫者的反对,最后苹果和谷歌联手推出了蓝牙追踪项目,利用蓝牙将用户信息匿名传播到云上。


但关于人工智能与隐私问题的讨论从未停止。西方有《欧盟通用数据保护条例》,今年 4 月,国务院也在《关于构建更加完善的要素市场化配置体制机制的意见》里,强调了数据的共享、数据资源的整合和安全保护。


不管是个人应用还是 2B 项目,都面临着隐私保护与数据孤岛问题。「如何看待人工智能与隐私保护的矛盾?」陆奇问到。


这方面的技术也的确迎来不少突破,Gary 认为,「联邦学习」是解决隐私问题的一个可行的办法。


联邦学习的本质是用分布式机器学习技术,从群体中抽离个体信息。在联邦学习框架中,参与者的边缘设备产生的数据会保存在本地,设备会根据本地数据训练本地机器模型,然后根据一定的通信机制向中央服务器传输模型参数等数据,(模型参数并非客户端原始数据。)由此一来,中央处理器就可以在边缘设备不贡献数据的情况下训练构建全局模型。


「如果我们走到符号层面,你可以抽想出需要了解到场景,而不侵犯特定个体到个人隐私。」Gary 说。


不会思考机器:傲慢与偏见如何解?


隐私之外,一个更受争议的伦理话题是偏见。今年的弗洛伊德事件、杜克大学 PULSE 算法事件以及巨头纷纷下架人脸识别应用等都将人工智能偏见推到了舆论漩涡中。


「在你看来,是否可能存在不带偏见的人工智能应用算法或系统?」陆奇问。「现在没有,也许最终会有。」Gary 说。在他看来,人工智能存在偏见的原因是,机器只是在反馈过去的事情。


「如果你有一个根据过往信息获取优秀程序员的系统,你输入一个芭蕾舞演员,由于系统中没有芭蕾舞演员信息,最后得出的结论便是此人不适合成为程序员。这其中更深层次的原因是以往的教育是芭蕾舞演员不应进入编程领域。」社会观念在进步,但机器只会机械性的按照历史数据做出判断,但历史数据本身就是带有偏见的。


「唯一的补救方法就是常识推理。」Gary 认为,只有常识推理才能让机器具备更深层次的理解能力,思考他们正在处理的问题。


「我不认为这是无法解决的,但我认为这至少需要十年。我们目前所掌握的技术距离这一目标相去甚远。」


被轻易篡改的真相:技术与版权如何平衡?


隐私和偏见是目前争议较大的两个伦理问题,除此之外,人工智能还有一些未被重视但同样有隐患的问题,如版权侵犯。


这类问题容易通常发生在生成模型中,比如 AI 换脸。2017 年 deepfake 横空出世,随之而来是各类伦理问题,不少女明星的脸被换到色情电影中,2019 年 ZAO 的出现降低了换脸门槛,也让肖像权侵犯现象更加泛滥。除了肖像问题,生成模型还在不断侵入影视、音乐和文学创作领域,会更改原本的内容侵权作者版权。


「关于能够生产更改内容的 AI 模型,你的观点是什么?」陆奇问。相比于版权侵犯,Gary 认为更严重的问题人工智能会很容易的制作虚假内容。


「你可以做一个视频,Gary Marcus 说,深度学习是有史以来最棒的事。然后断章取义的把它剪下来。人们无法分辨视频的真假,无法辨别我是讽刺的口吻还是开玩笑的语气。」


用伪造的内容掩盖原本的真相,这是技术发展需要付出的代价之一。但我们并没有相应法律基础来保护人们的权益。


三、处在青少年时期的人工智能


「在某种程度上,我们正处于人工智能历史上最糟糕的时刻。」Gary 说。往前看,AI 正处于发展早期,伦理问题尚未暴露出,往后看,人工智能已经强大到足够解决这些问题。


Gary 将目前人工智能所处阶段比为「青少年」,它是一个突然变强大的少年,野蛮生长,但对世界尚缺乏足够的理解能。


这个阶段我们应该做的不是让其停止生长,而是规范他的行为,引导他成年。那么,人工智能要如何走向未来?


我们对成年人工智能的最完美的想象就是 Artificial General Intelligence(通用人工智能),那时机器人将具有一般人类智慧。


「我们离 AGI 还有多远?如何向 AGI 前进?」陆奇问。


在 Gary 看来,AGI 是非常遥远的事情。「AGI 远远超过了我们目前的理解范畴,目前我们必须选择更简单的问题,比如创造一个可以对物理世界进行推理的系统。这很难,可能需要 20 年才能实现,但起码我们可以看到问题是什么。」这个更简单的问题,用 Gary 的话来说就是「稳健的人工智能」,比如可以让一辆车能在各种条件下行驶不发生意外,在家庭工作中能处理意外情况。


四、实践重启:可复现性与垄断破除让 AI 更稳健


在实践中,我们如何实现稳健的人工智能?


陆奇首先将目光放到了学界,提出了关于「可复现性」的问题。「我们是否应该要求论文作者描述他们的实验系统和过程,以便评审人员和社区能够复现其结果?哪些重要且必要的步骤能够使 AI 研究向更稳健的方向发展?」


关于可复现性,Gary 的观点十分明确,「如果你研究的是真正的科学,那么你必须具备可复现性。如果你构建的项目只在特定情况下有效,那它只是个玩具。」可复现性可让后人踩着前人的脚步,推动这个学科慢慢往更高的方向发展。但就陆奇的亲身体验而言,人工智能领域对可复现性的要求基本不存在。


Gary 认为这种现象的原因是激励机制出现问题。科学家获得研究经费的前提是在某个知名期刊中发表引人注目的结果,这会导致科学家倾向于追求结果而忽略实现的过程。


追求夺人眼球的结果于个人有益,但对集体无益。「集体的利益来自于不断研究真正的科学,这与个体获得奖励的方式截然不同。我认为在科学的某些方面,系统的整体结构设计是面向集体的。」


Gary 举了艾伦脑科学研究所的案例,该研究所就致力于机器「常识推理」研究,从成千上万个在线故事、博客和习语条目中提取短语事件训练机器,让机器学习从未见过的句子,并推断句子的情绪或意图。


这类的工作是一群人为一个共同的使命努力,对可复现性要求极高,无法在短时间内让个人取得明显的成就,但放在一个更长的周期中,却可以推动整个人工智能领域的进步。


但情况会逐渐变好。Gary 认为,很多行业都经历着从忽视到激励可复现性的转折。


「这种变化已经在心理学领域发生,医学领域也即将发生,在人工智能领域,人们也逐渐意识到了这一点。」


当我们把目光从学术界转至业界,会发现仍然阻碍健康人工智能发展到因素仍然存在,最主要的就是垄断。目前谷歌、苹果、亚马逊等巨头已经垄断了大多数科技领域市场,并且会通过收购、兼并等方式持续排挤竞争对手,扩大市场,亚马逊 13 亿天价收购 Zoox 就是一个典型案例。


「你是否有建议,能让创业公司在巨头环伺的情况下更好的抓住创业机会?」陆奇问道。


「我没有神奇的解决办法。」Gary 说。客观来看,巨头拥有压倒性的人才、资金、技术等竞争优势,他们开出的收购价格也很难让创业公司拒绝。


可垄断状态并不利于一个行业的健康成长,「大公司通常不擅长创新,他们擅长消耗掉所有的资源,他们通常有很多既得利益股东需要回应。」


从内部来看,公司成长到一定规模时,就容易涉及到股东利益竞争。资本家对眼前经济利益的追求可能会迫使公司做出短视的决策,美国曾经的电信巨头 AT&T 的陨落就是鲜明的例子。


从整个市场看,资源的垄断会阻碍创业公司的入场,缺乏充分竞争的情况下,行业发展容易裹足不前。


要解决垄断问题,似乎只能从垄断者本身入手,「从整个社会角度来看,给将巨头拆分为不同的初创公司或许是可行的办法。」Gary 说。


尾声


回顾整篇对话,陆奇和 Gary 聚焦的问题就是「重启 AI」,从技术、伦理、规范等角度探讨了如何才能构建一个更稳定的 AI。


今天的人工智能已经发展到了一定高度,但与我们想要实现的人工智能相比,还是缺乏安全性和稳定性。


「我们目前的技术可以以 90% 的准确率解决某个问题,对广告推荐这类问题而言已经足够,但在自动驾驶、照顾祖父母等场景中,90% 的信任度远远不够。我们必须思考,如何才能将准确率提高到 90% 以上,如何构建值得信任的人工智能。」

「我希望更广泛的世界能够考虑到处理这些关键任务到人工智能,它们可以改变世界,但需要更高程度的安全性。希望 5 年、20 年、50 年之后,我们真的可以做到这些事情。」今天下午,开发者日主论坛将于13:00-18:15进行,图灵奖得主、院士与技术专家将带来9场主题演讲,WAIC云帆奖、人工智能开源开放报告将重磅发布,我们也将送出150本专业书籍,添加机器之心小助手(syncedai6),入群一起看直播、拿赠书。


微信图片_20211204003158.png

相关文章
|
2天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
20 4
|
2天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
5天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
5天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第33天】随着人工智能技术的不断发展,其在医疗领域的应用也越来越广泛。从辅助诊断到治疗方案的制定,AI技术都发挥着重要作用。然而,随之而来的挑战也不容忽视,如数据隐私保护、算法的透明度和可解释性等问题。本文将探讨AI技术在医疗领域的应用及其面临的挑战。
11 0
|
4天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
77 48
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
4天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
1天前
|
传感器 人工智能 算法
AI在农业中的应用:精准农业的发展
随着科技的发展,人工智能(AI)在农业领域的应用日益广泛,尤其在精准农业方面取得了显著成效。精准农业通过GPS、GIS、遥感技术和自动化技术,实现对农业生产过程的精确监测和控制,提高产量和品质,降低成本和环境影响。AI在作物生长监测、气候预测、智能农机、农产品品质检测和智能灌溉等方面发挥重要作用,推动农业向智能化、高效化和可持续化方向发展。尽管面临技术集成、数据共享等挑战,但未来前景广阔。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
42 11

热门文章

最新文章

下一篇
无影云桌面