【AI版摩尔定律】10张图盘点计算机视觉、语音和文本理解里程碑

简介: 现在的AI发展到什么水平了?我们总说“超越人类水平”,有没有一个量化的标准,来让我们理性的认识AI发展水平,刺破火热AI的迷雾?电子前沿基金会 EFF正在致力于这一方向研究。从近期微软宣布语音识别错误率降至5.1%,与人类水平相当谈起,这篇文章将介绍目前AI领域最为知名的发展水平衡量标准,涉及计算机视觉、文本理解、语音识别、翻译、游戏等多个方向。


image


现在的AI发展到什么水平了?我们总说“超越人类水平”,有没有一个量化的标准,来让我们理性的认识AI发展水平,刺破火热AI的迷雾?电子前沿基金会 EFF正在致力于这一方向研究。从近期微软宣布语音识别错误率降至5.1%,与人类水平相当谈起,这篇文章将介绍目前AI领域最为知名的发展水平衡量标准,涉及计算机视觉、文本理解、语音识别、翻译、游戏等多个方向。包括ImageNet、CIFAR-10、COCO等多个近年来受到广泛关注的数据集以及取得最好成绩的模型的介绍。

微软上周宣布,在语音转文字上,他们的软件取得了新的突破。在一个标准的电话语音通话数据库中,微软的系统的识别错误率为:每20个单词只有1个错误,这与人类的水平相当。

在一系列被人们认为是能证明人工智能的进步正在逐步加速,将大大促进经济增长的证据中,这一结果是最新的一例。

一些软件已经被证明在识别图像中的汽车或猫等对象上能比人做得更好,谷歌的AlphaGo软件已经战胜了多个围棋冠军 ,此前这被认为是需要十年或以上的时间才能实现的。各大公司都急切地希望基于这些进步获得发展,在各家企业的财报电话会议上,AI 被提及的次数更是呈现指数级的增长。


image


现在,一些AI观察者正在尝试制作更加精确的图,以展示这一技术是如何快速发展的,以及进步的速度如何。通过在不同的领域衡量AI的进步,他们希望能刺破AI泡沫和迷雾。这些项目致力于给予研究者和政策制定者一个更加清晰的视角,让他们能以最快的速度发现领域内哪些地方在快速进步,以及我们应该如何做出反应。

图像识别软件在2016年的标准ImageNet测试中超越了人类。非营利实验室SRI国际研究员Ray Perrault说:“需要这么做的一部分原因,是因为在关于AI 会走向何方这一话题上,人们有许多疯狂的想法”。他是一个名为“AI指数”的项目的领导者之一,其目的是在年底前发布一份关于该领域进展情况的详细情况。该项目得到了2015年在斯坦福大学建立的“人工智能百年研究”的支持,以检验人工智能对社会的影响。

关于 AI 取得进步的声明几乎是无处不在的,即使是在快餐和牙刷的营销人员口中。另外,对于那些拥有最坚实的研究团队发布的成果,我们也很难去评估。

去年10月,微软就首先公布在语音识别上达到了人类的标准,但是,IBM和众筹公司 Appen紧接着就公开宣称,人类能做到的准确率要比微软所声称的高得多。接下来,微软不得不其错误率再降低12%,以达到“人类水平”(human parity)。

注:微软最开始宣布语音识别错误率为6.3%,一个月后宣布达到5.9%,最近一次宣布错误率已经降到了5.1%。

AI指数:记录AI发展里程碑的10张趋势图

EFF是一家致力于保护公民自由免受数字威胁的电子前沿基金会,他们已经开始自己的努力来衡量和理解AI的进展。这家非盈利组织正在梳理微软等等机构的论文,以组建一个开源的、在线的数据库,以衡量的AI进度和表现。 EFF的首席计算机科学家Peter Eckersley表示:“我们想知道AI真正发展到什么地步了,哪些是紧急的任务,哪些是长期的目标,而不是只知道那些让人们过度兴奋的投机版本的AI。”

EFF的数据库包含了从2012年起图像识别快速进展的图表,还有一个图,是关于让软件理解儿童读物的测试,这能让我们了解人类和机器在这一任务上的差距。 “ AI指数”项目正在努力绘制AI子领域趋势图,将最受研究员关注的趋势表现出来。

视觉

1. ImageNet

视觉我们将介绍最知名的10个标志性事件,首先就是大名鼎鼎的ImageNet,大家都知道,ImageNet在2017年是最后一届了。


image
image

EFF的统计表中列出了从2010年到2017年,ImageNet图像识别竞赛中取得突破的情况。2014年的VGG和2015年的MSRA是两大比较有代表性的突破,其中2015年MSRA的突破,正式将机器对图片的识别错误率降到了人类水平。

2. CIFAR-10 和 CIFAR-100

CIFAR-10 数据库包含了6万张32X32的彩色图像,有10个类型,每个类型有6000张图片。共有5万张训练图像和1万张测试图像。CIFAR-100和 CIFAR-10类似,不同点在于,其类型有100个,每个包含600张图片。

image
image


CIFAR-10 中,取得达到人类水平的突破也是发生在2015年之后。下面是具体的算法和准确率:


image
image
image


此外,EFF还列出了MNIST 手写识别、MSRC-21、STL-10和SVHN等视觉和图像数据集上几年来的表现,包括算法和论文,详情点击:https://www.eff.org/files/AI-progress-metrics.html#Vision

值得一提的是,视觉问答数据集COCO上的成绩:


image


游戏

游戏部分分为:抽象策略游戏和实时视频游戏(各种Atari游戏)。较为有代表性的有:

  1. 抽象策略游戏(计算机象棋程序)


image


语音识别


image


该数据集上近三年来不断刷新新纪录的算法:


image

语言建模与理解

image

翻译


image
image


对话:聊天机器人与智能体

image

阅读理解

image

上文提到的视觉、游戏和语音识别等。新智元了解到,EFF目前对AI发展的能力衡量分为以下11个部分:

  1. 玩游戏
  2. 视觉与图像建模
  3. 文本语言
  4. 对话语言
  5. 音乐信息复合
  6. 科学和技术能力
  7. 学习:正则化、迁移学习和单次学习
  8. 安全
  9. 透明性和可解释性
  10. 公正与去偏见
  11. 隐私问题

更多内容,可点击 https://www.eff.org/files/AI-progress-metrics.html#Vision

趋势图的价值:创造AI版的“摩尔定律”

AI 指数还将尝试监测和衡量人工智能在现实世界中的工作。 Perrault说,例如,将使用该技术的工程师的数量和以AI为中心的公司的投资在图表中进行体现可能是有用的。

他的目标是“了解这项研究对商业化产品有多大影响”,他说。尽管他承认公司可能不愿意发布数据。人工智能指数项目也在跟踪媒体上报道的数量和情绪以及公众对AI的关注。

Perrault说,该项目应该会赢得广泛的观众,因为研究人员和资助机构非常迫切地想看到AI的哪些领域有最大的发展势头,或哪些领域需要支持和新的想法。他表示,银行和咨询公司已经呼吁,需要更好地处理人工智能的真实情况。科技行业与摩尔定律的数十年的“蜜月期”, 证明了AI进展的路线图将能在硅谷找到观众。

至于这一衡量方式会对政府官员和监管机构应对智能软件在隐私等方面的影响能有多大的帮助,现在还不清楚,华盛顿大学法律系教授 Ryan Calo表示:“我不知道它会有多么有用。”他最近提出了AI政策问题的详细路线图。他认为,决策者需要对底层技术进行深度的了解,而且需要强有力的价值观,而不是对细微的进步进行监控。

EFF的 Eckersley 认为,AI 追踪项目将随着时间的推移变得更加有用。例如,有关失业问题的辩论可能会通过关于软件程序如何快速推动某些工作人员的核心任务进行自动化的数据而被提及。Eckersley说,看这个领域的进展情况已经有助于说服他自己,让AI系统更加可信赖是多么的重要。他说:“我们收集的数据表明AI系统的安全性是一个相关甚至紧迫的研究领域。”

学术界和谷歌等公司的研究人员最近已经调查了如何欺骗人工智能软件,并防止它的错误行为。随着各家公司都在急切地用软件来控制诸如汽车等更为普遍的技术上,如何使其可靠和安全可衡量的进步可能是最重要的。

原文发布时间为:2017-08-31
编辑:胡祥杰
本文来自云栖社区合作伙伴“新智元”,了解相关信息可以关注“新智元”微信公众号
原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
84 9
|
26天前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
35 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
13天前
|
人工智能 自然语言处理 监控
AI技术在文本情感分析中的应用
【10月更文挑战第22天】本文将探讨人工智能(AI)如何改变我们对文本情感分析的理解和应用。我们将通过实际的代码示例,深入了解AI如何帮助我们识别和理解文本中的情感。无论你是AI新手还是有经验的开发者,这篇文章都将为你提供有价值的信息。让我们一起探索AI的奇妙世界吧!
34 3
|
26天前
|
人工智能 搜索推荐 API
用于企业AI搜索的Bocha Web Search API,给LLM提供联网搜索能力和长文本上下文
博查Web Search API是由博查提供的企业级互联网网页搜索API接口,允许开发者通过编程访问博查搜索引擎的搜索结果和相关信息,实现在应用程序或网站中集成搜索功能。该API支持近亿级网页内容搜索,适用于各类AI应用、RAG应用和AI Agent智能体的开发,解决数据安全、价格高昂和内容合规等问题。通过注册博查开发者账户、获取API KEY并调用API,开发者可以轻松集成搜索功能。
|
26天前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
65 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
26天前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
25 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在文本生成中的应用与挑战
【9月更文挑战第11天】本文将深入探讨人工智能在文本生成领域的应用及其面临的挑战。我们将通过实际案例分析,了解当前技术如何影响内容创作,并讨论未来可能的发展方向。文章旨在为读者提供一个关于AI文本生成技术的全面视角,包括其优势、局限及潜在影响。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在文本情感分析中的应用
【8月更文挑战第40天】本文将深入探讨人工智能在文本情感分析领域的强大应用。我们将从基础概念出发,逐步深入到技术实现,最终通过一个Python代码示例具体展示如何使用自然语言处理库进行情感分析。文章旨在为读者提供一个清晰的指南,了解并实践如何利用AI技术解读和评估文本中的情感色彩。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
AI计算机视觉笔记三十二:LPRNet车牌识别
LPRNet是一种基于Pytorch的高性能、轻量级车牌识别框架,适用于中国及其他国家的车牌识别。该网络无需对字符进行预分割,采用端到端的轻量化设计,结合了squeezenet和inception的思想。其创新点在于去除了RNN,仅使用CNN与CTC Loss,并通过特定的卷积模块提取上下文信息。环境配置包括使用CPU开发板和Autodl训练环境。训练和测试过程需搭建虚拟环境并安装相关依赖,执行训练和测试脚本时可能遇到若干错误,需相应调整代码以确保正确运行。使用官方模型可获得较高的识别准确率,自行训练时建议增加训练轮数以提升效果。

热门文章

最新文章