NVIDIA 深度学习部门总监 Jim McHugh :AI 驱动下的大数据之路已铺好

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

编者按:无论是打败世界冠军的 AlphaGo,还是百度无人驾驶、阿里和腾讯的人工智能都在使用 NVIDIA 的芯片组,它在人工智能领域扮演着大脑的角色。无论软件公司研究出多么先进的算法,最终都需要处理器来进行运算,没有它们的支持,人工智能的良性发展也就无从谈起。

最近,NVIDIA 深度学习部门总经理 Jim McHugh 接受了国外媒体 InsideBigdata 的访谈。从他在 2016 年纽约 Strata + Hadoop World 大会上的发言开始谈起,Jim 讲述了他对 AI 驱动下的大数据之路的总体理解以及 NVIDIA 公司的战略发展前景。文章原标题为 《 Interview: Jim McHugh, GM of the Deep Learning Group at NVIDIA 》,作者 Daniel D. Gutierrez 。由雷锋网(公众号:雷锋网)编译而成,未经许可,不能转载。

NVIDIA 深度学习部门总监 Jim McHugh :AI 驱动下的大数据之路已铺好

NVIDIA 深度学习部门总经理 Jim McHugh,图源:siliconangle

Jim McHugh 是 NVIDIA 深度学习部门的灵魂人物,在他的领导下,NVIDIA 推出了全球首款单机箱深度学习超级 AI 计算机 DGX-1。他的职责包括产品管理、产品营销以及提供合作伙伴解决方案。Jim 专注于为数据中心提供一些基于 GPU 的计算战略。作为市场商业执行、技术领导者,他已经有 25 年的实战经验,包括在苹果、思科等大公司担任重要职位的经历。Jim 对商业驱动因素、AI 驱动下的技术和产品,以及市场/客户动态有着深刻的见解。以下为本次访谈具体内容:

记者:

请简要介绍一下 NVIDIA 在本次会议上做的事情,并且就此次大会中所探讨的问题发表下见解。

Jim McHugh:

这对我们来说是件有趣的事情。昨天我在 O'Reilly 国际联盟举办的人工智能研讨会上发表了一个主题演讲。来自世界各地的 AI、大数据领域的学者和专家都参与了这次会议的探讨。谷歌在这方面很有代表性,我们已经有人正在关注人工智能的道德伦理问题。在这里,我们都在探讨一种 “加速数据分析”的概念以及它能够如何改变我们现在的人工智能格局。

说到这个,我不得不提到 Kinetica、MapD、SQream 和 BlazingDB 数据库以及一些分析组件。它们能够让你在几毫秒中完成运算。通常情况下,人们进行每次搜索时大概需要花费十几秒的时间才能得到答案,而现在,我们探讨的是能让你在几毫秒中完成对一个界面的数十次的搜索查询。以前,你花费 10 几秒的时间搜索查询所使用的很可能是 x86 处理器。而现在,人们无法想象我们的数据分析能力有多快。它真正地改变了一些东西,并且确实克服了人们在很长一段时间内在大数据领域遇到的瓶颈问题。

记者:

除了本次大会。你还参加过其他什么会谈吗?

Jim McHugh:

现在的格局是在不断变化的,我觉得这让人兴奋。在过去两年,分布式平台 Hadoop 的出现,还有 Spark 的诞生都是这个领域的大事。人们试图使数据分析变得更快,但我认为他们仍然受到一些阻碍——如果你只是干坐着等一分钟,然后再继续下一个搜索,人们就会感到厌烦。所以,我只是觉得这个领域(加速数据分析)很容易吸引众人的眼球。他们会说,“哇,你真能让我搜索得更快吗?”这意味着,搜素的速度就和你在开始时的思考速度几乎一样。更重要的是,这种搜索能够带给你更多可以去尝试的东西,而不只是试图回答你的问题。事实上,你正在进行一种探索,这使得搜索功能变得很酷。

另一个方面是,我不知道你是否听说过一个叫 Graphistry 的公司。他们是一个可视化的图形公司,在这里,我们正在与他们合作进行一些安全演示。该公司能够查看到你的安全日志。比方说,当你在使用安全日志分析时,你可以点击 Graphistry,在几行数字化代码的帮助下,它立即可以让你快速通过安全警报,然后你可以直观地将这些成百上千的安全警报进行自然的关联,最终你就可以弄清楚这是否只是从防火墙或内部排序扫描而形成的一些噪音。同样,这也是非常有趣的,并且得到了很多人的关注。因为人们有了这些所有的警报日志之后就能够做出一个安全报告。它实际上从可视化的角度更深层次地克服了盲点问题,并进行了有效的分析处理。在 Graphistry 和我们的共同展示下,查看安全日志的方式已经发生了改变。

记者:

在这个“AI 驱动下的数据分析”(AI driven analytics)领域,你如何看待 NVIDIA 合作伙伴的地位?

Jim McHugh:

我觉得在形容“ AI 驱动下的数据分析”领域时,用“前程似锦”这个时髦的词再好不过了。人们正在使用大数据来获取信息和进行商业活动。同时,我也看到这些合作伙伴做的第一件事就是要将数据分析工具的速度提高。方程式的另一边是成本问题,我们需要用最少的成本来完成加速计算的工作。当我们在扩展工具的时候会产生一部分的隐性成本,但我们不能只是使用更多的计算机设备来完成它,我需要大量的排气扇、互连线,机箱,这些所有的硬件或者技术。这就是为什么我们要寻求合作伙伴的原因。

第二步,我们要更加关注深度学习。深度学习的时代已经汹涌而至,它正在改变一切。人们想在进入某个特定的行业之前,就想知道深度学习是如何使得这个领域走在前列的。他们用图表分析的方法来理解数据。所以,你要想弄明白这两者的相关性,就必须获取 100 倍以上的数据。数据会告诉你它是如何理解这个领域的。因此,我们让一些应用程序允许你对数据进行追踪,成为你每天的商务分析师。如果你想了解更多,我觉得 Graphistry 提供了一个很好的方式。

因此,我所说的是两个不同的方面。首先,他们先对数据获取的方式加速,第二步,给到你一个可视化组件。最后一步就要考虑这些如何与人工智能进行融合。我已经沿着这些步骤与 MAPD 和 Kinetica 进行了一些对话。目前,我们的合作伙伴正在探索人们到底能够多大程度地对数据进行加速,以及如今将其运用到一些框架当中。

记者:

你认为现在走这条 AI 驱动下的数据分析之路还太早了吗?可以举一些例子来说明。

Jim McHugh:

我知道本公司的许多客户已经在使用这种模型,比如美国邮政,PGE,Verizon 公司,EMC 等。他们热爱这种方式带来的“加速度”。他们也说得很清楚——这种方法能节约成本。公司可以用节省下来的资金用于支付基础设施和一些技术开发。让我们停下来想一想,他们这样做的原因是什么。如果你是零售商的一员,你会希望追踪到库存的所有状况,从而快速地做出报告。而如果你在使用先前记忆的内存数据库,你就需要支付一笔昂贵的费用对它进行扩展,否则查询的速度会很慢。

现在我们已经有许多案例来证明这一点。在这里,我们的展位已经相当拥挤,很多人愿意停下脚步来关注我们正在做的事情。说实话,我很喜欢 Strata + Hadoop World 大会,这是一个真正以客户为中心来显示的活动。它让供应商们面对面的交流,也让观众能够驻足观看演示,询问我们更多的信息。有意思的是,当我们正在进行深度学习相关的演示时,观众开始聚集了起来。这说明,人们对于大数据领域的 AI 和深度学习是有着浓厚的兴趣的。

记者:

你能从现在看出一年后 NVIDIA 将如何走 AI 驱动下的数据分析之路吗?

Jim McHugh:

哈哈,我知道,你希望从我口中听到人们都在谈论的这个口头禅—— “AI 企业”。的确,这是一个非常合适的词来形容我们现在的业务布局——利用人工智能和机器学习来处理数据、获得信息。属于 AI 的时代已经到来。我相信,这也是我们进入 zettabytes (泽字节,大容量的储存容量单位)的一年。因此,我们的速度会更快。在大数据的洪流之中,人们在寻找新的方法来掌控自己的工作和生活。这也就是说,如果人们在看到数据类公司的展示时,他们更愿意停下脚步,然后会说,“ 嘿,我们可以用这个数据抓住更多的机会。”事实上,我们可以使访问数据、获取信息的速度更快,但我们要使用人工智能技术。NVIDIA 将开始使用机器学习和深度学习,真正把数据的优势利用起来。这就是我们的心态。用户不再觉得现在是处在一个“海量数据”的洪流当中,而是对数据的需求如饥似渴——你对数据开始有着永不满足的欲望,我认为这就是我们要去的地方。

而大家对这件事的反应也让我们挺吃惊的。在我们这个行业里,不断有人来对 NVIDIA 说,“我们需要加速!我们需要让我们的应用在 NVIDIA 帮助下加速!我们需要 GPU 加速!”因为传统的处理器速度更新频率并不高。事实上,我们全新的架构已经在给 GPU 进行加速,但是你要知道这个生态系统并不能使这样的更新经常发生。而问题的关键在于“ 我们如何加速?我们如何利用 GPU 的优势?它怎么才能完成目标?“ 只有这些问题解决了,才会真正到达“加速”的转折点。上个月,NVIDIA 总裁黄仁勋在 GTC 大会上说过,深度学习作为全新的计算模型正在改变计算的方方面面,它不仅改变了软件开发的方式、开发地点和运行方法,还在改变着服务器架构、数据中心和智能设备。而这一切都在 GPU 的帮助下,才能实现数据中心吞吐量最大化。我觉得这个理论很有趣。近两年,深度学习的发展迅速,而现在,是时候让人们意识到人工智能驱动下的大数据分析时代已经到来了。

 Via insidebigdata

推荐阅读:

为何大数据公司很多,AI公司却很少?

五分钟读完美国白皮书:为了人工智能的未来,政府都做了哪些准备?


本文作者:刘子榆


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
15 6
|
14天前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
13天前
|
机器学习/深度学习 存储 人工智能
基于深度学习的认知架构的AI
基于深度学习的认知架构的AI是一类模仿人类认知过程的人工智能系统,旨在模拟人类感知、学习、推理、决策等复杂的认知功能。认知架构的目的是创建一个能够理解和处理复杂环境、实现自我学习和适应的AI系统
26 3
|
22天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
1天前
|
机器学习/深度学习 数据挖掘 TensorFlow
解锁Python数据分析新技能,TensorFlow&PyTorch双引擎驱动深度学习实战盛宴
在数据驱动时代,Python凭借简洁的语法和强大的库支持,成为数据分析与机器学习的首选语言。Pandas和NumPy是Python数据分析的基础,前者提供高效的数据处理工具,后者则支持科学计算。TensorFlow与PyTorch作为深度学习领域的两大框架,助力数据科学家构建复杂神经网络,挖掘数据深层价值。通过Python打下的坚实基础,结合TensorFlow和PyTorch的强大功能,我们能在数据科学领域探索无限可能,解决复杂问题并推动科研进步。
9 0
|
25天前
|
自然语言处理 供应链 数据可视化
大数据在市场营销中的应用案例:精准洞察,驱动增长
【8月更文挑战第25天】大数据在市场营销中的应用案例不胜枚举,它们共同展示了大数据技术在精准营销、市场预测、用户行为分析等方面的巨大潜力。通过深度挖掘和分析数据,企业能够更加精准地洞察市场需求,优化营销策略,提升市场竞争力。未来,随着大数据技术的不断发展和普及,其在市场营销领域的应用将更加广泛和深入。
|
27天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
27天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
29天前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
10天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
22 0