机器学习下一个万亿级的增长从哪来?

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货----------

1.png

在“哈利.波特”的世界中,分院帽是一种算法,可以获得学生的行为历史、喜好和性格等方面的数据,然后据此作出决定,确定学生应该进入霍格沃茨学校里的哪一个分院。如果现实世界里存在这样的分院帽的话,它应该会是机器学习应用程序,可以根据复杂的数据集自主地做出决策。如今,机器学习正在推动数万亿规模的全球产业,例如医疗保健、安全和农业等。

如果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。

机器学习不仅仅是科技巨头的游戏

科技巨头在机器学习方面的创新广为人知,从新闻推送到推荐引擎不一而足,但是绝大部分人还没有意识到传统行业对机器学习的需求正在日益增长。预计到2023年,全球人工智能系统支出将达到980亿美元,比2019年支出规模的2.5倍还要多,其中金融服务,零售和汽车领域处于领先地位。

比如,掌管了超过7万亿美元资产的投资管理公司黑石(Blackrock)在2018年推出了几款机器学习支撑的ETF产品。而目前,机器学习也已经在医疗保健行业引发了广泛的关注,涉及医疗影像、诊断和药物发现的机器学习解决方案的预算有望在未来三年内达到100亿美元的规模。

在这些企业客户中,出现了三个广泛的客户群:软件工程师、数据科学家和业务分析师,业务分析师有时也被称为“公民数据科学家”。尽管业务分析师受过的技术培训水平较低,但是他们构成了一个庞大并且不断增长的用户群体,这个群体正在应用机器学习帮助他们的企业利用自身不断增长的数据存储库。

机器学习工具已经渗透进入各行各业

为了适应这些客户群体,希望在这轮淘金热中卖镐的公司数量不断激增。曾经在特斯拉和Snap担任过工程副总裁的Stuart Bowers表示:“挑战并不在于让机器学习变得透明,而是让痛苦的部分(例如日志记录、数据管理、部署和可再现性)变得容易,然后让模型训练变得高效并且可调试。”

作为销售更多基础架构服务策略的一部分,现存的供应商——特别是那些公有云供应商已经采用了“端到端平台”的方式。对于巨头来说,销售机器学习工具是一种推动其客户增加基础设施支出的方式,这意味着他们有能力以很低的成本提供这些工具。

然而,企业从业人员们开始要求“同类最佳”解决方案,而不是那些意在吸引他们购买更多基础架构的工具。为了解决这个问题,下一代的创业企业将会追求更具针对性的方法。和当前各大现有平台广泛采用的模式相反,初创企业可以选择特定问题并开发专用工具,这样可以更有效地解决这些问题。在机器学习工具领域,现在存在着三大问题对用户构成了重大挑战。

数据集管理

虽然机器学习的结果可能看起来很优雅,但实际上,从业人员要将大部分的时间花在数据清理、整理和转换工作上。因为数据越来越多地以各种不同的格式分散在多台机器和云之中,因此将数据变成同一种可消费的格式,让团队能够轻松使用并且将其用于协作是非常困难的一件事。

为了解决这个问题,Tecton 的联合创始人兼首席执行官 Mike Del Balso 正在通过他新的创业公司使他在 Uber 倡导的最佳实践民主化。他表示:“被破坏的数据是导致生产机器学习系统出现问题的最常见原因。建模人员将大部分时间都花在训练时选择和转换功能,然后建立管道,将这些功能传递到生产模型之中。” Tecton 构建了一个平台来管理这些“功能”,并以这种方式来简化数据层的复杂性,从企业原始数据中收集到的智能实时信号对于优化机器学习至关重要。

在更上游,Liquidata 正在为数据库构建开源的 GitHub 等效项。在我与 Liquidata 的联合创始人兼首席执行官 Tim Sehn (他曾经是 Snap 的前工程副总裁)的谈话中,他强调“就像开源软件一样,我们需要在开放数据方面进行协作——在互联网级别。这就是为什么我们创建了 DoltHub 的原因,DoltHub 是互联网上免费存储、托管和协作数据的地方。”

实验跟踪和版本控制

另一个常见的问题是结果之间缺乏可重复性。机器学习模型版本控制的缺位让实验变得很难复现。

正如 Weights and Biases 的联合创始人兼首席执行官 Lukas Biewald 在接受我们的采访时分享的那样,“如今,最大的痛苦是缺乏基本的软件和最佳实践来管理全新的编码风格。你无法使用糟糕的画笔很好地作画,你没有办法在糟糕的 IDE (集成开发环境)中很好地编写代码,你也无法使用我们现在拥有的工具构建和部署很棒的深度学习模型。”他的公司于 2018 年推出了一个实验跟踪解决方案,让 OpenAI 等客户能够将见解从单个研究人员扩散到整个团队。

模型可扩展

对于这个正在成熟的市场来说或,建立基础架构以在生产中扩展模型部署并监控结果是另一个重要的问题。

Anyscale 是开源框架 Ray 背后的公司,这家初创公司已经抽象出了分布式应用程序和可扩展机器学习的基础架构。在我同 Anyscale 的联合创始人兼首席执行官Robert Nishihara 的交谈中,他分享了自己的想法,“就像微软的操作系统为开发人员工具和应用程序创造了一个生态系统一样,我们也在创造基础架构,以支持应用程序和库的富生态系统,从模型训练到部署,让开发人员可以轻松地扩展机器学习应用程序。”

在自然语言处理或者被称为 NLP 的领域中,可扩展性也在飞速发展。Hugging Face 建立了一个开源库来构建、训练和共享 NLP 模型。该公司的联合创始人兼首席执行官 ClémentDelangue 表示:“过去三年中发生了范式转变,NLP 的转换学习开始极大地改变了将 NLP 集成到业务应用程序中的可用性和准确性。”他表示:“我们让企业有可能在一周而不是几个月之内,将最新研究的 NLP 模型应用于生产。”

其他有前途的初创公司包括 Streamlit,该公司让开发人员可以仅仅使用几行 Python 就创建机器学习应用并立刻进行部署。OctoML 为机器学习应用了附加的智能层,是系统变得更加易于优化和部署。Fiddler Labs 已经建立了 Explainable AI Platform (可解释的人工智能平台),可以不间断地解释和监控生产结果。

要想在与老牌公司的激烈竞争中建立起长期稳固的公司,初创公司必须问自己两个问题:对于哪些客户来说我们是必不可少的?接触这些客户的最佳方式是什么?

很多初创公司会提出想法,要在某个大市场中占据 1% 的份额,但是通常来说,这些大市场就算没有过度拥挤,其中的需求也已经得到了很好地满足。专注于赢得核心客户群的公司必须展现出强大的早期吸引力,这将转化为长期扩展潜力。为了吸引这些客户,Databricks 和 Datarobot 等大多数成型企业都采用了自上而下的企业销售方式。与我们在开发人员工具领域中看到的情况类似,我期待着机器学习初创企业最终将从单纯的企业销售发展为推动自下而上的采用,并获得更多优势,胜过当今以企业为中心的成型公司。

垂直集成的机器学习应用程序正在颠覆现状

机器学习领域中一些最令人兴奋的公司正在开拓新的商业模式以颠覆整个行业。汽车行业就是个最明显的例子,仅仅在 2019 年一年,就有 100 亿美元的资金投入到了这个行业。机器学习也将产生革命性影响的下一代垂直市场还包括医疗保健、工业、安全和农业。

Salesforce 的首席科学家 Richard Socher 表示:“在‘机器学习 + X’的模式下,机器学习最为有效。”他表示,“最好的机器学习公司都有着清晰的垂直重点。他们甚至不会将自己定义为机器学习公司。”他认为医疗保健领域是一个非常独特的领域,极有前途:Athelas 已将机器学习应用于免疫监测,通过收集病人白血球数量的数据帮助他们优化药物摄入。Curai 利用机器学习技术来提高医生推荐的效率和质量,让他们可以把更多的时间花在治疗患者的工作上。Zebra 和AIdoc 通过训练数据集来更快地确定医疗状况,从而提高了放射科医生的工作能力。

在工业和物流领域,Covariant 是一家结合了强化学习和神经网络的初创公司,该公司让机器人能够管理大型仓库设施中的物体;Agility and Dexterity 同样在构建机器人,以越来越复杂的方式适应各种不可预测的情况;Interos 应用机器学习技术评估全球供应链网络,帮助企业围绕供应商管理、业务连续性和风险做出关键决策。

在安全和国防领域,Verkada 通过智能地分析实时视频并从中学习,重新构想了企业物理安全;Anduril 建立了一个机器学习主干,该主干可以集成来自传感器塔的数据,以增强国家安全的智能;Shield AI 的软件让无人系统可以解释信号,并且在战场上智能行动。

农业是另一个从机器学习技术中获得巨大收益的垂直领域。John Deere 收购了 Blue River Technology,后者是一家开发智能农作物喷洒设备的初创公司。合并后的公司 Intelligent Solutions Group 的首席科学家Lee Redden 表示:“我们引入计算机视觉技术来识别单株植物并针对单株植物采取行动,通过这种方式改变了农业世界。”其他著名的农科企业还包括 Indigo,该公司将机器学习用于“精准农业”,利用数据,以更有利可图、更具可持续性的方式生产食品。

我们将何去何从?

总结来说,机器学习已经悄然成为我们日常生活的一部分,支撑我们的汽车,医院的运营并保障我们所吃的食物。到目前为止,大型企业孵化了最先进的技术,但是真正的希望存在于下一波机器学习应用程序和工具,将围绕着机器智能各种华而不实的炒作从哈利.波特式的幻想转化为有形的社会价值。

对于机器学习能够在未来几年内创造的价值,我们有很多理由保持乐观。传统企业将训练数以百万计的公民数据科学家,将破碎的行业重塑为更高效的行业。机器学习工具将降低构建智能应用程序的门槛,推动数以百万计的新想法变成产品。垂直机器学习业务模型将让人们获得健康的食品,可靠的人身安全保障和负担得起的医疗保健服务,这是一个民主化的进程。

我们将在这些地方找到机器学习的真正价值。

image.png

文章来源:https://yqh.aliyun.com/detail/17328

目录
相关文章
|
3月前
|
存储 人工智能 数据格式
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
【9月更文挑战第18天】鹏城实验室提出的ARIO(All Robots In One)标准,为具身智能领域带来了统一的数据格式、丰富的感知模态及多样化的真实与模拟数据,显著提升了数据集的质量与规模,助力智能系统更好地与物理世界互动。基于此标准构建的大规模数据集包含约300万个片段,覆盖258个系列和321,064个任务,极大地推动了具身智能的研究与发展。然而,该数据集也面临着存储需求高、系统互操作性及应用场景适应性等挑战。论文详情见:http://arxiv.org/abs/2408.10899。
88 11
|
5月前
|
数据采集 数据管理
240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开
【7月更文挑战第5天】全球23所机构合作的DCLM项目揭示了数据清洗新范式,从240T海量数据中提炼出2.6T高质量集,提升语言模型效能。DCLM-Baseline数据集在减少40%计算量的同时,使70亿参数模型在MMLU上达到64%准确率,超越MAP-Neo并媲美其他LLMs。然而,数据偏见和伦理问题仍是挑战。[论文链接](https://arxiv.org/abs/2406.11794)**
100 1
|
7月前
|
存储 人工智能 自然语言处理
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数
94 0
|
人工智能
7-118 估值一亿的AI核心代码 (20 分)
7-118 估值一亿的AI核心代码 (20 分)
153 0
7-118 估值一亿的AI核心代码 (20 分)
|
机器学习/深度学习 人工智能 自然语言处理
百亿、千亿级参数的基础模型之后,我们正在步入以数据为中心的时代?
百亿、千亿级参数的基础模型之后,我们正在步入以数据为中心的时代?
109 0
|
机器学习/深度学习 Kubernetes 搜索推荐
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
198 0
|
机器学习/深度学习 数据采集 自然语言处理
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
136 0
|
人工智能
L1-064 估值一亿的AI核心代码 (20 分)
L1-064 估值一亿的AI核心代码 (20 分)
379 0
L1-064 估值一亿的AI核心代码 (20 分)
|
机器学习/深度学习 人工智能 算法
深度实测 | 10万次运行,探究AI技术融合为RPA火爆赛道带来的价值
深度实测 | 10万次运行,探究AI技术融合为RPA火爆赛道带来的价值
193 0
深度实测 | 10万次运行,探究AI技术融合为RPA火爆赛道带来的价值
|
机器学习/深度学习 数据采集 自然语言处理
千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能
今年以来,中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型,提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。
283 0
千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能