这并不是说每个人都欢迎这些工具。尤其是 AutoML ,可能会因为数据科学家不相信该过程的结果,或者可能会因为它的存在而感到威胁而遭到抵制。前者是采用 XAI(可解释AI)与 AutoML 一起协作的绝佳案例,而后者我相信随着时间的推移会逐渐消失,因为数据科学家意识到 AutoML 不是在与他们竞争,而是他们可以用来为业务获得更好更快的结果的东西。没有仔细检查就不应该信任任何东西,但是 AutoML 可以成为一个伟大的工具,用于在一个又一个用例(场景)中工作时自动化和模板化可能会成为一个非常繁琐的过程。
从表面上看,所有这些基于模型的重心的解决方案看起来都很棒。像神奇宝贝一样汇集它们,你就完成了 MLDLC。
然而,将这些解决方案组合在一起也并非没有缺陷,具体如下所示:
- 集成困难:要执行一个简单的用例,解决方案的 ML 部分需要四个或更多不同的工具。当出现故障时,只能祝您好运。
- 流水线(Pipeline)丛林仍然存在:可以说,它们比第1代 ML 平台中的情况要糟糕得多。您现在有最初的流水线进入到 ML 平台,以及所有新工具之间更多的流水线。整个系统的流水线就会变得无比冗长,而你可能逐渐迷失在这混乱的丛林中。
- 与数据平面隔离:这些工具都以模型为中心,并在模型而非数据上运行。您仍然需要像第1代 ML 平台中 Notebook 这样的工具来协作处理任何需要完成的数据工作,因为它们不提供这些功能。
- 产品是由 API/SDK 组成的复杂网络:第 2 代 ML 平台中的一个现实生产场景是:编写一个生成训练数据的脚本(可能从 Notebook 中编写),通过 API 或 SDK 将生成的 Dataframe 传递到您的 AutoML 框架,通过 API 或 SDK 将生成的模型传递到您的 MLOps 工具,然后通过您的 XAI 框架(如果您有的话)运行它以生成见解。你如何为新数据打分?同样,编写另一个利用更多 API 的脚本。在 Airflow 之类的东西中运行所有这些,或许在您的第1代 ML 平台可能具有调度程序功能。
- 更难的任务是“留给读者的操作”:特征工程、特征平台(Feature Store)、实体关系映射等……你仍然需要在其他地方做了大量的工作。
- 需要专家团队:这些工具喜欢宣称,因为它们自动化了流程的一部分,所以它们“使机器学习大众化”,使任何人都可以轻松地自助服务。然而,我还没有真正找到一个将业务环境放在首位、不需要K8s/云工程师、机器学习工程师和数据科学家团队来操作的平台。
值得一提的是,第2代ML平台已经进化:更多成熟的供应商要么在迭代新产品,要么收购初创公司以扩大产品范围。您可以从同一个供应商处购买所有解决方案,而不是从多个供应商处购买多点解决方案,通常被称为“企业人工智能”。不幸的是,结果并没有充分解决上面列出的任何问题,除了可能使集成稍微不那么痛苦。主要的好处实际上就是你可以从同一个供应商那里购买所有亮点的工具,当你开始使用开箱即用的技术时,你很快就会意识到你又回到了原点,试图在几乎没有共同点的产品上建立自己的生产流程。
不要将此与第 3 代 ML 平台的方法混淆,肯定是有更好的办法。
第 3 代 ML 平台:数据优先的 AI
什么是真正的机器学习模型? 如果我们抽象地看待它,它会将数据作为输入并输出预测,并希望还能提供对模型的了解,这样我们就可以评估模型的表现如何。 如果您接受它作为机器学习的范式,那么您的机器学习平台显然需要以数据为中心。 第 1 代 ML 平台和第 2 代 ML 平台不必要地关注该模型内部发生的事情,因此,普通公司几乎不可能将可靠的生产流程串联起来。 但是,通过数据优先的方法,这实际上是可以实现的。
值得称赞的是第1代 ML 平台和第2代 ML 平台的方法,没有它们,第3代 ML 平台就不会存在。既是因为它建立在他们建立的一些概念之上,同时,如果没有人们努力使用第一代和第二代工具来实际操作 ML,它可能永远不会出现。数据优先方法的核心是人工智能已经足够先进,您应该能够简单地向您的平台提供一组训练数据,以及少量元数据或配置,并且平台将能够在数小时内创建您的用例并将其部署到生产环境中。无需编码。没有流水线。作为数据科学家,无需使用 DevOps 工具。操作这个工作流程再简单不过了。
这怎么可能?好吧,正如我所说,我们正在构建我们在本文中已经讨论过的许多概念。有以下三个核心要素:
- 特征平台(Feature Store):注册您的特征和关系。自动化特征工程。与同行合作,这样您就不必在每次需要转换数据时都重新创建轮子。让特征平台弄清楚如何为训练和推理提供数据。
- 声明式 AI 引擎:提高抽象级别并自动构建模型和生成预测。允许高级用户通过配置自定义实验。
- 持续的 MLOps 和 XAI:认识到世界不是静止的。自动化模型部署和升级。自动生成模型见解(可解释性)。允许数据科学家充当审查和批准工作的看门人,但将其余工作置于自动驾驶仪上。
如果您想看看这在实践中是什么样子,您可以尝试使用 Continual 构建的数据优先 AI 平台。它位于您的云数据仓库之上,并不断构建预测模型,从不停止从数据中学习。用户可以通过 CLI、SDK 或 UI 与系统进行交互,但生产使用可以通过简单的声明式 CLI 命令轻松操作。
我们并不是唯一一个以数据为中心的方法来考虑机器学习的人。 这个想法已经在 FAANG 公司(美国市场上五大最受欢迎和表现最佳的科技股)中流传了好几年,比如 Apple 的 Overton 和 Trinity 以及 Uber 的 Ludwig。 最近一篇关于声明式机器学习系统的文章很好地总结了这些成果。 最近,Andrew Ng 与特斯拉的 Andrej Karpathy 一样对以数据为中心的 AI 进行了反复讨论。 我们预计还会有更多的人上路。我们还认为,声明式数据优先的 AI 是现代数据栈的重要组成部分,它有望降低在云中运行数据平台的复杂性。
下图展示了现代数据栈的如何操作人工智能。
数据优先的 AI 是一个令人兴奋的新概念,它有可能极大地简化来操作 AI 并帮助企业推动 AI/ML 对业务的影响。数据优先的人工智能的一些重要性如下:
- 可靠的路径到生产:通过定义明确的操作工作流程简化生产机器学习。
- 端到端平台:通过减少集成任务和流水线丛林来加速实现价值。
- 人工智能民主化:提供一个所有数据专业人员都可以使用的简单系统。并允许数据科学家控制过程。
- 加速用例采用(选定):在几天内设置生产工作流程,而不是几周或几个月。用更少的资源管理更多的生产功能。
- 降低成本:少买东西,降低维护成本。
尽管我们相信数据优先平台将成为日常 AI 的主要 ML 平台,但它们并非没有限制。对于真正前沿的人工智能研究来说,可能没有什么可以绕过需要手动工作的事实。对于最具技术性的公司之外的公司来说,这可能不是一个大问题,但在这种情况下,有一个以开发为中心的工具是有帮助的。我们相信,数据优先的平台非常擅长解决 95% 的已知 ML 问题,而另外 5% 可能需要更多的 TLC。然而,我们认为这是一项巨大的改进,让您的 95% 的用例由数据工程师/分析师处理,并由数据科学家进行一些监督,并允许数据科学团队更多地关注困难的 5% 问题。为此,他们需要一个出色的系统(一个数据优先的平台)来自动化一切,并让他们来管理和维护工作流程而几乎不需要任何干预。
什么工具适合您的团队?
我们在本文中涵盖了很多内容,并讨论了很多工具选项。有时,ML/AI 工具环境会让人感到不知所措。数据优先的人工智能方法打破了许多先入为主的观念,人们最好相信它的操纵力。在 Continual,我们坚信 ML/AI 解决方案应该使用您的真实世界用例(场景)进行评估。对于许多解决方案,这可能需要数周或数月的时间,才能暴露出现实中的夸张地宣传。在 Continual 中,我们的目标是让您能够在一天内交付您的第一个生产用例。这就是与您的云数据仓库原生集成的声明式数据优先AI方法的强大之处。