九章云极DataCanvas DAT面世:端到端AutoML,把AI建模效率提升一百倍

简介: 同样是构建 AI 模型,用 AutoML 工具可以提升百倍效率,而且模型的准确度还能更高。

给定一个数据集,如何找到一套高效解决问题的 AI 算法加超参数?对于机器学习开发者来说,这是需要耗费大量时间来完成的工作。不过近几年来出现的自动机器学习工具 AutoML,用 AI 的方式让构建 AI 的模型选择、调参工作变成了全自动。


10 月 22 日,在 「2021 年数智化高峰论坛」上,九章云极 DataCanvas 发布的自动机器学习工具(DataCanvas AutoML Toolkit,DAT)又将 AutoML 的范围拓展到了机器学习任务的全流程。

「从工具形态上来看,AutoML 目前已经具备独立部署的条件了,」九章云极 DataCanvas 资深架构师杨健说道。「实用化的框架会对这一领域带来基础支撑,其意义类似于 TensorFlow 和 PyTorch 之于深度学习——我们认为 AutoML 正需要这样的工具来促进应用的铺开。」

微信图片_20211206144301.jpg


而且,九章云极 DataCanvas 还希望通过完全开源的形式对社区作出更多贡献。


让端到端的 AutoML 成为可能


神经网络设计是一项极为耗时的工作,其对专业知识的要求让开发的门槛一直难以降低,而有了 AutoML 方法,神经网络也可以设计神经网络。

常规 AutoML 工具针对机器学习算法,面向超参数优化、特征工程等任务,这类工具今天看已不能满足企业的需求。近几年人们陆续的一些定位为端到端的 AutoML 工具,提升了很多工作的效率,在机器学习社区也获得了可观的影响力。

但九章云极 DataCanvas 认为,这还不是真正意义上的端到端自动建模——在机器学习的任务流程中,人们还要面临数据不均衡、数据漂移、模型泛化、大规模数据建模等问题的挑战。

如果 AutoML 工具不能自动化地解决这些问题,就很难成为工业界 AI 建模的核心。「在企业智能化转型的过程中,自动化意味着脱胎换骨的改造,应用 AI 不仅意味着使用新技术,还触及到了企业的管理模式、技术架构、运营体系。要想转型,我们需要做很多努力。」杨健说道。

DAT 被设计成技术栈的形式,分清了层次和框架,提供了很多开箱即用的工具,可处理结构化、非结构化数据,如果无法满足需求,用户可以使用底层框架自由构建出符合业务需求的算法。

微信图片_20211206144304.jpg


在这里,工程师们把 AutoML 的过程抽象成由一系列 Step 组成的实验,通过数据管道串联,一个实验的 Step 可以组装,数据不均衡、数据漂移等问题都有专门的 Step 去处理,而且随时可以针对不同场景的挑战扩展 Step。

DAT 的工具栈可以分为三层:首先是最底层的 AutoML 框架 Hypernets、机器学习和深度学习框架,中间是 AutoML 工具如 DeepTables、最上层是应用工具:HyperGBM、HyperDT、HyperKeras、Cooka。


DataCanvas · GitHub


微信图片_20211206144307.jpg

机器学习框架 Hypernets 到轻量级、图形化的自动建模系统


Cooka,当前的 AutoML 不仅可以参与建模过程,还能将自动生成的 AI 模型更快投入到实践中。

整个 DAT 工具栈以面向任务分类,可以同时满足结构化数据的建模和非结构化数据(CV、NLP)的建模,覆盖了从数据工程师、AI 开发者、AutoML 工具开发者、再到非技术背景人员的广大范围。

这套工具无需绑定特定的云服务或硬件,只需要电脑设置好 Python 等环境就可以上手,也支持大规模数据和集群计算。

DAT 的目标是打造 AutoML 的全方位能力,并不只针对某一个建模的场景和目标,目前市面上还没有哪个产品和 DAT 的定位是完全重合的。


节约百倍开发时间


作为一个高度独立且开源的产品,DAT 相对其他 AutoML 工具有很大优势。

首先是使用最好的技术,九章云极 DataCanvas 内置了几种对高维空间非常有效的搜索算法,包括蒙特卡洛树搜索、强化学习算法、进化算法,并引入了元学习(Meta-learning)方法来加速搜索过程,利用历史搜索和评估结果来更准确和高效的指导搜索方向,减少搜索迭代次数。

在 AutoML 的实际应用过程中,真正消耗算力的部分是模型评估。一个基本的搜索过程是:从搜索空间中采样、评估样本效果、反馈给搜索算法指导下次采样的方向,然后重复这个过程直到找到满意的样本。

「我们引入了很多方法来降低评估成本,比如低保真预热、同路径数据链路缓存、模型训练的 Pruning 等等。HyperGBM 通常只需要人工单次训练时间的 10 倍左右的时间就可以完成整个 AutoML 的过程,从总成本上看大大优于人工建模。」杨健说道。

微信图片_20211206144311.jpg

DAT 在 notebook 中的可视化运行图。


在实际环境中,机器学习模型经常会遭遇「概念漂移」的挑战:AutoML 在静态数据下表现很好,但实际应用场景下,数据是实时产生的,特征也在不断发生变化。如何在这样的情况下保持足够高的判断水准?

在 DAT 中,这个问题也是可以被自动处理的,其引入了一个半监督学习方法——对抗验证(Adversarial Validation),这一思想来自于 GAN。通过这种半监督的方法,我们不需要看到真实结果(y-true)就可以评估是否发生了数据漂移,哪些特征发生了漂移,然后对它们做相应的处理。

在传统机器学习建模过程中,开发者需要反复实验,进行特征处理、模型选择、调参等等工作,训练一个实用化模型至少要几十到上百次的反复训练。相比人力,AutoML 带来的效率提升可以达到上百倍。手工建模需要数周数月的时间,AutoML 可以在一天以内完成。如果一个实习生从零开始学习使用 DAT 构建算法,只需要两个星期时间就能提交结果,很多工作只需要几十行代码。

而且使用 DAT 完成的效果更稳定。「手工建模的质量取决于个人的能力,有很大的不确定性,AutoML 的算法不会有这样的问题。」杨健说道。


对阵 Kaggle 大师,获得数据竞赛冠军


如果像自动驾驶一样把 AutoML 的自动化程度进行分级的话,它的发展速度相对更快:Level 2 可以对应 XGboost 这样的机器学习包,Level 3 对应自动化调参的算法优化工具,Level 4 可以实现端到端自动化建模,对应如今的 DAT;而 AutoML 最终的目标是完全不依赖领域专家的建模,甚至是根据数据变化自我进化的系统。

由于 DAT 是开源的,人们可以自行安装使用、感受 AutoML 的能力:其中的两个工具 DeepTables 和 HyperGBM 和谷歌 AutoML Tables 同样能解决结构化数据建模问题,在几个公开数据集的测试上看 Google AutoML Tables 要比 DAT 慢一个量级,而且谷歌的工具是云服务的一部分,需要先付费。

AutoML 自动生成的算法除了能够节省开发时间,实际工作的准确度如何?早在 DeepTables 工具刚刚构建完成时,九章云极 DataCanvas 的开发人员就参加了著名机器学习竞赛平台 Kaggle 的 Categorical Feature Encoding Challenge II 比赛,测试了自动机器学习算法的水平,并获得了成功。

「我们希望用这个机会验证 DeepTables 的实际水平,」杨健说道。「整个比赛经历 3 个多月的时间,有来自全球的将近 1200 个团队,还有好几个 Kaggle 的 Grand Master level 的大神,像 Bojan Tunguz、Sergey Yurgenson 等,」

九章云极 DataCanvas 的方案比较简单,主要就是为了验证 DeepTables,数据没有做太多处理,调用了 DT 内部网络架构的几个参数,作为 AutoML 工具 DT 内部预置了很多网络架构,可以任意地组装和排列。

团队最终选出了 4 种不同的网络组合,再融合在一起,获得了很好的结果。需要注意的是,比赛存在 Public 和 Private 两个榜单,这意味着参赛模型需要有足够的泛化能力——经过太多调参的模型会趋向于过拟合,在 Kaggle 大部分竞赛中都会出现 Public 榜上排名前几十名的方案,在 Private 榜上集体排名下降的情况。

DeepTables 在比赛中两个榜单都排到了第一名——这意味着使用 AutoML 自动生成的算法,性能超越了众多 Grand Master 手动调出的水平。

微信图片_20211206144316.jpg


速度更快,性能更好,应用门槛还更低,这让人们没有理由不去尝试 AutoML。

九章云极 DataCanvas 表示,未来还希望进一步降低门槛,提供更面向前端用户的建模工具以及支持更广泛的场景模型任务类型,并进行实时分析方向的一些开源探索。

相关文章
|
6月前
|
运维 Devops 调度
DevOps-ChatBot:DevOps开源端到端智能AI助手
随着ChatGPT等通用大模型以及各类垂直领域大模型的出现,各个领域的产品交互模式、用户信息获取模式都在逐步发生改变。但通用大模型自身存在的生成内容不可靠、信息内容不及时、领域任务不完善的问题始终存在,面向DevOps这个对于事实的准确性、信息的及时性、问题的复杂性、数据的安全性要求都比较高的领域,大模型该如何赋能?为此,我们发起并开源DevOps-ChatBot端到端AI智能助手,专为软件开发的全生命周期而设计:通过DevOps垂类知识库 + 知识图谱增强 + SandBox执行环境等技术来保障生成内容的准确性、及时性并让用户交互修改代码编译执行,确保答案的可靠性;通过静态分析技术 + RA
475 1
DevOps-ChatBot:DevOps开源端到端智能AI助手
|
机器学习/深度学习 存储 人工智能
阿里云机器学习PAI全新推出特征平台 (Feature Store),助力AI建模场景特征数据高效利用
机器学习平台 PAI 推出特征平台(PAI-FeatureStore),在所有需要特征的AI建模场景,用户可通过 Feature Store 轻松地共享和重用特征数据,减少资源和时间成本、提升工作效率。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
44 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
2月前
|
机器学习/深度学习 存储 人工智能
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
【9月更文挑战第1天】AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
|
6月前
|
机器学习/深度学习 人工智能 数据处理
如何通过端到端的训练策略提高AI在音频应用领域的应用范围?
【5月更文挑战第24天】如何通过端到端的训练策略提高AI在音频应用领域的应用范围?
130 1
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。
216 0
|
机器学习/深度学习 人工智能 自然语言处理
AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点
AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点
118 0
AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点
|
人工智能 算法 机器人
AI技术让手办「整活」:3D建模居然可以这样简单
AI技术让手办「整活」:3D建模居然可以这样简单
229 0
AI技术让手办「整活」:3D建模居然可以这样简单
|
人工智能 编解码 自然语言处理
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
一句话生成3D模型:AI扩散模型的突破,让建模师慌了
833 0
|
存储 人工智能 自然语言处理
AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能
AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能
245 0

热门文章

最新文章

下一篇
无影云桌面