敏捷大数据与敏捷 AI

简介: 敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。为实现上述目标,我们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货------------

前言

人工智能的诞生可以追溯到上世纪 50 年代,在达特茅斯会议上,麦卡锡提出了 AI 的概念,但在初期的热度过后,人工智能的发展经历了多次低谷,直到从 90 年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。

尤其是在近 10 年来,各方面因素都推动其不断发展:

  • 理论上,机器学习,尤其是统计学习和神经网络理论不断突破,效果显著;
  • 外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;
  • 此外,极为重要的一个因素就是在数据方面,大数据技术的发展使人工智能终于摆脱了数据的桎梏,可以在充足的样本基础上提升模型的能力。

可以说,现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。

反过来看,人工智能对大数据技术同样有着极为重要的作用一方面,对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值;另一方面,通过对已有数据的智能分析,我们可以推导出更多的数据特征,甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。

敏捷大数据平台栈作为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。

为实现上述目标,我们对人工智能机器学习实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

实时数据智能处理

如本平台之前一系列文章所述,随着技术的发展,我们能够获得前所未有的海量数据,如果能够快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑可以极大提升企业的应变能力,从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。

因此,实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响,可以说,为了快速识别、适应外部环境的变化情况,各组织已经开始将数据实时处理能力与 AI 能力相结合,实现智能数据分析业务的快速交付。

实际上,针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多 APP 中普遍使用,而国外的 Twitch 等直播网站,也推出了实时游戏数据分析等 AI 插件来增强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如 Opta Sports 等,得到了应用;在交通领域,基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时 AI 数据处理已经在不同领域、不同业务场景下得到了广泛应用,并且发挥了不可取代的作用。

金融领域的许多场景中,对于实时 AI 数据处理同样存在有众多需求,如实时风控实时数据预测实时异常检测实时用户分析等等。下图为实时产品推荐的一个数据流图,可以用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。

image.png

该图描述了如下过程:在交互端我们可以通过埋点获得大量的、不同用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其他数据一起提供给计算层的各类模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。

这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正,从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中还是有不少产品对时效性要求很高,其画像特征也需要我们进行实时的维护,例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。

一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化,可以高效地针对用户开展个性化精准营销,提升用户体验度的同时还能够提高获客和关单数量,产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台可以很好地支持上述工作,一种实现架构如下图所示:

image.png

在该图中,dbus 和 wormhole 可以方便对接多种不同数据源,实时获取数据,将数据 pipeline 源头实时化。另外 wormhole 支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征经过存储后由 moonbox 根据需要进行抽取,输入推荐模型得到需要的推荐列表,最终返回给交互端。

此外,如果加上 davinci 数据 BI 的支持,我们还可以轻松地实现实时业务指标监控,便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用,还可以根据需要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。

敏捷 AI

如前文所述,在实时 AI 数据处理过程中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。

这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型,这对于一些业务组织来说还是有一定的技术门槛;此外对于某些业务来说,快速推进和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之可以接入实时数据架构之中,就显得比较笨拙。例如很多数据分析的业务人员,也许不需要太过精准的模型性能,但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。

我们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,我们提出了敏捷 AI 的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具有较强的通用性和复用性,能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据需要实时流入各业务端,最终实现基于实时数据流的智能分析过程。

敏捷大数据产品和敏捷 AI 的支持下,业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展示的整个智能化数据治理流程,并可根据效果灵活调整试错,极大降低实时智能化业务分析的实施成本。

在上述敏捷 AI 的实施思路下,我们着手构建敏捷 AI 算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则:

  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;
  • 独立性,尽量减少环境依赖或保证环境的部署独立性,避免由模型引入给系统整体带来的环境依赖变动;
  • 单一性,各模型功能尽量单一,保证各模型功能的平行性;
  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的普遍适应能力,通过一定的配置或映射即可以适应绝大多数的业务场景。

为了实现上述要求,我们在研发模型时将不可避免地在某些方面做出一些取舍,例如模型若想通用必将会导致性能的一定程度下降,如何在这些矛盾中寻求一个合理的折中,也是在设计时需要考虑的问题。目前,我们已经针对一些领域开始研发敏捷 AI 模型,经过实际测试与应用后,不久的将来就将整合进现在的敏捷大数据产品栈中。此外,在未来我们还可以公布相关接口和规约,让用户也有能力将自己的模型加入到库中。

结语

实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一,如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本,是敏捷大数据和敏捷 AI 着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。

image.png

原文链接:https://www.infoq.cn/article/NNBszCZjPISI3Zay2Cv7

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
SQL 人工智能 分布式计算
ODPS十五周年实录|构建 AI 时代的大数据基础设施
本文根据 ODPS 十五周年·年度升级发布实录整理而成,演讲信息如下: 张治国:阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人 活动:【数据进化·AI 启航】ODPS 年度升级发布
193 9
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
3月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
338 2
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
549 36
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
457 30
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
916 47