看云栖说云栖——大数据 & AI

简介: AI加持的大数据最终还是为了AI。

伯牙善鼓琴,钟子期善听。伯牙鼓琴,志在登高山。钟子期曰:“善哉!峨峨兮若泰山!”志在流水,钟子期曰:“善哉!洋洋兮若江河!”伯牙所念,钟子期必得之。
——《列子·汤问》

本文内容取自2019杭州云栖大会《大数据&AI峰会》。
峰会由大神贾扬清开场,贾扬清是多个AI框架的主要作者,大神刚从FaceBook转到阿里巴巴,在FaceBook之前曾在Google大脑工作过。

贾扬清的演讲有一个核心观点就是:

AI是一个系统工程,90%工作在算法之外。

在这额外的90%当中,大部分都是和大数据处理有关的工作。所以,今天的分会场主要讲的还是和大数据处理平台相关的东西,当然这个大数据处理平台是AI加持过的。

在后面的分享中,阿里云研究员关涛和资深专家徐晟一起做了题为《AI加持的阿里云飞天大数据平台技术揭秘》的演讲。

阿里云的大数据平台从2009年开始建设,一直面临成本和效率的压力,假如数据膨胀10倍,处理数据的成本也增加10倍甚至更多的话……这样的事情简直不敢想象。

阿里云处理的方案就是持续优化升级计算力

具体的做法有三种:

  • 底层高效的算子层与存储层、就是基础计算单元效率提升和存储优化节省,在巨大的体量下5%的提升都非常可观。
  • 寻找“最优”的执行计划、通过支持更多的优化工作模式,并允许在执行阶段动态选择来提高效率。
  • 自学习调优、通过基于历史信息的自学习回归优化,让飞天平台在执行计划的选择上更加聪明。

除了上述在引擎层面的优化,为了让普通开发者能够更高效的使用大数据平台,阿里云大数据开发平台的优化也经历的三个阶段:

  • 首先是围绕MaxCompute大数据引擎的优化,通过将黑屏的命令行开发界面替换为更友好的DataWorks白屏图形界面,提供了更好的权限隔离机制以保证数据安全、为了保障数据的持续产出提供了更好的调度、监控、运维功能,并围绕MaxCompute提供了机器学习(PAI)、商业智能(QuickBI)等产品。
  • 后来进入了跨引擎的一站式大数据开发平台的阶段,除了MaxCompute外,大数据开发平台还支持实时计算引擎(Flink)、EMR(Hadoop)、Elastic Search等更丰富的开源生态产品。在实现跨引擎的同时,还提供了大数据处理流程中的ETL、数据服务、应用开发等一站式服务功能。
  • 目前,阿里巴巴大数据开发平台已经进入了全域大数据平台阶段,除了能够处理云上的数据之外还支持对云下的数据进行统一的处理和查询,能够实现跨云、跨存储、跨引擎、跨地域的数据资源管理。

接下来是阿里云智能计算平台事业部产品总监的产品发布环节:

  • DataWorks 3.0、全面支持开源大数据生态产品,支持云上云下的混合调度,升级数据治理能力,更好的利用AI来优化开发平台在多引擎开发上的使用体验。
  • 机器学习PAI全线发布、提供算法模型的交易市场(AI市场)、支持AutoML自动化模型训练与调参、支持自定义算法的上传。
  • MaxCompute 3.0、成本降低70%、提供不停机上云功能、AI加持下的数仓建模和优化。
  • E-MapReduce 4.0、升级开源产品版本、缩小最低配置规格,降低准入门槛、支持更新的ECS实例。
  • 实时计算云原生版本、就是企业版的Flink,名字叫做Ververica,多了几个插件,后面介绍。
  • 交互式分析发布、兼容PostgreSQL的交互式分析产品,数据写入即可实时查询,适用于实时数仓建设,支持和MaxCompute组成联邦查询,冷热数据分层存储管理,降低成本的同时还可同时访问。
  • 图引擎和开发工具、阿里生态里的图计算引擎。
  • 阿里云Elasticsearch 2.0发布、提供了更强的性能、以及对中文更友好的阿里巴巴NLP分词器。
  • OpenSearch 2.0、和ES不同的是OpenSearch主要是聚焦在电商和推荐领域。

阿里巴巴在这个分会场的最后一个演讲时有关Flink企业版Ververica的,对比社区版本的Flink,Ververica的改进包括:

  • App Manager、提供企业级的安全特性和配置管理、日志和监控指标等。
  • Libra Service、让给Flink更容易配置和优化。
  • Stream Ledger、提供跨多条记录的一致性事务管理能力。
  • Gemini、Flink的数据持久化解决方案之一,支持更大的数据量、更快的恢复速度、更高的读写性能。

以上,就是《大数据&AI峰会》上的阿里巴巴“自己”的内容。除此以外FaceBook、Intel、Spark背后的商业公司databricks都围绕大数据和AI做了一些分享。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
6月前
|
人工智能 运维 Cloud Native
2025 云栖精选资料:《从云原生到 AI 原生核心技术与最佳实践》PPT 免费下载
一本合集,四大主题,覆盖 AI 原生技术的核心版图。立即获取,与行业领跑者同行,抢占 AI 原生时代的技术先机!
|
6月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
1162 1
|
6月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
406 7
|
6月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
508 0
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
271 0
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
482 14
|
9月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
320 4
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
595 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
235 14