是时候改变你数仓的增量同步方案了
本分享会先介绍传统数据增量同步方案,之后对比新方案(完全基于Spark无需额外组件),介绍新方案如何结合最新的数据湖(delta lake)实现,同时引入spark-binlog,极大的简化了数据增量的门槛和架构。如果时间允许,我们也会简单介绍开源项目spark-binlog,delta-plus等的内部设计是如何支持我们新的数据增量方案的。讲师介绍祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。
基于 Spark 打造高效云原生数据分析引擎
由阿里巴巴 EMR 团队提交的 TPC-DS 成绩在九月份的榜单中取得了排名第一的成绩。这个成绩背后离不开 EMR 团队对 Spark 执行引擎持续不断的优化。本次分享将选取一些有代表性的优化点,深入到技术细节做详细介绍,包括但不限于动态过滤、CBO增强、TopK排序等等。嘉宾介绍辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储结构、数据库事务等内容。
混合云模式下MaxCompute +Hadoop混搭大数据架构实践 | 大数据企业级服务专场
混合云模式下MaxCompute +Hadoop混搭大数据架构实践-斗鱼张龙_大数据企业级服务专场嘉宾介绍张龙
日志数据如何同步到MaxCompute | 2019大数据技术公开课第五季
本次直播主要讲解日志文件如何通过Loghub/Datahub同步数据到MaxCompute的参数介绍和详细同步过程等内容。直播嘉宾刘建伟,阿里云智能 技术支持工程师
【New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas】
Apache Spark 3.0 and Koalas的最新进展主讲人李潇,Databricks Spark 研发总监,管理一跨国团队,专注于 Apache Spark 和 Databricks Runtime 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学,后在佛罗里达大学(University of Florida)获计算机博士学位, 曾就职于 IBM,获发明大师称号(Master Inventor),在数据处理领域发表专利十余篇。(Github: gatorsmile)
阿里巴巴大数据产品最新特性介绍—机器学习平台PAI|2019大数据技术公开课第三季
本次直播介绍机器学习平台PAI近期重要feature,涵盖支持自定义算法上传、AutoML2.0支持一键自动调参和更多算法、全新上线自动学习平台AutoLearning等内容。 <br/> 直播嘉宾:郁环宇 阿里云智能事业群 产品经理
阿里巴巴大数据产品最新特性介绍—MaxCompute|2019大数据技术公开课第三季
本次直播将为您讲解MaxCompute产品近期最新发布的feature,涵盖SQL多项最新功能、预付费资源监控报警、IP白名单支持IPV6以及Logview中增加SQL复杂度等内容。 直播嘉宾: 曲宁 阿里云智能事业群 产品专家 <br/>
新零售---图书行业基于MaxCompute构建数据中台
中金易云(浙江新华书店)基于MaxCompute构建图书行业数据中台。打通全国1000多家出版机构,20多个发行集团,5000多家零售门店的数据,以大数据思维方法论重构图书出版发行行业。MaxCompute统一的存储、计算引擎和数据开发平台,提供全局的数据资源视图。计算资源可根据项目需要动态调整,快速生效。同时提供多租户隔离机制,各部门可独立管理自身的数据,独立做数据权限管理。
新零售---衣二三基于MaxCompute的最佳实践
作为亚洲最大的共享时装月租平台,衣二三基于MaxCompute构建个性化、智能化运营工具,完成了精准的商品分析和采购指导。MaxCompute 不仅数据吞吐量大,查询性能好,更具备可视化任务编辑界面,易于上手,省去复杂作业运维工作。使用成本低,并能与阿里云大数据产品 生态融为一体。
基于阿里云MaxCompute构建企业云数据仓库CDW的最佳实践建议 | 大数据技术公开课第二季
大数据技术公开课第二季直播详情>>>
4节课全面突围企业大数据实践路线(四)
1、直播内容介绍:[MVP 时间]是由阿里云MVP主讲,聚焦行业数字化转型的实战经验的最佳实践课程。重在帮助开发者快速了解中小企业业务搭建中的技术难点与解决方案,减少踩坑。本课程《4节课全面突围企业大数据实践路线》为系列内容,全面介绍企业大数据是如何一步步搭建及应用的过程。课程划分:共计4节课内容,分4次直播进行;每周三晚20:00准时开播,每次1个小时(45分钟的课程,15分钟的答疑)。此次为第四节课程:典型技术架构分析和构建2、分享嘉宾信息:姓名:戚俊 阿里云 MVP职位:浙江银杏谷投资总裁技术助理加钉钉群随时与老师在线互动。
DataWorks X MCP:数据开发治理Agent发布!
DataWorks X MCP产品演示:使用DataWorks MCP Server和Hologres MCP Server来自动化完成数据集成实时数据同步任务开发和Hologres数据分析。
DataWorks X DeepSeek : 用AI实现数据开发治理!
DataWorks Copilot × DeepSeek-R1产品演示:以2025年春节杭州的旅游热点分析为例,通过DataWorks Copilot使用DeepSeek-R1满血版模型,进行SQL代码的自动生成、改写和测试操作,实现高效的数据开发流程。
2024FFA分论坛-Data+Ai
FFA2024Data+AI专场由Apache Flink核心贡献者与来自哔哩哔哩、抖音集团、Elastic、京东、硕橙科技等公司的一线技术专家带来,聚焦实时大数据处理与人工智能的前沿融合,共同探讨如何利用Flink助力AI大模型技术的实时化升级,议题涵盖但不限于特征工程、训练、推理、大模型架构优化、以及实时AI大模型在各行业领域的创新应用。
2024FFA-分论坛-流式湖仓1
FFA2024流式湖仓专场由Apache Flink核心贡献者与来自淘天集团、抖音集团、vivo、小米、中原银行、阿里云智能、蚂蚁集团、贝壳找房、货拉拉等公司的一线技术专家解析流批一体、存算分离、湖仓融合的实时湖仓架构,探讨以Apache Paimon为流批一体湖存储的湖仓架构建设实践,如何帮助业务获得更实时的数据来驱动业务决策,并实现数据管理的降本增效。
2024FFA-分论坛-核心技术专场1
FFA2024核心技术专场由Apache Flink核心贡献者与来自阿里云智能、小红书、哔哩哔哩、Shopee、蚂蚁金服等公司的一线技术专家解析Flink技术动向与应用实践,重点探讨Flink的核心技术在实际生产环境中面临的挑战,以及如何通过最佳实践来进行扩展和改进。
大数据时代,如何保证消息的顺序性?
大家好,我是你们的技术小伙伴小米!今天我们来聊聊如何在数据处理过程中保证顺序消费的问题。这个话题非常重要,尤其是在大数据处理和消息队列系统中,顺序消费是实现数据一致性和正确性的关键步骤。那么,如何才能有效地保证顺序消费呢?接下来,我将详细分享几种常见的方案和它们的优缺点。
一站式实时数仓Hologres整体能力介绍
Hologres分析服务一体化架构与优势,新能力Serverless Computing实现大ETL任务降本,行为、画像分析等场景深耕,多种函数组合,实时数仓、离线实时一体、实时湖仓多种方案实践讲师/嘉宾简介丁烨 阿里云Hologres产品专家
EMR StarRocks 3.0:极速统一湖仓新范式平台
EMR StarRocks 线上公开课 第1期直播亮点统一极速湖仓架构的技术思考Serverless StarRocks 亮点及技术优势Serverless StarRocks 已落地案例分享Serverless StarRocks 持续演进与规划讲师简介弘锐 - 阿里云 E-MapReduce 产品专家
Havenask进阶系列第1节:文本索引
视频内的参考资料: https://havenask.net/# /doc/v1-1-0/sql/indexes/inverted https://havenask.net/# /doc/v1-1-0/sql/indexes/inverted# text%E7%B4%A2%E5%BC%95 Havenask是阿里巴巴自主研发的大规模分布式搜索引擎,主要专注于智能搜索和海量数据实时检索,其核心能力广泛应用于阿里巴巴内部的众多业务,如淘宝、天猫商品搜索,盒马搜索,菜鸟物流订单实时检索等。并于2022年11月对外正式开源,具有灵活的定制和开发能力,支持算法快速迭代,帮助客户和开发者量身定做适合自身业务的智能搜索服务,助力业务增长。 这次系列课程邀请了负责Havenask研发工作的技术专家们,为大家全面讲解Havenask的相关知识,通过课程可以了解到产品能力、架构原理、安装部署等内容,同时还有详细的操作演示,帮助大家更好了解和使用产品。 课程介绍: 此视频为Havenask进阶系列课程第1课《文本检索》,共讲解2部分内容。 文本索引简介 文本索引实践 我们期望通过课程可以帮助您更好的使用Havenask,欢迎广大开发者加入项目开发,共建高质量的搜索引擎,共同推进国产化开源搜索引擎技术快速发展,普惠更多的开发者和企业。 此外,对于有使用需求的企业级开发者,我们也已在阿里云上提供了基于 Havenask 打造的全托管、免运维的一站式对话式搜索服务——阿里云 OpenSearch,欢迎企业级开发者们试用体验。 阿里云OpenSearch官网:https://www.aliyun.com/product/opensearch Havenask官网地址:https://havenask.net/ Github:https://github.com/alibaba/havenask 欢迎钉钉扫码加入 Havenask 开源官方技术交流群:
Havenask入门课程第3节:使用hape部署分布式版Havenask
Havenask是阿里巴巴自主研发的大规模分布式搜索引擎,主要专注于智能搜索和海量数据实时检索,其核心能力广泛应用于阿里巴巴内部的众多业务,如淘宝、天猫商品搜索,盒马搜索,菜鸟物流订单实时检索等。并于2022年11月对外正式开源,具有灵活的定制和开发能力,支持算法快速迭代,帮助客户和开发者量身定做适合自身业务的智能搜索服务,助力业务增长。 这次系列课程邀请了负责Havenask研发工作的技术专家们,为大家全面讲解Havenask的相关知识,通过课程可以了解到产品能力、架构原理、安装部署等内容,同时还有详细的操作演示,帮助大家更好了解和使用产品。 课程介绍: 此视频Havenask入门课程第3节《使用hape部署分布式版Havenask》,共讲解3部分内容。 -部署分布式版Havenask -如何写入数据、检索 -问题排查 我们期望通过课程可以帮助您更好的使用Havenask,欢迎广大开发者加入项目开发,共建高质量的搜索引擎,共同推进国产化开源搜索引擎技术快速发展,普惠更多的开发者和企业。 此外,对于有使用需求的企业级开发者,我们也已在阿里云上提供了基于 Havenask 打造的全托管、免运维的一站式对话式搜索服务——阿里云 OpenSearch,欢迎企业级开发者们试用体验。 阿里云 OpenSearch 官网:https://www.aliyun.com/product/opensearch 官网地址:https://havenask.net/ Github:https://github.com/alibaba/havenask 欢迎钉钉扫码加入 Havenask 开源官方技术交流群:
核心技术专场(二)
核心技术专场由 Apache Flink 核心贡献者与阿里云智能、字节跳动、网易、美团、蚂蚁金服等公司的一线技术专家解析 Flink 2.0 技术动向与应用实践。
2023阿里云ODPS新品发布第1期
阿里云ODPS新品发布会将介绍阿里云自研大数据产品MaxCompute、Hologres、DataWorks产品新能力,持续演进满足多元化数据计算需求。本期将重点介绍ꔷ 新产品-DataWorks增强分析ꔷ 新产品-DataWorks智能数据建模个人版ꔷ 新功能-DataWorks支持EMR on ACK(Spark)ꔷ 新功能-DataWorks数据集成入湖ꔷ 新功能-DataWorks数据治理中心支持EMR讲师/嘉宾简介闫建丽 阿里云 DataWorks 产品PD周硕 阿里云 DataWorks 产品PD王喆 阿里云 DataWorks 产品PD冉秋萍 阿里云 DataWorks 产品PD
阿里云 Elasticsearch Serverless 快速入门
Elasticsearch Serverless 服务基于云原生Serverless技术开发,致力于为用户打造更低成本、弹性灵活、开放兼容、开箱即用的Elasticsearch使用体验。相比公测版,正式版Elasticsearch Serverless服务对原生Elasticsearch的读写API及生态组件有更高兼容性,帮助用户快速构建数据检索与分析应用,可灵活使用在多种应用场景中,例如网站搜索、企业信息检索、日志分析、运维监控等。立即开通:https://elasticsearch.console.aliyun.com/serverless/cn-hangzhou/introduce
【第7讲】是真的!Python可以创建Excel了,1行代码就能模拟真实数据,AI自动化办公还会远吗?
【第7讲】是真的!Python可以创建Excel了,1行代码就能模拟真实数据,AI自动化办公还会远吗?
FY24阿里云暑期夏令营“学生说”第三集
听一听参与夏令营的同学们怎么说,阿里云在这里期待迎接更多优秀的同学们!了解更多夏令营信息请点击:https://edu.aliyun.com/learning/topic/xialy?spm=5176.20960838.0.0.1122305e1NNFso
FY24阿里云暑期夏令营“学生说”第二集
听一听参与夏令营的同学们怎么说,阿里云在这里期待迎接更多优秀的同学们!了解更多夏令营信息请点击:https://edu.aliyun.com/learning/topic/xialy?spm=5176.20960838.0.0.1122305e1NNFso
Streaming Lakehouse Meetup
本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,会碰撞出怎样的火花?敬请期待! 讲师: 李劲松 阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家 徐榜江 阿里云 Flink 数据通道负责人 刘大龙 阿里云研发工程师 李国君 字节跳动基础架构工程师 周克勇 阿里云/数据湖Spark引擎负责人 曾庆栋 阿里云高级开发工程师 王洪顺 阿里云大数据开发工程师
基于 Kibana Discover 筛选数据,自由搜索航班信息
点此免费试用 ->本实验基于Kibana Discover 功能来搜索航班信息,例如航班号、航班状态、目的地天气等,并保存搜索和导出搜索结果为CSV报告。通过本实验,您将掌握Kibana Discover的使用方法,帮助您更加快速地筛选和搜索数据,从而提高工作效率。讲师简介刘晓国 - Elastic 首席布道师
3分钟开通阿里云检索分析服务Elasticsearch版免费试用
点此免费试用 ->保姆级教程!3分钟开通阿里云检索分析服务Elasticsearch版免费试用。阿里云检索分析服务Elasticsearch版兼容开源 ELK 功能,免运维全托管,适用于业务峰谷明显,提升企业数据检索与运维分析能力。
Flink Forward 核心技术 “基于Log的通用增量Checkpoint”
Flink Forward 核心技术 “基于Log的通用增量Checkpoint”俞航翔Apache Flink Contributor
六、培训课程-AIE技术分享之遥感AI模型自学习训练实践
为加强用户对AI Earth的理解,促进双方交流,提升AI Earth在地球科学领域的服务支撑能力,达摩院多位专家带来AI Earth地球科学云平台线上系列培训,干货满满,诚邀参与!
Flink Forward 行业实践“Flink 在中泰证券的实践与应用”
Flink Forward 行业实践“Flink 在中泰证券的实践与应用”连序全 中泰证券大数据中心实时计算架构师
Flink Forward 实时湖仓“Flink + StarRocks:实时数据分析新范式”
Flink Forward 实时湖仓“Flink + StarRocks:实时数据分析新范式”谢寅 StartRocket 社区技术布道师
Flink Forward 实时湖仓“美团数仓增量建设新进展”
Flink Forward 实时湖仓“美团数仓增量建设新进展”汤楚熙 美团数据系统研发工程师
Flink Forward 平台建设“Hive SQL迁移到Flink SQL在快手的实践”
Flink Forward 平台建设“Hive SQL迁移到Flink SQL在快手的实践”刘大龙 阿里云工程师张芒 快手大数据架构工程师
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。