抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。
从数据困境到智能跃迁:我与ODPS的三年成长记
2022年深秋,我所在的电商公司因用户暴增陷入数据处理危机,传统Hive集群在双11期间彻底瘫痪。转机出现在引入阿里云ODPS后,任务效率大幅提升,团队重拾信心。随着深入使用,DataWorks的可视化编排、ODPS的高性能计算与安全能力,极大优化了数据治理效率。我也从“写代码的人”转变为“用数据说话的人”。2024年,我们基于ODPS构建优惠券模型,推动GMV提升5%。ODPS不仅是技术工具,更是智能协作伙伴,助力我从执行者成长为数据价值的定义者。
Trino权威指南
Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。