EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus
在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。
MaxCompute Mars 完全指南
Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。
都在说实时数据架构,你了解多少?
本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。
入门必读!Apache Flink 零基础系列教程,30 天成长为 Flink 大神!
多位 Flink PMC 及核心贡献者出品,帮你建立系统框架体系,最详细的免费教程,Flink 入门必读经典!越早学习,越能抓住时代先机。
MaxCompute - ODPS重装上阵 第九弹 - 脚本模式与参数视图
MaxCompute提供了新的脚本模式与参数化视图,可以明显提高开发者的编程效率,提高代码的可重用性,与此同时,也提高了性能!
阿里云 Elasticsearch 向量检索,轻松玩转人脸识别、搜索推荐等29个业务场景
简介:我们知道,市面上有不少开源的向量检索库供大家选择使用,例如 Facebook 推出的 Faiss 以及 Nswlib,虽然选择较多,但业务上需要用到向量检索时,依旧要面对四大共性问题。
万字深度解析,飞天大数据平台DataWorks 如何撑起阿里99%的数据开发?
DataWorks作为飞天大数据平台操作系统,是阿里巴巴自主研发的全域智能大数据研发平台,支撑阿里巴巴经济体99%数据业务建设和治理,每天数万名数据开发和算法开发工程师在使用。
MaxCompute SQL与Hive对比分析及使用注意事项
一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。
百万TPS高吞吐、秒级低延迟,阿里搜索离线平台如何实现?
阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台总是不缺少性能的挑战,搜索离线平台经过哪些优化最终实现全量高吞吐、增量低延迟的呢?
【译】深入分析Spark UDF的性能
这篇博客会阐述一份关于Apache Spark的在Scala UDF、 PySpark UDF 和PySpark Pandas UDF之间的性能评测报告。
Apache Flink 的迁移之路,2 年处理效果提升 5 倍
在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度,对于不同的任务只需要实现一个 changer 链即可,并且支持水平扩展,性能尚可,曾经可以满足业务需求。
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践
2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。
基于Flink和规则引擎的实时风控解决方案
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。
Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。
日均处理万亿数据!Flink在快手的应用实践与技术演进之路
本次的分享包括以下三个部分: 1. 介绍 Flink 在快手的应用场景以及目前规模; 2. 介绍 Flink 在落地过程的技术演进过程; 3. 讨论 Flink 在快手的未来计划。
7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】
Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
Spark内置图像数据源初探
在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算。
优酷背后的大数据秘密
大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没有MaxCompute到有的这样一个历程,因为刚刚好我就是入职优酷差不多5年的时间,我们正好是在快到5年的时候,去做了从Hadoop到MaxCompute的这样一个升级。
利用PAI-DSW访问Github, 快速获取最新的学习资源
PAI-DSW(Data science workshop)是专门为数据科学探索者们准备的云端深度学习开发环境,用户可以登录 DSW 进行代码的开发并运行工作。目前 DSW 支持了Github下载,让我们可以更加便捷的访问上面的资源.
列式存储系列(一)C-Store
列式存储系列(一)概述 序 本文是列式存储系列的第一篇。在这个系列中,我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时,我们也尽量介绍一下它们的背景,以便大家有一个更宏观的认识,理解这个系统为什么会出现,它要解决的问题,以及它如何影响后来类似系统的发展。
运维场景下的实时计算应用
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总 运维场景主要有下面几个需求: 整体系统运行指标计算与可视化,可参考:数据仓库介绍与实时数仓案例 问题排查与全链路DEBUG,可参考:【阿里内部应用】基于Blink构建搜索全链路debug系统快速定位搜索问题、【阿里内部应用】基于Bli.
【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务
基于Blink为新商业调控打造实时大数据交互查询服务 从IT到DT、从电商到新商业,阿里巴巴的每个细胞都存在大数据的DNA,如何挖掘大数据的价值成为抢占未来先机的金钥匙!传统的大数据开发主要基于离线计算平台MaxCompute(ODPS)进行天级别、小时级别的批量数据分析,但近些年随着618、99.
带你玩转Logview: MaxCompute Logview参数详解和问题排查
对于Logview上的诸多参数信息,究竟应该怎么“拨开云雾”,发现问题所在呢?又如何通过Logview了解每个instance、task运行状态及资源占用情况,如何分析执行计划,分析query存在问题,找到Long-Tails task,让数据分析业务高效又省钱呢?本文中,阿里巴巴计算平台产品专家云花将为大家揭晓答案。
iGraph架构演进之三战
前言 iGraph是搜索事业部工程团队打造的实时在线图存储与查询的系统,提供大规模图数据的存储、查询、更新和计算服务,目前承载了集团多个部门5000+表的数据,双11期间proxy入口峰值流量1106w qps、实时数据峰值更新506w qps,是名副其实的在线数据航空母舰。
【逐云】阿里“水电煤”背后的人物故事
《逐云》第三期,我们拍了阿里巴巴通用计算平台负责人关涛,记录了他的学生时代,以及为什么从美回国来到阿里巴巴做通用计算平台,以及他对未来的展望。
MaxCompute Studio使用心得系列1——本地数据上传下载
通过MaxCompute Studio工具界面,轻松完成tunnel命令能完成的本地数据导入导出工作。打破大数据开发套件中本地数据文件导入10M的限制,和打破下载只能下载查询结果最多10000行的限制。
通过MaxCompute Studio创建UDF的简单介绍
UDF(User Defined Function), MaxCompute(原ODPS)里的东西, 之前经常听到开发同学讲, 自己一直没有去接触, 最近因为项目需要, 调研了一下UDF, 本文简单地介绍了一下如何新建工程, 添加代码,打包,上传资源包和注册方法, 对初次接触的小白同学,可能会有所帮助.
DataV账号间屏幕拷贝功能指南
账户间的拷屏功能就是这么低调地上线了。虽然操作非常简单,但是会涉及到一个用户识别码的新概念,拷屏过程中也会有一定的规则,所以还是向各位介绍具体操作。
DataV 支持 token 验证啦!
有很多同学希望把 DataV 创建的数据可视化大屏整合到自己的网站中,我们很早就提供了这样的支持。
OpenSearch:轻松构建大数据搜索服务
如何从海量的历史、实时数据中快速获取有用信息,令搜索变得越来越具挑战性。OpenSearch是阿里云推出的一款云搜索服务,本文将介绍OpenSearch的发展历程、基本功能、以及实现原理和架构,以实际应用场景为例讲述应用实践过程。
【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(四) NodeLabel调度
转载自xingbao各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第四篇,今天主要介绍NoedLabel的调度策略 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所示: 作为调度器,目前FuxiM
Vectorized Execution Engine in MaxCompute 2.0简介
前言 在《数据库系统中的Code Generation技术介绍》一文中,我们阐述了代码的CPU执行效率对于大规模分布式OLAP系统的重要性。现在简单总结如下: OLAP系统中查询往往比较复杂,比如多表Join, 各种聚合函数以及窗口函数,其中涉及大量的Hash计算(比如采用Hash
8080 和 3128 端口的核心区别及使用场景
HTTP代理常用端口8080与3128各有侧重:8080多用于管理监控(如Web配置界面),易记但可能被防火墙拦截;3128为标准端口,稳定性高,主供客户端正常请求转发。端口可自定义,需据安全与性能需求合理选用。
破解监管溯源难题:从表级血缘到算子级血缘的数据治理升级
算子级血缘则精确记录 SQL 内部的每一个操作步骤(如过滤、连接、聚合),如同清楚货物在流水线上的具体加工过程,对于需要精确口径追溯的监管场景至关重要。
天猫商品详情API全解析
天猫商品详情API是淘宝开放平台提供的官方接口,合规、高效获取天猫商品全量结构化数据(价格、销量、规格等),支持精准筛选与实时同步,助力选品决策、竞品分析与智能运营,规避爬虫风险。(239字)
证据不足 vs 证据冲突:哪个对模型更致命
本文揭示RAG系统中模型“胡说”的真相:问题常非幻觉(hallucination),而是**证据冲突**所致——当上下文混入矛盾信息,模型被迫自信编造答案;而证据不足反而易显犹豫、可控。工程上,宁可精简上下文、主动拒答,也不纵容冲突输入。
为什么很多团队从 PPO 转向 DPO,却又离不开 PPO
PPO与DPO并非新旧替代关系,而是分属对齐不同阶段的工具:PPO用于行为“塑形”(强干预、纠偏乱序),DPO用于偏好“定型”(稳定微调、精细排序)。选型关键看模型是否已基本可控——乱则用PPO,稳则用DPO。
NumPy技术文档:科学计算的基石
本教程系统讲解NumPy核心知识:从环境搭建与Hello World入门,到ndarray、广播机制、向量化运算三大核心概念;通过销售额分析实战,涵盖统计计算、移动平均、异常检测等典型应用;并总结最佳实践、常见陷阱及进阶方向,助你高效掌握科学计算基石。
智启未来:2026年,AI从“技术工具”到“共生文明”的跨代元年
2026年,“会基础设施”范式跃迁开启人类与非生物智能共治的“第二个起源”。AI从工具升维为文明要素:技术迈入工业级确定性应用,能力下沉至个体;产业全链重构,制度启动动态合规、权责厘清与红利再分配;文明契约转向生态共生、意义赋予与思维共同体培育——未来在制度与共识之中。
为什么你调的不是参数,而是风险
大模型微调不是调参,而是风险管理:学习率决定偏离幅度,batch size影响偏差放大,epoch迫使模型“选边”,LoRA rank拓展失控空间。参数非“强度 knob”,实为“风险杠杆”——每次调整都在重分配行为分布。成熟微调,重在理解并可控承担风险。
赶快体验!智能体来了,一起智创未来温馨生活
科技不止算力与参数,更该有温度。AI智能体正悄然融入生活:感知情绪、预判习惯、代管琐事,把人从重复决策中解放,腾出时间陪伴家人。它不是冰冷工具,而是懂你的“数字家人”。(239字)
基于yolov10的吸烟检测系统
本研究基于YOLOv10深度学习算法,构建高精度、实时化吸烟行为检测系统。针对传统方法在复杂场景下检测率低、效率差的问题,利用YOLOv10的动态稀疏注意力与多尺度融合优势,提升小目标与遮挡情况下的识别能力,结合五分类体系实现对香烟、烟雾、电子烟等多目标精准定位。系统支持GPU加速,达30帧/秒以上实时检测,可广泛应用于医院、机场等公共场所,助力无烟环境建设与智能安防升级,推动禁烟政策高效落地。
淘宝商品评论API使用指南
淘宝商品评论API可批量获取指定商品的评论数据,支持筛选评价类型、分页查询及提取评论内容、评分、晒图、买家信息等。需入驻淘宝开放平台,获取AppKey/AppSecret,调用接口taobao.item.review.get,通过签名验证,实现结构化数据采集,适用于电商分析与口碑监控。(239字)
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。