巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践
巴别时代基于 Apache Paimon(Incubating) 构建 Streaming Lakehouse 的生产实践经验。
ODPS是什么/阿里云一体化大数据平台ODPS的前世今生
ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。
阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践
本文将会介绍阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践。
FFA 2022 专场解读 - 实时风控 & 实时湖仓 & 数据集成
Flink Forward Asia 2022 实时风控 & 实时湖仓 & 数据集成专场内容节选
阿里云机器学习平台 PAI宣布集成国产深度学习框架 OneFlow
在云栖大会上,阿里云机器学习PAI平台宣布集成自研深度学习框架OneFlow,进一步提升对国产算法框架的支持。PAI可以在架构上实现包括对国际主流、国内自研在内的任何第三方深度学习框架的支持。
Flink 执行引擎:流批一体的融合之路
本文由 Apache Flink Committer 马国维分享,主要介绍 Flink 作为大数据计算引擎的流批一体融合之路。
DataWorks百问百答68:如何阅读数据集成日志(日志分析及常见报错情况)?
数据集成日志分析及常见报错情况(rds至odps版)
深入分析 Flink SQL 工作机制
本文首先会介绍推动这些优化背后的思考,展示统一的架构如何更好地处理流式和批式查询,其次将深入剖析 Flink SQL 的编译及优化过程。
阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。
SparkSQL ThriftServer 安全相关功能的现状分析
SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的,通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式,用户可以通过 JDBC and ODBC 协议,在Spark上执行 SQL。
欢迎加入Spark中国社区
欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群
BasicEngine — 基于DII平台的推荐召回引擎
BasicEngine是阿里巴巴搜索事业部自研的推荐在线召回引擎,依托强大的搜索底层技术支持,可以在线实现复杂的关联排序运算,支持灵活的推荐策略组合,为推荐系统的升级发展拓展了无限想象空间。
【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解
阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。
基于MaxCompute的图计算实践分享-Resolver简介
Resolver简介 在学习使用MaxCompute-Graph计算模型时,resolver是一个不容易理解的概念。在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.
梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践
梨视频由前澎湃新闻掌门人邱兵创立。 在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。 这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在
一个项目能长期活下去,靠的从来不是模型
AI项目成败关键不在模型强弱,而在于系统性生存能力:厘清责任边界、接纳不确定性、严控复杂度、建立止损机制、允许模型“不万能”、并在模型成功时保持克制。真正活久的项目,清醒、务实、敬畏现实。
你的模型真的“学”会了吗?微调效果评估实战指南
本文系统讲解大模型微调效果评估的核心方法论:强调评估比训练更重要,涵盖目标对齐、技术指标(Loss/PPL/BLEU/ROUGE)、人工评估四维度、业务验证(A/B测试、端到端场景)、泛化性检验及四步实战流程,并提供避坑指南与工具建议。重在目标驱动、多层验证、快速闭环。(239字)
指标平台选型必看:Aloudata CAN 虚拟业务事实网络破解复杂多表关联难题
为 NL2MQL2SQL、数据分析智能体(Agent)等 AI 应用提供了高质量、可理解、高性能的数据基础,是迈向智能决策的关键一步。
智能体对传统行业冲击:中后台,才是产业重塑的第一现场
本文探讨AI从“流程自动化”迈向“认知自主化”后,对传统行业结构性变革的影响:中后台(非一线岗位)正率先被智能体重构——因其任务具数字原生性、决策密度高、协调成本大。供应链、财务、人力三大场景首当其冲。组织正加速演进为“沙漏型”:价值重心转向决策自动化与智能体策略成熟度。(239字)
RAG 不是万能解,这些场景你一开始就不该用
RAG并非万能,默认滥用反致系统复杂、效果难测。它仅解决“信息获取”,不提升模型能力。最适合四类场景:动态知识更新、需答案溯源、长尾问题密集、需求尚不明确。慎用于强推理、隐性经验、高实时性及高确定性要求场景。核心判断:问题是“找不到信息”,还是“不会处理信息”?
别错过商机!智能体降临,携手智创未来商业传奇
AI智能体正推动商业范式革命:“一人公司”崛起、主动获客成常态、垂直场景成蓝海。它不止优化流程,更重构生意逻辑,降低创业门槛,释放“超级个体”潜能。(239字)
别再刷短视频了!你的赛博替身正在工厂拧螺丝:揭秘 AI Agent 搭建师
本文揭秘AI Agent搭建师这一新兴职业:不教人用AI,而是教人“克隆”24小时在线、永不摸鱼的数字分身。涵盖认知架构、提示词工程、RAG增强、自动化流、工具调用、自主循环、记忆持久化等12大核心能力,揭示如何将AI从聊天机器人升级为可落地的“数字合伙人”。
数据语义层 vs 宽表模式:哪种架构更适合 AI 时代的数据分析?
用户零等待指标交付,逻辑变更分钟级生效,无需 ETL;100%一致口径,所有人与 AI 通过同一语义层访问数据;无缝对接 AI,语义层为 AI 提供标准化查询 API。
1688商品列表API接口快速上手指南
本文介绍如何通过1688开放平台官方API,合规高效地获取店铺商品列表数据。以`item_search_shop`接口为例,详解请求参数、签名生成规则与调用限制,结合Python实战实现稳定采集。强调签名安全、频率控制与数据合规使用,助力B2B电商分析、选品监控等场景高效落地。(238字)
大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解
本文深入浅出解析大模型指令微调核心技术,从“能聊”到“会干”的关键跃迁。通过“教小孩做事”类比,拆解指令微调原理,详解数据格式、质量与策略三要素,提供16G显卡可跑的四步实操流程,并结合效果评估与未来趋势,助力新手快速掌握让大模型精准执行任务的核心方法。
基于深度学习的驾驶员行为检测系统
本研究聚焦基于深度学习的驾驶员行为检测系统,针对传统传感器方法局限,提出融合YOLOv8与计算机视觉的新方案,实现对疲劳、分心驾驶等行为的精准实时识别,提升行车安全,推动智能交通与自动驾驶发展。
【AI大模型面试宝典七】- 训练优化篇
【AI大模型面试宝典】聚焦强化学习核心考点:从MDP、贝尔曼方程到策略梯度、Actor-Critic框架,详解价值函数、优势函数与GAE等高频概念,结合蒙特卡洛与TD方法的偏差方差权衡,助你系统掌握RL原理与面试要点,轻松应对大模型算法挑战!
淘宝商品详情API接口指南
淘宝商品详情API(taobao.item.get)可获取商品标题、价格、图片、库存、销量等核心信息。支持POST/GET请求,返回JSON格式数据。需提供app_key、timestamp、sign等参数,常见响应码包括200(成功)、401(权限不足)、403(签名错误)等,适用于电商数据对接与分析。
北斗GPS卫星授时服务器运行介绍
北斗GPS授时服务器通过接收GNSS卫星信号,利用NTP/PTP协议输出精准时间,部分设备如SYN2136系列还支持串口RMC语句输出。本文介绍冷启动(需数分钟)、温启动(数十秒至数分钟)、热启动(数秒)的区别,以及常用通信语句GGA与RMC的对比。RMC提供位置、速度、航向和时间等全面信息,更适用于导航等综合场景,而GGA主要用于基础定位。根据需求选择合适模式与语句,可提升授时效率与精度。(238字)
京东商品评论API使用指南
京东商品评论API是京东开放平台提供的核心接口,用于查询指定SKU的用户评论数据,涵盖评分、内容、晒单图片、追评等信息。适用于电商分析、口碑监控等场景。需通过京东联盟申请appkey/appsecret授权调用,遵循平台规则与频率限制,严禁非合规爬取。
构建AI智能体:七十二、交叉验证:从模型评估的基石到大模型时代的演进
交叉验证是机器学习中评估模型性能的核心方法,通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现,展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来,传统交叉验证面临计算成本挑战,但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程,强调交叉验证在有限数据场景下的不可替代性,同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。
十、HQL:排序、联合与 CTE 高级查询
Hive 查询不仅能查,还能查得漂亮、高效。我们这次聚焦 HQL 中的高级技巧——从 ORDER BY 到 SORT BY、DISTRIBUTE BY 与 CLUSTER BY,带你理解排序在分布式环境中的执行逻辑;再深入讲解 UNION 与 CTE 等查询组织方式,帮你将复杂 SQL 拆解得更清晰。我还特意写了丰富示例与实战练习,适合正在提升 Hive 查询能力的你阅读、收藏和练习。
七、深入 Hive DDL:管理表、分区与洞察元数据
在日常使用 Hive 的过程中,我们不仅要会建表,更要学会灵活地维护和管理已有的数据结构。从添加字段到修改分区,从查看元数据到删除表或清空数据,掌握这些 DDL 操作和常用的 SHOW 命令,就像掌握了一套管理数据仓库的“万能钥匙”。这次将带你一步步熟悉这些命令的用法和实际应用场景,配合清晰的语法示例与练习题,帮助你更轻松地驾驭 Hive 数据管理的日常工作。
1688图片搜索相似商品API指南
1688图片搜索相似商品API基于图像识别技术,支持通过图片查找平台内相似商品,提供商品信息与相似度评分,适用于以图搜货、比价、供应链寻源等场景,提升采购效率。
打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践
本文将通过一个真实事故的复盘,解析开源 IK 分词器架构设计中的不足,并介绍阿里云 ES Serverless 如何通过“索引级词典”能力,彻底解决热更新引发的搜索错配问题。
活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
2025年12月20日,上海 · 阿里巴巴徐汇滨江园区,Apache Spark Meetup 助力企业构建高效数据平台,欢迎报名!
AI 十大论文精讲(六):拆解 LLM 智能体的 “通用密码”
本文解读复旦NLP团队2023年重磅综述《The Rise and Potential of Large Language Model Based Agents》,系统剖析LLM智能体“大脑-感知-行动”三大核心模块,涵盖单智能体、多智能体、人机协作与智能体社群四大应用场景,提炼工具SKMA体系、安全护栏、结果检查三大落地要点,并提出AGI路径、虚拟到物理迁移等开放问题,为构建通用智能体提供统一范式,被誉为该领域“入门圣经”。
发票验真API:基于权威数据源与阿里云平台的发票验真代码解析
发票验真迈向智能化新阶段,融合OCR识别与权威查验平台,实现全票种自动化验真。一站式接口高效、安全、可溯,支持批量处理与高并发调用,显著提升效率、降低合规风险,助力企业构建智能财税风控体系。(238字)
企业级 AI 数据分析“专家”——Data Agent 推动数据分析民主化
Data Agent(数据智能体)正从辅助工具向企业核心数据分析中枢演进,推动“人人都是分析师”的愿景落地。
AI 十大论文精讲(三):RLHF 范式奠基 ——InstructGPT 如何让大模型 “听懂人话”
本文解读AI十大核心论文之二——《Training Language Models to Follow Instructions with Human Feedback》。该论文提出RLHF框架,通过“监督微调-奖励建模-强化学习”三步法,首次实现大模型与人类意图的有效对齐,推动GPT-3进化为更安全、可信的InstructGPT,奠定ChatGPT等后续模型的技术基石,开启大模型“从博学到好用”的新时代。
闲鱼商品详情API接口指南
闲鱼商品详情API(Goodfish.item_get)为开发者提供通过商品ID获取标题、价格、图片、卖家等信息的接口,采用RESTful风格与JSON格式,支持价格监控、数据分析及第三方应用集成。
基于python大数据的高考志愿推荐系统
本研究基于数据挖掘技术,结合Django、Vue.js与MySQL等技术构建高考志愿推荐系统,整合高校信息与历年录取数据,通过算法模型为学生提供个性化、科学化的志愿填报建议,提升决策准确性与教育资源配置效率。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。