大数据与机器学习-博文-第40页-阿里云开发者社区

灵杰开发者

|

SQL 消息中间件存储

|

博文

巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践

巴别时代基于 Apache Paimon(Incubating) 构建 Streaming Lakehouse 的生产实践经验。

1634 0 0

来自：人工智能平台PAI 版块

项羽@阿里云大数据

|

SQL 存储分布式计算

|

博文

ODPS是什么/阿里云一体化大数据平台ODPS的前世今生

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

3801 0 1

来自：大数据计算 MaxCompute 版块

May-Hologres

|

SQL 算法 OLAP

|

博文

阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践

本文将会介绍阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践。

4520 0 1

来自：实时数仓 Hologres 版块

阿里云实时计算Flink

|

SQL NoSQL 架构师

|

博文

FFA 2022 专场解读 - 实时风控 & 实时湖仓 & 数据集成

Flink Forward Asia 2022 实时风控 & 实时湖仓 & 数据集成专场内容节选

1433 0 0

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

机器学习/深度学习人工智能 Cloud Native

|

博文

阿里云机器学习平台 PAI宣布集成国产深度学习框架 OneFlow

在云栖大会上，阿里云机器学习PAI平台宣布集成自研深度学习框架OneFlow，进一步提升对国产算法框架的支持。PAI可以在架构上实现包括对国际主流、国内自研在内的任何第三方深度学习框架的支持。

894 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

存储 SQL 调度

|

博文

Flink 执行引擎：流批一体的融合之路

本文由 Apache Flink Committer 马国维分享，主要介绍 Flink 作为大数据计算引擎的流批一体融合之路。

9246 1 5

来自：实时计算 Flink 版块

工程师U

|

算法安全视频直播

|

博文

批批网在B2B电商领域的搜索业务探索之路

B2B电商的搜索业务最佳实践案例分享

18387 0 0

来自：智能搜索推荐版块

zaid胡振宇

|

SQL DataWorks 监控

|

博文

DataWorks百问百答68：如何阅读数据集成日志（日志分析及常见报错情况）？

数据集成日志分析及常见报错情况（rds至odps版）

12127 0 0

来自：大数据开发治理DataWorks 版块

阿里云实时计算Flink

|

SQL 存储关系型数据库

|

博文

深入分析 Flink SQL 工作机制

本文首先会介绍推动这些优化背后的思考，展示统一的架构如何更好地处理流式和批式查询，其次将深入剖析 Flink SQL 的编译及优化过程。

8602 1 3

来自：实时计算 Flink 版块

温柔的养猫人

|

机器学习/深度学习存储消息中间件

|

博文

阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink

11月28日，Flink Forward Asia 2019 在北京国家会议中心召开，阿里在会上发布Flink 1.10版本功能前瞻，同时宣布基于Flink的机器学习算法平台Alink正式开源，这也是全球首个批流一体的算法平台，旨在降低算法开发门槛，帮助开发者掌握机器学习的生命全周期。

3580 0 0

来自：实时计算 Flink 版块

诚历

|

SQL 分布式计算安全

|

博文

SparkSQL ThriftServer 安全相关功能的现状分析

SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的，通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式，用户可以通过 JDBC and ODBC 协议，在Spark上执行 SQL。

3696 0 0

来自：开源大数据平台 E-MapReduce 版块

黯灭_邓彬

|

分布式计算 Spark

|

博文

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区！社区成员会定期把Spark（全球）社区的最新发布、文档等翻译后放到社区，并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动，非常欢迎大家加入社区，对于发帖、提问、答疑的同学，社区会给予特色的奖励 Spark社群钉钉群

9811 1 2

来自：开源大数据平台 E-MapReduce 版块

zongyuanwu

|

XML 存储算法

|

博文

BasicEngine — 基于DII平台的推荐召回引擎

BasicEngine是阿里巴巴搜索事业部自研的推荐在线召回引擎，依托强大的搜索底层技术支持，可以在线实现复杂的关联排序运算，支持灵活的推荐策略组合，为推荐系统的升级发展拓展了无限想象空间。

8891 0 0

来自：智能搜索推荐版块

工程师甲

|

监控大数据索引

|

博文

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包，包括安全、告警、监控、报表生成、图分析、机器学习等组件，用户可以开箱即用。本文将对X-Pack 的监控组件功能进行详细解读。

10301 1 1

来自：检索分析服务 Elasticsearch版版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

基于MaxCompute的图计算实践分享-Resolver简介

Resolver简介在学习使用MaxCompute-Graph计算模型时，resolver是一个不容易理解的概念。在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.

3141 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

存储分布式计算监控

|

博文

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

梨视频由前澎湃新闻掌门人邱兵创立。在上线之前，它就获得了黎瑞刚华人文化近1亿美元投资，旗下《微辣》栏目总播放量已经超过4亿，并在上线1个月后获得“年度视频新媒体”大奖。这样一款脱胎于传统媒体的创业型短视频软件，在视频领域异军突起，不仅让内人士在感叹梨视频内容生产力之强大的同时，也诧异于是谁在

13829 0 2

来自：开源大数据平台 E-MapReduce 版块

寒沙牧

|

分布式计算大数据分布式数据库

|

博文

HBase写性能优化

本文介绍了三种HBase数据写入的方法（1种多线程，2种mapreduce），并介绍了各类性能调优的方法

8784 0 0

来自：开源大数据平台 E-MapReduce 版块

大模型玩家七七

|

11天前

|

人工智能安全 C++

|

博文

一个项目能长期活下去，靠的从来不是模型

AI项目成败关键不在模型强弱，而在于系统性生存能力：厘清责任边界、接纳不确定性、严控复杂度、建立止损机制、允许模型“不万能”、并在模型成功时保持克制。真正活久的项目，清醒、务实、敬畏现实。

153 12 13

狸奴算君

|

12天前

|

数据采集自然语言处理监控

|

博文

你的模型真的“学”会了吗？微调效果评估实战指南

本文系统讲解大模型微调效果评估的核心方法论：强调评估比训练更重要，涵盖目标对齐、技术指标（Loss/PPL/BLEU/ROUGE）、人工评估四维度、业务验证（A/B测试、端到端场景）、泛化性检验及四步实战流程，并提供避坑指南与工具建议。重在目标驱动、多层验证、快速闭环。（239字）

83 0 0

游客vv4u4wyick5ti

|

13天前

|

SQL 存储人工智能

|

博文

指标平台选型必看：Aloudata CAN 虚拟业务事实网络破解复杂多表关联难题

为 NL2MQL2SQL、数据分析智能体（Agent）等 AI 应用提供了高质量、可理解、高性能的数据基础，是迈向智能决策的关键一步。

58 2 2

你的橙来啦

|

19天前

|

人工智能资源调度供应链

|

博文

智能体对传统行业冲击:中后台，才是产业重塑的第一现场

本文探讨AI从“流程自动化”迈向“认知自主化”后，对传统行业结构性变革的影响：中后台（非一线岗位）正率先被智能体重构——因其任务具数字原生性、决策密度高、协调成本大。供应链、财务、人力三大场景首当其冲。组织正加速演进为“沙漏型”：价值重心转向决策自动化与智能体策略成熟度。（239字）

100 8 8

大模型玩家七七

|

19天前

|

运维安全算法

|

博文

RAG 不是万能解，这些场景你一开始就不该用

RAG并非万能，默认滥用反致系统复杂、效果难测。它仅解决“信息获取”，不提升模型能力。最适合四类场景：动态知识更新、需答案溯源、长尾问题密集、需求尚不明确。慎用于强推理、隐性经验、高实时性及高确定性要求场景。核心判断：问题是“找不到信息”，还是“不会处理信息”？

123 10 10

智能体来了小锅

|

23天前

|

人工智能自然语言处理机器人

|

博文

别错过商机！智能体降临，携手智创未来商业传奇

AI智能体正推动商业范式革命：“一人公司”崛起、主动获客成常态、垂直场景成蓝海。它不止优化流程，更重构生意逻辑，降低创业门槛，释放“超级个体”潜能。（239字）

78 0 0

1隔壁老陈

|

23天前

|

人工智能安全算法

|

博文

别再刷短视频了！你的赛博替身正在工厂拧螺丝：揭秘 AI Agent 搭建师

本文揭秘AI Agent搭建师这一新兴职业：不教人用AI，而是教人“克隆”24小时在线、永不摸鱼的数字分身。涵盖认知架构、提示词工程、RAG增强、自动化流、工具调用、自主循环、记忆持久化等12大核心能力，揭示如何将AI从聊天机器人升级为可落地的“数字合伙人”。

117 7 7

游客vv4u4wyick5ti

|

25天前

|

存储 SQL 人工智能

|

博文

数据语义层 vs 宽表模式：哪种架构更适合 AI 时代的数据分析？

用户零等待指标交付，逻辑变更分钟级生效，无需 ETL；100%一致口径，所有人与 AI 通过同一语义层访问数据；无缝对接 AI，语义层为 AI 提供标准化查询 API。

105 1 1

winx_19970108018

|

25天前

|

数据采集监控 API

|

博文

1688商品列表API接口快速上手指南

本文介绍如何通过1688开放平台官方API，合规高效地获取店铺商品列表数据。以`item_search_shop`接口为例，详解请求参数、签名生成规则与调用限制，结合Python实战实现稳定采集。强调签名安全、频率控制与数据合规使用，助力B2B电商分析、选品监控等场景高效落地。（238字）

114 1 1

Echo_Wish

|

28天前

|

机器学习/深度学习人工智能算法

|

博文

新能源电池寿命预测模型

134 11 11

大模型玩家七七

|

28天前

|

数据采集自然语言处理搜索推荐

|

博文

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解

本文深入浅出解析大模型指令微调核心技术，从“能聊”到“会干”的关键跃迁。通过“教小孩做事”类比，拆解指令微调原理，详解数据格式、质量与策略三要素，提供16G显卡可跑的四步实操流程，并结合效果评估与未来趋势，助力新手快速掌握让大模型精准执行任务的核心方法。

151 3 3

计算机程序设计的泡泡Y2013070224

|

1月前

|

机器学习/深度学习传感器安全

|

博文

基于深度学习的驾驶员行为检测系统

本研究聚焦基于深度学习的驾驶员行为检测系统，针对传统传感器方法局限，提出融合YOLOv8与计算机视觉的新方案，实现对疲劳、分心驾驶等行为的精准实时识别，提升行车安全，推动智能交通与自动驾驶发展。

137 7 8

断箭42

|

1月前

|

机器学习/深度学习人工智能算法

|

博文

【AI大模型面试宝典七】- 训练优化篇

【AI大模型面试宝典】聚焦强化学习核心考点：从MDP、贝尔曼方程到策略梯度、Actor-Critic框架，详解价值函数、优势函数与GAE等高频概念，结合蒙特卡洛与TD方法的偏差方差权衡，助你系统掌握RL原理与面试要点，轻松应对大模型算法挑战！

123 0 0

来自：人工智能平台PAI 版块

winx_19970108018

|

1月前

|

XML JSON 算法

|

博文

淘宝商品详情API接口指南

淘宝商品详情API（taobao.item.get）可获取商品标题、价格、图片、库存、销量等核心信息。支持POST/GET请求，返回JSON格式数据。需提供app_key、timestamp、sign等参数，常见响应码包括200（成功）、401（权限不足）、403（签名错误）等，适用于电商数据对接与分析。

149 0 0

游客tgbjq2ysbujlu

|

1月前

|

存储定位技术

|

博文

北斗GPS卫星授时服务器运行介绍

北斗GPS授时服务器通过接收GNSS卫星信号，利用NTP/PTP协议输出精准时间，部分设备如SYN2136系列还支持串口RMC语句输出。本文介绍冷启动（需数分钟）、温启动（数十秒至数分钟）、热启动（数秒）的区别，以及常用通信语句GGA与RMC的对比。RMC提供位置、速度、航向和时间等全面信息，更适用于导航等综合场景，而GGA主要用于基础定位。根据需求选择合适模式与语句，可提升授时效率与精度。（238字）

138 1 1

游客2hehlpp5ckvw4

|

2月前

|

消息中间件运维物联网

|

博文

语音通知

适用于科技公司服务器及物联网设备异常时的语音告警通知。开通语音服务后，可申请资质、话术与模板，通过API调用实现自动外呼，支持变量替换与实时结果查询，提升运维响应效率。（238字）

81 0 0

winx_19970108018

|

2月前

|

JSON 监控 API

|

博文

京东商品评论API使用指南

京东商品评论API是京东开放平台提供的核心接口，用于查询指定SKU的用户评论数据，涵盖评分、内容、晒单图片、追评等信息。适用于电商分析、口碑监控等场景。需通过京东联盟申请appkey/appsecret授权调用，遵循平台规则与频率限制，严禁非合规爬取。

166 0 0

AI未闻花名

|

2月前

|

机器学习/深度学习数据采集人工智能

|

博文

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

交叉验证是机器学习中评估模型性能的核心方法，通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现，展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来，传统交叉验证面临计算成本挑战，但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程，强调交叉验证在有限数据场景下的不可替代性，同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。

239 16 17

IvanCodes

|

2月前

|

SQL 大数据数据挖掘

|

博文

十、HQL：排序、联合与 CTE 高级查询

Hive 查询不仅能查，还能查得漂亮、高效。我们这次聚焦 HQL 中的高级技巧——从 ORDER BY 到 SORT BY、DISTRIBUTE BY 与 CLUSTER BY，带你理解排序在分布式环境中的执行逻辑；再深入讲解 UNION 与 CTE 等查询组织方式，帮你将复杂 SQL 拆解得更清晰。我还特意写了丰富示例与实战练习，适合正在提升 Hive 查询能力的你阅读、收藏和练习。

136 6 6

IvanCodes

|

2月前

|

SQL 存储数据管理

|

博文

七、深入 Hive DDL：管理表、分区与洞察元数据

在日常使用 Hive 的过程中，我们不仅要会建表，更要学会灵活地维护和管理已有的数据结构。从添加字段到修改分区，从查看元数据到删除表或清空数据，掌握这些 DDL 操作和常用的 SHOW 命令，就像掌握了一套管理数据仓库的“万能钥匙”。这次将带你一步步熟悉这些命令的用法和实际应用场景，配合清晰的语法示例与练习题，帮助你更轻松地驾驭 Hive 数据管理的日常工作。

209 6 6

Echo_Wish

|

2月前

|

SQL 存储分布式计算

|

博文

别让大数据“全表扫描”掏空你：数据分区策略与分区裁剪的实战心经

177 3 3

winx_19970108018

|

2月前

|

供应链搜索推荐 API

|

博文

1688图片搜索相似商品API指南

1688图片搜索相似商品API基于图像识别技术，支持通过图片查找平台内相似商品，提供商品信息与相似度评分，适用于以图搜货、比价、供应链寻源等场景，提升采购效率。

195 9 9

Echo_Wish

|

2月前

|

数据采集分布式计算监控

|

博文

Airflow 做 ETL，真不是“排个 DAG 就完事儿”：那些年我踩过的坑与悟出的道

194 4 4

灵杰开发者

|

2月前

|

自然语言处理运维 Serverless

|

博文

打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

本文将通过一个真实事故的复盘，解析开源 IK 分词器架构设计中的不足，并介绍阿里云 ES Serverless 如何通过“索引级词典”能力，彻底解决热更新引发的搜索错配问题。

322 9 9

来自：检索分析服务 Elasticsearch版版块

阿里云大数据

|

2月前

|

分布式计算 Serverless 数据处理

|

博文

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

2025年12月20日，上海 · 阿里巴巴徐汇滨江园区，Apache Spark Meetup 助力企业构建高效数据平台，欢迎报名！

230 3 3

来自：开源大数据平台 E-MapReduce 版块

ChenAI_TGF

|

2月前

|

人工智能自然语言处理安全

|

博文

AI 十大论文精讲（六）：拆解 LLM 智能体的 “通用密码”

本文解读复旦NLP团队2023年重磅综述《The Rise and Potential of Large Language Model Based Agents》，系统剖析LLM智能体“大脑-感知-行动”三大核心模块，涵盖单智能体、多智能体、人机协作与智能体社群四大应用场景，提炼工具SKMA体系、安全护栏、结果检查三大落地要点，并提出AGI路径、虚拟到物理迁移等开放问题，为构建通用智能体提供统一范式，被誉为该领域“入门圣经”。

372 4 4

游客ltrt7kyr2nprs

|

3月前

|

人工智能 JSON 文字识别

|

博文

发票验真API：基于权威数据源与阿里云平台的发票验真代码解析

发票验真迈向智能化新阶段，融合OCR识别与权威查验平台，实现全票种自动化验真。一站式接口高效、安全、可溯，支持批量处理与高并发调用，显著提升效率、降低合规风险，助力企业构建智能财税风控体系。（238字）

490 0 0

游客vv4u4wyick5ti

|

3月前

|

SQL 人工智能自然语言处理

|

博文

企业级 AI 数据分析“专家”——Data Agent 推动数据分析民主化

Data Agent（数据智能体）正从辅助工具向企业核心数据分析中枢演进，推动“人人都是分析师”的愿景落地。

637 0 0

ChenAI_TGF

|

3月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

AI 十大论文精讲（三）：RLHF 范式奠基 ——InstructGPT 如何让大模型 “听懂人话”

本文解读AI十大核心论文之二——《Training Language Models to Follow Instructions with Human Feedback》。该论文提出RLHF框架，通过“监督微调-奖励建模-强化学习”三步法，首次实现大模型与人类意图的有效对齐，推动GPT-3进化为更安全、可信的InstructGPT，奠定ChatGPT等后续模型的技术基石，开启大模型“从博学到好用”的新时代。

733 152 153

winx_19970108018

|

3月前

|

JSON 监控数据挖掘

|

博文

闲鱼商品详情API接口指南

闲鱼商品详情API（Goodfish.item_get）为开发者提供通过商品ID获取标题、价格、图片、卖家等信息的接口，采用RESTful风格与JSON格式，支持价格监控、数据分析及第三方应用集成。

487 1 1

计算机程序设计的泡泡Y2013070224

|

3月前

|

搜索推荐 JavaScript 关系型数据库

|

博文

基于python大数据的高考志愿推荐系统

本研究基于数据挖掘技术，结合Django、Vue.js与MySQL等技术构建高考志愿推荐系统，整合高校信息与历年录取数据，通过算法模型为学生提供个性化、科学化的志愿填报建议，提升决策准确性与教育资源配置效率。

300 12 12

Echo_Wish

|

4月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

多模态AI的脑回路：机器是怎么做到“看、听、说、想”的？

448 13 13

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践

ODPS是什么/阿里云一体化大数据平台ODPS的前世今生

阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践

FFA 2022 专场解读 - 实时风控 & 实时湖仓 & 数据集成

阿里云机器学习平台 PAI宣布集成国产深度学习框架 OneFlow

Flink 执行引擎：流批一体的融合之路

批批网在B2B电商领域的搜索业务探索之路

DataWorks百问百答68：如何阅读数据集成日志（日志分析及常见报错情况）？

深入分析 Flink SQL 工作机制

推荐系统基本概念和架构

阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink

SparkSQL ThriftServer 安全相关功能的现状分析

欢迎加入Spark中国社区

BasicEngine — 基于DII平台的推荐召回引擎

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

基于MaxCompute的图计算实践分享-Resolver简介

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

HBase写性能优化

一个项目能长期活下去，靠的从来不是模型

你的模型真的“学”会了吗？微调效果评估实战指南

指标平台选型必看：Aloudata CAN 虚拟业务事实网络破解复杂多表关联难题

智能体对传统行业冲击:中后台，才是产业重塑的第一现场

RAG 不是万能解，这些场景你一开始就不该用

别错过商机！智能体降临，携手智创未来商业传奇

别再刷短视频了！你的赛博替身正在工厂拧螺丝：揭秘 AI Agent 搭建师

数据语义层 vs 宽表模式：哪种架构更适合 AI 时代的数据分析？

1688商品列表API接口快速上手指南

新能源电池寿命预测模型

大模型从“瞎聊”到“干活”：指令微调核心逻辑全拆解

基于深度学习的驾驶员行为检测系统

【AI大模型面试宝典七】- 训练优化篇

淘宝商品详情API接口指南

北斗GPS卫星授时服务器运行介绍

语音通知

京东商品评论API使用指南

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

十、HQL：排序、联合与 CTE 高级查询

七、深入 Hive DDL：管理表、分区与洞察元数据

别让大数据“全表扫描”掏空你：数据分区策略与分区裁剪的实战心经

1688图片搜索相似商品API指南

Airflow 做 ETL，真不是“排个 DAG 就完事儿”：那些年我踩过的坑与悟出的道

打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

AI 十大论文精讲（六）：拆解 LLM 智能体的 “通用密码”

发票验真API：基于权威数据源与阿里云平台的发票验真代码解析

企业级 AI 数据分析“专家”——Data Agent 推动数据分析民主化

AI 十大论文精讲（三）：RLHF 范式奠基 ——InstructGPT 如何让大模型 “听懂人话”

闲鱼商品详情API接口指南

基于python大数据的高考志愿推荐系统

多模态AI的脑回路：机器是怎么做到“看、听、说、想”的？

大数据与机器学习

活跃用户

相关产品