大数据与机器学习-博文-第49页-阿里云开发者社区

bigdatatang

|

存储运维大数据

|

博文

大数据上云存算分离演进思考与探讨-2022

当前大数据上云与存算分离的技术趋势越来越成为行业标准与发展方向。作为大数据商业化的践行者，从存算分离的演进/定义/价值/架构应用/实践/对比等多个维度来分析与探讨其发展历程与组成体系。为大数据存算分离技术整体发展添砖加瓦。

4135 2 8

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

存储运维 Cloud Native

|

博文

Flink Remote Shuffle 开源：面向流批一体与云原生的 Shuffle 服务

Flink Remote Shuffle 正式开源！

1763 0 0

来自：实时计算 Flink 版块

工程师U

|

存储达摩院自然语言处理

|

博文

【新功能】开放搜索多路召回技术解读

多路召回就是指采用不同的策略、特征或者简单模型，分别召回一部分候选集，然后再把这些候选集混合在一起后供后续排序模型使用的策略，本文将介绍开放搜索平台上的多路召回技术是如何深度提升搜索效果的~

5758 0 1

来自：智能搜索推荐版块

阿里云实时计算Flink

|

SQL 关系型数据库 MySQL

|

博文

Flink CDC 2.0 正式发布，详解核心改进

Flink CDC 2.0.0 版本于 8 月 10 日正式发布，点击了解详情～

27617 1 10

来自：实时计算 Flink 版块

dataworks_demo21

|

数据采集 SQL 存储

|

博文

DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》

数据质量问题虽然从数据工程师的角度来看是个简单问题，但是从业务的角度来看是个很严重的问题。所以数据质量是数据开发和治理全生命周期中，非常重要的一个环节。在DataWorks产品版图里，数据质量也是非常重要的模块之一。

5130 0 3

来自：大数据开发治理DataWorks 版块

龙青云

|

SQL 资源调度分布式计算

|

博文

MaxCompute中如何通过logview诊断慢作业

MaxCompute致力于批量结构化数据的存储和计算，提供海量数据仓库的解决方案及分析建模服务，在MaxCompute执行sql任务的时候有时候作业会很慢，本文通过查看logview排查具体任务慢的原因

5368 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

存储消息中间件分布式计算

|

博文

百信银行基于 Apache Hudi 实时数据湖演进方案

本文介绍了百信银行实时计算平台的建设情况，实时数据湖构建在 Hudi 上的方案和实践方法，以及实时计算平台集成 Hudi 和使用 Hudi 的方式。

10175 0 0

来自：实时计算 Flink 版块

亢海鹏

|

SQL 存储分布式计算

|

博文

MaxCompute产品消费相关文章合集

MaxCompute （原odps）是面向分析的企业级SaaS模式云数据仓库，以Serverless架构提供全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入。MaxCompute支持多种经典计算模型（批处理、机器学习、交互式分析等）和完善的企业管理功能，借助MaxCompute，用户可轻松集成和管理企业数据资产，简化数据平台架构，加速价值实现。

1055 0 0

来自：大数据计算 MaxCompute 版块

dataworks_demo21

|

DataWorks 分布式计算 MaxCompute

|

博文

DataWorks OpenAPI 示例（元数据模块）

DataWorks OpenAPI 示例

5972 0 0

来自：大数据开发治理DataWorks 版块

海清

|

新零售分布式计算 DataWorks

|

博文

持续定义Saas模式云数据仓库+BI

简介：阿里云技术专家海清为大家带来持续定义Saas模式云数据仓库+BI的介绍。内容包括云数据仓库概述，BI使用场景与趋势，基于MaxCompute云数仓+BI的特性，以及实践案例。

7492 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

数据采集消息中间件存储

|

博文

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍，本文探讨了一种数据管理架构，该架构可以在数据到达时，通过主动监控和分析来检测流式数据中损坏或不良的数据，并且不会造成瓶颈。

2953 0 0

来自：开源大数据平台 E-MapReduce 版块

健炜

|

SQL 存储分布式计算

|

博文

MaxCompute SQL与Hive对比分析及使用注意事项

一个使用过Hadoop的Hive框架的大数据开发工程师，往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项，方便用户来开发使用MaxCompute，实现从Hive秒速迁移到MaxCompute。

5306 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

流计算分布式计算消息中间件

|

博文

用Flink取代Spark Streaming！知乎实时数仓架构演进

- 实时数仓 1.0 版本，主题：ETL 逻辑实时化，技术方案：Spark Streaming。 - 实时数仓 2.0 版本，主题：数据分层，指标计算实时化，技术方案：Flink Streaming。 - 实时数仓未来展望：Streaming SQL 平台化，元信息管理系统化，结果验收自动化。

5071 1 1

来自：实时计算 Flink 版块

隐林

|

SQL 分布式计算资源调度

|

博文

MaxCompute常见错误汇总（更新ing）

从今天开始，小编会为大家陆续解读MaxCompute常见问题，帮助大家快速上手MaxCompute，玩转大数据计算平台。

24812 8 9

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 Java 大数据

|

博文

MaxCompute UDF系列之身份证校验及15位身份证号码转换成18位

为了验证一些老证件上的身份证号码到底是不是本人，今天为大家提供一个15位身份证号码转换成18位的MaxCompute的UDF，下载地址见附件。效果如下： MaxCompute UDF代码如下： /*** * 身份证号码构成：6位地址编码+8位生日+3位顺序码

6989 0 1

来自：大数据计算 MaxCompute 版块

s4puj2y4jsam4

|

17天前

|

人工智能自然语言处理前端开发

|

博文

AI赋能跨境代购！taocarts智能选品+自动翻译+风控，降本增效新路径（附AI代码）

随着反向海淘行业的竞争加剧，“效率提升”成为代购从业者的核心诉求——人工选品耗时耗力、多语言翻译不精准、虚假订单欺诈等问题，严重制约行业规模化发展。taocarts跨境独立站系统融入AI技术，结合React、Laravel框架，实现AI智能选品、自动翻译、交易风控三大核心功能，依托阿里云AI服务，为代购从业者提供智能化解决方案，从技术层面实现降本增效，以下从AI技术实现、功能落地等角度，为阿里云社区开发者提供干货分享。

130 4 4

赵渝强老师

|

18天前

|

分布式计算资源调度 Hadoop

|

博文

【赵渝强老师】Hadoop的伪分布部署模式

本文详解Hadoop伪分布式部署：涵盖目录结构、环境变量配置、核心配置文件（hdfs-site.xml等）修改、NameNode格式化、集群启动及Web UI访问，并通过WordCount实例验证HDFS与YARN功能。

96 0 0

游客avsawnkvmmxp6

|

24天前

|

SQL 自然语言处理 BI

|

博文

固定指标问答和复杂经营分析,为什么适合的技术路线往往不是同一类?

企业智能问数需分两类：固定指标问答（重稳定、快响应，适配预置SQL/指标层）与复杂经营分析（重语义理解、跨系统推理，依赖本体语义层）。二者问题结构本质不同，选型关键不在厂商优劣，而在厘清自身需求——80%固定问题宜选轻量路线；高频跨域、开放式分析则本体语义层更具长期价值。

100 1 1

游客vv4u4wyick5ti

|

24天前

|

SQL 人工智能自然语言处理

|

博文

如何通过 NoETL 指标平台构建企业唯一指标计算中心

核心在于 NoETL 语义编织技术

98 1 1

游客vv4u4wyick5ti

|

25天前

|

SQL 人工智能自然语言处理

|

博文

Aloudata Agent 全新升级：打造你的专属 AI 分析搭档

升级后的 Aloudata Agent 实现了从“用户驱动”到“AI 驱动”的根本转变。

111 2 2

s4puj2y4jsam4

|

1月前

|

自然语言处理运维供应链

|

博文

反向海淘爆发下，多平台铺货效率决定规模｜taocarts 打通 Shopify/Coupang 自动化链路

反向海淘风口下，多渠道铺货已成为跨境创业者规模化运营的核心路径，但传统代购系统源码普遍存在多平台对接缺失、订单与采购割裂、人工操作效率低下等痛点。本文从技术适配与效率提升角度，解析taocarts跨境独立站系统如何通过一键铺货、订单同步、自动采购全链路闭环，打通Shopify、Coupang等海外主流电商平台，结合多语言多货币、运费估算、海外仓备货等能力，帮助反向海淘独立站从业者降本增效，快速抢占多渠道红利，同时规避技术对接与合规风险。

188 1 1

来自：大数据运维SREWorks 版块

winx_19970108018

|

1月前

|

人工智能 JSON 监控

|

博文

天猫商品详情API数据解析

天猫商品详情API解析方案，涵盖taobao/tmall.item.get接口字段说明、JSON结构、解析代码及SKU/详情图/规格提取。支持价格库存、竞品监测、舆情预警等场景，AI智能清洗、卖点解析与爆款预测，助力中小卖家高效用数。（239字）

149 0 0

Echo_Wish

|

2月前

|

自然语言处理

|

博文

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

237 3 3

二二得四GEO

|

2月前

|

人工智能 SEO

|

博文

我学GEO的第一天：原来AI搜东西和百度完全不一样

第1天学GEO，我发现：以前做SEO是让网页排得靠前，现在做GEO是让AI直接提到你。我用这篇文章做了第一个实验，一个月后告诉你结果。

317 1 1

游客ge22cshlwsljm

|

2月前

|

Java 容器 JavaScript

|

博文

从"代码跑不通"到"答辩演示丝滑流畅"：毕设部署避坑完全指南

毕设答辩“最后一公里”常因部署失败翻车！本文提供本地一键、云服务器、Docker三种部署方案，重点推荐智码方舟AI生成器——10分钟获取配置完备的部署文档+脚本，规避90%环境问题，助你稳过答辩。

329 2 2

悟空爬虫

|

2月前

|

人工智能安全程序员

|

博文

50%的人给了差评：龙虾为何在技术论坛翻车了？

OpenClaw（龙虾）AI工具因“自动赚钱”“代约主播”等夸张宣传走红，但吾爱破解论坛投票显示：50%技术用户未下载且不认可其能力。技术圈冷静源于见惯“神器”泡沫——AI擅写代码（搬砖），却难懂需求、统筹系统。它不是神药，而是待磨的砍柴刀。

353 3 3

工程师高培

|

2月前

|

存储缓存负载均衡

|

博文

Linux内核三大核心模块深度解析：调度、内存与I/O

Linux内核三大核心模块——进程调度（CFS/EEVDF等）、内存管理（buddy/slub、页回收、THP）与文件I/O（io_uring、页缓存、I/O调度）——共同决定系统性能与稳定性。深入理解其原理及协同机制，是高性能开发、调优与故障诊断的基石。（239字）

306 2 2

winx_19970108018

|

2月前

|

XML JSON 监控

|

博文

阐述：关键词搜索京东商品列表API接口

京东关键词搜索商品列表API是其开放平台核心接口，支持按关键词检索商品，提供多条件筛选、分页排序及丰富字段（价格、销量、店铺、库存等），适用于选品、竞品分析、价格监控与联盟推广，需AppKey+签名认证。

263 1 1

Echo_Wish

|

2月前

|

消息中间件监控算法

|

博文

别只盯着离线指标了：用大数据把模型“在线状态”盯死

272 2 2

Davidham3

|

3月前

|

Rust 并行计算算法

|

博文

从130倍性能提升看Python的批量计算和并行化策略：traj-dist-rs的并行策略实现

本文以traj-dist-rs为例，讲解使用rust与rayon在python的计算密集型任务中的性能提升方案。

252 6 6

大模型玩家七七

|

3月前

|

数据库 C++

|

博文

相似度搜索 ≠ 语义理解：向量数据库的能力边界

本文直击RAG系统常见误区：向量数据库只解决“相似性检索”，不等于“语义理解”。它能高效召回“看起来相关”的内容，但无法判断概念等价、逻辑冲突、条件限制或信息可用性。混淆二者是多数故障根源。正确认知其边界，方能工程化落地。

270 3 3

Echo_Wish

|

3月前

|

机器学习/深度学习传感器运维

|

博文

数据不够用？别急着骂业务，数据增强和合成数据真能救命

253 2 2

Echo_Wish

|

3月前

|

机器学习/深度学习运维监控

|

博文

数据不出门，也能一起“卷模型”——聊聊隐私保护下的联邦学习：原理与工程实践

456 4 4

winx_19970108018

|

3月前

|

数据采集人工智能监控

|

博文

天猫商品详情API全解析

天猫商品详情API是淘宝开放平台提供的官方接口，合规、高效获取天猫商品全量结构化数据（价格、销量、规格等），支持精准筛选与实时同步，助力选品决策、竞品分析与智能运营，规避爬虫风险。（239字）

299 1 1

你的橙来啦

|

4月前

|

存储人工智能安全

|

博文

重构认知——AI智能体来了从0到1的落地工程全指南

本文系统阐述AI智能体开发方法论：突破“调参”思维，以感知、决策、执行、记忆四大架构为基，提出从场景锁定到评估优化的“五步跃迁法”，助力开发者构建具备行业深度与自主行动力的数字生命。（239字）

385 0 0

Echo_Wish

|

4月前

|

机器学习/深度学习人工智能算法

|

博文

新能源电池寿命预测模型

281 11 11

代理IP不迷路

|

4月前

|

数据采集安全数据安全/隐私保护

|

博文

代理地址≠协议！HTTPS使用误区拆解

跨境运营、爬虫从业者必看！99%人混淆的代理误区：代理地址带https≠HTTPS代理。关键看目标网站协议！目标为HTTPS时，即使代理是http，仍为HTTPS代理。掌握核心：目标URL决定代理类型，代理前缀仅影响传输加密。三步避坑指南，提升效率与隐私安全。

381 0 0

灵杰开发者

|

4月前

|

存储人工智能运维

|

博文

真实案例复盘：从“三套烟囱”到 All in ES，这家企业如何砍掉 40%运维成本

某泛娱乐平台面临搜索架构复杂、成本高企难题，通过阿里云Elasticsearch实现日志、搜索、向量一体化重构。借助Serverless化与混合存储，成本降60%，运维统一，查询效率倍增，验证了“All in ES”极简架构在AI时代的高效与可扩展性。

330 1 1

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

4月前

|

数据采集 JSON 监控

|

博文

淘宝商品评论API使用指南

淘宝商品评论API可批量获取指定商品的评论数据，支持筛选评价类型、分页查询及提取评论内容、评分、晒图、买家信息等。需入驻淘宝开放平台，获取AppKey/AppSecret，调用接口taobao.item.review.get，通过签名验证，实现结构化数据采集，适用于电商分析与口碑监控。（239字）

303 1 1

断箭42

|

4月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

AI大模型面试宝典

【AI大模型面试宝典】聚焦Transformer核心架构，拆解自注意力、多头机制、位置编码等高频考点，配代码实现与面试真题解析，助你快速掌握大模型面试关键知识点,无痛拿下offer！

295 0 0

来自：人工智能平台PAI 版块

遗忘的我们平平-28588

|

4月前

|

机器学习/深度学习监控算法

|

博文

基于深度学习的车牌识别系统

在智能交通快速发展背景下，传统车牌识别技术受限于复杂环境，难以满足高精度需求。深度学习凭借强大特征学习能力，显著提升识别准确率与鲁棒性，成为主流技术方向。本文综述基于YOLOv8等先进模型的研究进展，探讨系统实现关键步骤，推动智慧交通与城市治理智能化升级。

382 9 9

Lwcah

|

4月前

|

机器学习/深度学习传感器算法

|

博文

Python | K折交叉验证的参数优化的弹性网络回归预测及可视化算法

本教程介绍基于Python的K折交叉验证与参数优化的弹性网络回归预测算法，涵盖贝叶斯、随机及网格搜索三种调参方法，结合SHAP分析、密度散点图与热力图等可视化技术，适用于多领域回归任务，代码及数据完整可复现。

289 0 0

建站专业户

|

4月前

|

Web App开发安全前端开发

|

博文

2026年建设网站的十个步骤

2026 年优质网站建设十大关键步骤涵盖需求分析、架构规划等全生命周期环节，以 PageAdmin 低代码平台为支撑，兼顾设计、开发、测试、部署与运维，可高效构建功能完善、体验优良的专业网站，契合多元需求与长期发展目标。

645 2 2

AI未闻花名

|

4月前

|

人工智能监控搜索推荐

|

博文

构建AI智能体：八十三、当AI开始“失忆“：深入理解和预防模型衰老与数据漂移

AI模型会因数据分布变化和时间推移而性能下降，即“模型衰老”与“数据漂移”。如同知识过时，旧模型难以适应新环境，导致预测不准。需通过PSI、KS等指标监测，并定期重训练以保持其有效性。

351 8 8

AI未闻花名

|

4月前

|

存储机器学习/深度学习人工智能

|

博文

构建AI智能体：八十一、SVD模型压缩的艺术：如何科学选择K值实现最佳性能

本文探讨了SVD（奇异值分解）在深度学习模型压缩中的应用。随着模型规模不断扩大，面临的存储、计算和能耗问题日益突出。SVD通过将大型矩阵分解为三个特殊矩阵（U、Σ、Vᵀ），并根据奇异值大小进行截断，实现模型的高效压缩。文章详细分析了SVD的数学原理、压缩机制和参数选择策略，重点讨论了如何通过能量保留、目标压缩率和拐点检测等方法确定最佳截断秩k。以一个500×300的用户-物品矩阵为例，实证显示k=32时能实现82.93%的压缩率，99.97%的能量保留和5.86倍计算加速，达到了精度损失与压缩收益的最佳平衡

411 5 5

Echo_Wish

|

5月前

|

运维前端开发算法

|

博文

Web3 的真相：天天喊去中心化，可中心到底“藏”在哪？

369 12 12

winx_19970108018

|

5月前

|

数据采集 JSON 监控

|

博文

京东店铺所有商品API接口使用指南

本文介绍如何对接京东开放平台“店铺所有商品API”，通过调用`JD.item_search_shop`接口，以编程方式获取POP或自营店铺的商品信息（如ID、标题、价格、库存等），适用于运营分析、库存监控等场景。需配置AppKey、时间戳等公共参数，并传入seller_id、page_no等业务参数实现分页查询，无需access_token授权。

424 1 1

游客vv4u4wyick5ti

|

5月前

|

SQL 自然语言处理安全

|

博文

从“被动防御”到“主动可控”，Data Agent 如何实现精细化权限管控？

让企业敢于将数据分析能力开放给更多角色，在保障安全合规的前提下，充分释放数据价值，驱动业务创新。

288 0 0

游客dqai5324pqw4o

|

5月前

|

Java 应用服务中间件 Sentinel

|

博文

服务保护、分布式事务

本课程学习微服务保护核心知识，涵盖雪崩问题、熔断降级、限流隔离等方案，掌握Sentinel实现熔断、降级、限流及线程隔离的方法，并了解CAP原理与Seata分布式事务应用。

163 0 0

星辰归鱼

|

5月前

|

存储关系型数据库 MySQL

|

博文

MySQL 项目实战入门：从 0 到 1 搭建电商数据库

本文以电商系统为实战场景，从环境搭建、需求分析入手，详解MySQL数据库的表结构设计、SQL编写、关联查询及性能优化，帮助初学者掌握从零构建完整数据库项目的全流程，提升实操能力。

229 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

大数据上云存算分离演进思考与探讨-2022

Flink Remote Shuffle 开源：面向流批一体与云原生的 Shuffle 服务

【新功能】开放搜索多路召回技术解读

Flink CDC 2.0 正式发布，详解核心改进

DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》

MaxCompute中如何通过logview诊断慢作业

百信银行基于 Apache Hudi 实时数据湖演进方案

MaxCompute产品消费相关文章合集

DataWorks OpenAPI 示例（元数据模块）

持续定义Saas模式云数据仓库+BI

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

MaxCompute SQL与Hive对比分析及使用注意事项

用Flink取代Spark Streaming！知乎实时数仓架构演进

MaxCompute常见错误汇总（更新ing）

MaxCompute UDF系列之身份证校验及15位身份证号码转换成18位

AI赋能跨境代购！taocarts智能选品+自动翻译+风控，降本增效新路径（附AI代码）

【赵渝强老师】Hadoop的伪分布部署模式

固定指标问答和复杂经营分析,为什么适合的技术路线往往不是同一类?

如何通过 NoETL 指标平台构建企业唯一指标计算中心

Aloudata Agent 全新升级：打造你的专属 AI 分析搭档

反向海淘爆发下，多平台铺货效率决定规模｜taocarts 打通 Shopify/Coupang 自动化链路

天猫商品详情API数据解析

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

我学GEO的第一天：原来AI搜东西和百度完全不一样

从"代码跑不通"到"答辩演示丝滑流畅"：毕设部署避坑完全指南

50%的人给了差评：龙虾为何在技术论坛翻车了？

Linux内核三大核心模块深度解析：调度、内存与I/O

阐述：关键词搜索京东商品列表API接口

别只盯着离线指标了：用大数据把模型“在线状态”盯死

从130倍性能提升看Python的批量计算和并行化策略：traj-dist-rs的并行策略实现

相似度搜索 ≠ 语义理解：向量数据库的能力边界

数据不够用？别急着骂业务，数据增强和合成数据真能救命

数据不出门，也能一起“卷模型”——聊聊隐私保护下的联邦学习：原理与工程实践

天猫商品详情API全解析

重构认知——AI智能体来了从0到1的落地工程全指南

新能源电池寿命预测模型

代理地址≠协议！HTTPS使用误区拆解

真实案例复盘：从“三套烟囱”到 All in ES，这家企业如何砍掉 40%运维成本

淘宝商品评论API使用指南

AI大模型面试宝典

基于深度学习的车牌识别系统

Python | K折交叉验证的参数优化的弹性网络回归预测及可视化算法

2026年建设网站的十个步骤

构建AI智能体：八十三、当AI开始“失忆“：深入理解和预防模型衰老与数据漂移

构建AI智能体：八十一、SVD模型压缩的艺术：如何科学选择K值实现最佳性能

Web3 的真相：天天喊去中心化，可中心到底“藏”在哪？

京东店铺所有商品API接口使用指南

从“被动防御”到“主动可控”，Data Agent 如何实现精细化权限管控？

服务保护、分布式事务

MySQL 项目实战入门：从 0 到 1 搭建电商数据库

大数据与机器学习

活跃用户

相关产品