大数据与机器学习-博文-第23页-阿里云开发者社区

真的很搞笑

|

存储分布式计算数据可视化

|

博文

实时数仓 Hologres产品使用合集之报错：ORCA failed to produce a plan : PlStmt Translation: Group by key is type of imprecise not supported如何解决

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务，专为大数据分析和复杂查询场景设计。使用Hologres，企业能够打破传统数据仓库的延迟瓶颈，实现数据到决策的无缝衔接，加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

1412 0 0

来自：实时数仓 Hologres 版块

icngor

|

消息中间件安全 Kafka

|

博文

如何为Kafka加上账号密码（二）

本小节我们就为Kafka添加最简单的认证方式，也就是SASL_PLAINTEXT（即SASL/PLAIN+ 非加密通道）。

2910 5 5

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

人工智能算法开发工具

|

博文

通义千问Qwen-72B-Chat基于PAI的低代码微调部署实践

本文将以 Qwen-72B-Chat 为例，介绍如何通过PAI平台的快速开始（PAI-QuickStart）部署和微调千问大模型。

109016 2 3

来自：人工智能平台PAI 版块

xijie.xu

|

SQL 运维搜索推荐

|

博文

《揭秘，阿里开源自研搜索引擎Havenask的在线检索服务》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务，它具备高可用、高时效、低成本的优势，帮助企业和开发者量身定做适合业务发展的智能搜索服务。

85465 138 144

来自：智能搜索推荐版块

灵杰开发者

|

SQL DataWorks 关系型数据库

|

博文

Next Station of Flink CDC

本文整理自阿里云智能 Flink SQL、Flink CDC 负责人伍翀（花名：云邪），在 Flink Forward Asia 2023 主会场的分享。

1134 0 0

来自：实时计算 Flink 版块

云梦泽123

|

博文

python-dict()

289 0 0

xijie.xu

|

自然语言处理数据处理调度

|

博文

《Havenask分布式索引构建服务--Build Service》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service，主打稳定、快速、易管理，是在线系统提升竞争力的一大利器。

102994 3 5

来自：智能搜索推荐版块

一颗小树x

|

传感器数据采集编解码

|

博文

3D目标检测数据集 DAIR-V2X-V

本文分享国内场景3D目标检测，公开数据集 DAIR-V2X-V（也称为DAIR-V2X车端）。DAIR-V2X车端3D检测数据集是一个大规模车端多模态数据集，包括： 22325帧图像数据 22325帧点云数据 2D&3D标注基于该数据集，可以进行车端3D目标检测任务研究，例如单目3D检测、点云3D检测和多模态3D检测。

1600 0 1

一颗小树x

|

传感器机器学习/深度学习编解码

|

博文

智能驾驶--语义分割公开数据集汇总

本文整理了10个质量较好，数据集较大，比较新的，图像语义分割的公开数据集；主要服务于智能驾驶方向（辅助驾驶、自动驾驶等）。

3410 0 0

theMilkyWay`

|

博文

如何在cmd中打开指定文件夹路径

3385 0 0

机器学习之心

|

机器学习/深度学习数据采集

|

博文

区间预测 | MATLAB实现基于QRCNN-BiGRU-Multihead-Attention多头注意力卷积双向门控循环单元多变量时间序列区间预测

607 0 0

taro_秋刀鱼

|

机器学习/深度学习 API Python

|

博文

阿里云DSW实例wandb使用示例

wandb是一个免费的，用于记录实验数据的工具。wandb相比于tensorboard之类的工具，有更加丰富的用户管理，团队管理功能，更加方便团队协作。本文主要演示如何在阿里云DSW实例中使用wandb。

2472 1 2

来自：人工智能平台PAI 版块

JackJiang2026

|

存储编解码自然语言处理

|

博文

史诗级计算机字符编码知识分享，万字长文，一文即懂！

前一阵跟同事碰到了字符乱码的问题，了解后发现这个问题存在两年了，我们程序员每天都在跟编码打交道，但大家对字符编码都是一知半解：“天天吃猪肉却很少见过猪跑”，今天我就把它彻底讲透！

11589 3 9

项羽@阿里云大数据

|

SQL 存储分布式计算

|

博文

ODPS（Open Data Processing Service），原是阿里云从 09年开始自研的大规模批量计算引擎，2016 年更名为MaxCompute。2022云栖大会上，阿里云ODPS全新升级为一体化大数据平台，存储、调度、元数据一体化融合，从 Processing 升级为 Platform，即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎，满足用户多元化数据计算需求。

4092 0 1

来自：大数据计算 MaxCompute 版块

亢海鹏

|

机器学习/深度学习存储分布式计算

|

博文

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

阿里云智能研究员林伟：阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考，使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合，这是阿里巴巴最佳实践的宝贵资产，是大数据的新一代架构。

4234 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

大数据人工智能存储

|

博文

AI加持的阿里云飞天大数据平台技术揭秘

摘要：2019云栖大会大数据&AI专场，阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分，一是原创技术优化+系统融合，打破了数据增长和成本增长的线性关系，二是从云原生大数据平台到全域云数仓，阿里开始从原生系统走入到全域系统模式，三是大数据与AI双生系统，讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。

9828 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 MaxCompute BI

|

博文

【转载】时隔一年多，我又用起了 Superset

去年 6 月份在流利说提离职后，leader 问我为什么要走。我说，流利说有很健全的数据处理基础设施，但这不是所有的公司都会有的条件，所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

18313 82 83

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11865 1 5

来自：开源大数据平台 E-MapReduce 版块

李寻弥-27988

|

供应链数据可视化前端开发

|

博文

你刚吃的兰州牛肉面，背后就藏着大数据

兰州拉面都拥抱大数据了，此刻我只想问，黄焖鸡、麻辣烫和沙县小吃，你们还在等什么？

44254 58 72

来自：数据可视化DataV 版块

之奇

|

算法搜索推荐双11

|

博文

实时离线平台Pora介绍@2015

12318 2 2

来自：智能搜索推荐版块

奔跑的数据

|

11天前

|

数据采集中间件 API

|

博文

别再手写低效的代理池了，试试这3个开箱即用的调度框架！

本文详解3种实战级代理调度框架：ProxyPool+API（中大型）、轻量轮询队列（中小项目）、Scrapy隧道中间件（快速升级），含核心代码、避坑要点与选型建议，助爬虫稳定高效运行。

79 0 0

游客kxwloxiunt6vy

|

12天前

|

存储安全算法

|

博文

构建云上数据安全防线：阿里云加密参数配置的最佳实践与合规指南

本文剖析未加密数据导致的安全事件，指出企业需从“边界防御”转向“数据本体加密”。详解哈希/分组算法选择、密钥管理、备份策略等精细化配置要点，并介绍阿里云KMS、CloudHSM、铜锁密码库等底层能力如何支撑终端加密软件实现合规、安全、高效、可控的内生数据防护。（239字）

102 1 1

奔跑的数据

|

16天前

|

数据采集网络协议数据安全/隐私保护

|

博文

从HTTP头部彻底搞懂高匿、普匿与透明代理

本文深入解析HTTP代理“透明/普匿/高匿”的本质差异，指出其匿名等级并非营销话术，而是由X-Forwarded-For、Via、Proxy-Connection三大请求头字段是否存在严格定义。结合抓包实操与隧道代理原理，厘清认知误区，助爬虫工程师科学选型、精准验证。

102 1 2

AI精灵

|

1月前

|

人工智能安全数据可视化

|

博文

Windows 全版本 OpenClaw 搭建教程零代码可视化一键部署

OpenClaw（小龙虾）是2026年热门开源AI自动化工具，支持Win10/11本地离线运行。零代码、全图形化、内置依赖、多模型切换、大Token额度，5–10分钟一键部署。数据不出设备，安全可控，适配办公全场景。（239字）

240 1 1

阿里云大数据

|

1月前

|

存储分布式计算运维

|

博文

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升，在迁移到 EMR Serverless Spark 之后，TCO 明显下降，平台按作业生命周期弹性拉起与回收，只为实际消耗付费；同时，托管化带来了稳定性与调度效率提升；更关键的是交付确定性提升，大作业整体可提速约 1 小时，报表链路从长尾波动变成更可控的出数节奏。

207 4 4

来自：开源大数据平台 E-MapReduce 版块

pai_rec_coder

|

1月前

|

机器学习/深度学习搜索推荐数据处理

|

博文

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台，集成多路召回、多目标精排（如DBMTL）、GPU加速推理与灵活迭代能力，已助力电商、直播、音视频等多行业提升点击率、转化率与ROI，实现高效、低成本、可自主演进的智能推荐。

350 16 16

来自：智能搜索推荐版块

$雪地伤孤$

|

2月前

|

人工智能运维监控

|

博文

Anthropic 内部用了数百个 Skills，这份清单他们第一次公开

Anthropic 内部，有数百个 Skills 每天在运行。

414 4 6

游客avsawnkvmmxp6

|

2月前

|

自然语言处理数据挖掘数据库

|

博文

数据智能引擎：从精准问数到深度分析的完整解决方案

数据智能引擎基于本体论，首创“精准问数+深度分析”双模式：技术专家可自然语言查数据，高管提方向性问题获自动洞察。多智能体协同、95%准确率、低门槛业务知识管理，赋能企业AI原生数据转型。（239字）

302 1 1

游客2toroqkzdcega

|

3月前

|

人工智能自然语言处理搜索推荐

|

博文

RAG不只是问答！看完这些应用案例，才发现它的潜力这么大

RAG（检索增强生成）技术正赋能企业知识管理、智能客服、辅助决策、内容创作与教育培训等多元场景，通过语义检索+精准生成，提升信息获取效率与AI实用性，助力零代码构建专属智能系统。

435 5 5

大模型玩家七七

|

4月前

|

安全算法 C++

|

博文

PPO 真正的应用场景，和你想的可能不一样

PPO并非“万能增强器”，而是精准解决模型“行为偏好错位”的工具：当模型“会但总选错”（如安全拒答生硬、风格不稳、高风险下过度自信）时，PPO通过人类偏好反馈重塑其选择倾向；若问题本质是“不会”，则PPO无效甚至有害。用对场景，事半功倍。

387 1 1

游客ogm6hgopdrgay

|

4月前

|

人工智能监控 API

|

博文

Opus 4.5、GPT-5.2 与 Gemini 3 Pro：企业级场景下的大模型工程表现对比

本文从工程与生产视角，对比Opus 4.5、GPT-5.2、Gemini 3 Pro三款大模型在输出一致性、可控性、长上下文、接口确定性等维度的表现，强调企业级AI选型应重稳定性与系统友好度，而非单纯比拼能力。

383 4 4

来自：人工智能平台PAI 版块

狸奴算君

|

4月前

|

人工智能 JSON 物联网

|

博文

大模型微调完全指南：原理、实践与平台选择，让AI真正为你所用

微调是让通用大模型成为垂直领域“专家”的关键路径：通过小规模、高质量数据定向优化模型参数，实现专业适配。相比提示词工程的临时性，微调能内化知识、提升准确性与风格一致性。LoRA等高效微调技术大幅降低门槛，百条数据+单卡即可完成，兼顾效果与成本。（239字）

550 6 7

断箭42

|

4月前

|

机器学习/深度学习人工智能

|

博文

【AI大模型面试宝典四】- 基础架构篇

【AI大模型知识干货系列】深度解析Transformer位置编码：从绝对到相对，拆解Sinusoidal、RoPE、ALiBi等核心机制，对比优劣，直击面试高频问题。每篇聚焦一个知识点，助你系统掌握大模型关键技术，紧跟AI浪潮！欢迎关注、点赞、批评指正～

311 0 0

来自：人工智能平台PAI 版块

断箭42

|

4月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

【AI大模型面试宝典二】— 基础架构篇

【AI大模型面试宝典】聚焦分词器核心考点！详解BPE、WordPiece、SentencePiece原理与实战，覆盖中文分词最佳实践、词汇表构建、特殊标记处理，助你轻松应对高频面试题，精准提升offer竞争力！

350 0 0

来自：人工智能平台PAI 版块

游客fdogdvk2mf5da

|

4月前

|

人工智能自然语言处理算法

|

博文

最近比较火的GEO适合哪些行业的推广？

GEO（生成式引擎优化）正重塑营销格局，通过优化内容结构与语义逻辑，抢占AI问答场景的引用权。据IDC与中国信通院数据，2025年全球市场规模超120亿美元，中国占55.4%。其在本地生活、跨境电商、文旅、房地产、教育、B2B制造及金融医疗等行业广泛应用，助力企业实现精准获客、提升转化率并构建长期数字资产，成为AI时代营销新基建。

930 3 3

遗忘的我们平平-28588

|

4月前

|

机器学习/深度学习算法自动驾驶

|

博文

基于YOLOv8模型的行人车辆多目标检测计数与跟踪系统

本研究基于YOLOv8模型，针对智能交通与公共安全需求，开展行人车辆多目标检测、计数与跟踪技术研究。通过融合YOLOv8高精度检测与DeepSORT稳定跟踪，实现复杂场景下目标的实时定位、统计与轨迹追踪，提升交通管理效率与公共安全保障能力，推动智慧城市发展。

478 13 13

Echo_Wish

|

4月前

|

人工智能区块链数据库

|

博文

去中心化身份（DID）体系解析：我们真的需要“没有平台”的身份吗？

686 2 2

f5bjkfn5ojoyg

|

4月前

|

Java Go 开发者

|

博文

IDEA开发常用的快捷键

IntelliJ IDEA常用快捷键汇总：涵盖代码生成（如main、sout）、编辑（复制、删除、重命名）、导航（跳转、查找）、格式化、代码阅读及版本控制等高频操作，提升开发效率。熟练掌握可显著优化编码体验，是Java开发者必备技能。

508 1 1

f6l7u64vsmamo

|

5月前

|

数据库

|

博文

什么是 Code 39?

Code 39是1974年由Intermec开发的字母数字条形码，支持43个字符，广泛用于汽车、医疗、国防等领域。分Regular和Full ASCII两种，后者可编码全部128个ASCII字符。结构简单，自校验强，但密度较低。可通过HCreateLabelView轻松生成，适用于非零售场景。

758 2 2

be4z2royodrny

|

5月前

|

存储 Java

|

博文

超长String接收处理

Java中String变量最大长度为Integer.MAX_VALUE，但字符串字面量受class文件格式限制，最大65534。超过会编译错误，需通过StringBuilder分组处理长字符串。

228 0 0

游客fjfnvw6coc64q

|

5月前

|

机器学习/深度学习数据采集人工智能

|

博文

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同推动大模型发展。预训练构建语言基础，微调适配特定任务，RLHF融入人类偏好，思维链提升推理能力，少样本与零样本实现快速迁移，指令微调增强指令理解，自监督学习利用海量无标数据，温度控制生成风格，蒸馏压缩模型规模，缩放定律指导模型扩展，全面提升大模型理解、生成与泛化能力。

348 0 0

星辰归鱼

|

5月前

|

机器学习/深度学习数据采集存储

|

博文

融合共生的智能时代引擎

本文系统解析大数据与机器学习的融合价值，阐述二者“数据喂养模型、模型激活数据”的协同关系，涵盖技术流程、典型应用场景及发展挑战，并展望轻量化模型、可信AI、行业定制化与AutoML等未来趋势，揭示智能时代的核心驱动力。

252 0 0

Echo_Wish

|

6月前

|

机器学习/深度学习搜索推荐算法

|

博文

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

499 8 8

游客wzltd6melqxgo

|

6月前

|

边缘计算自然语言处理算法

|

博文

实时交互数字人端到端延迟压至0.8秒：关键技术节点与商业价值解析

0.8秒是实时数字人体验的关键阈值，端到端延迟低于此值可实现自然流畅交互。本文解析其技术链路、核心支撑与商业价值，揭示为何这一指标成为数字人从“可用”到“好用”的分水岭。

762 4 4

来自：人工智能平台PAI 版块

Echo_Wish

|

6月前

|

SQL 人工智能 API

|

博文

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

793 8 8

游客vv4u4wyick5ti

|

6月前

|

人工智能自然语言处理数据可视化

|

博文

2025 ChatBI 产品选型推荐：智能问数+归因分析+报告生成

当企业站在 ChatBI 选型的十字路口，技术架构的先进性、场景适配的完整性、落地实践的可验证性应成为核心考量标准。

1031 0 0

winx_19970108018

|

7月前

|

XML JSON API

|

博文

苏宁商品详情API秘籍！轻松获取商品详情数据

苏宁商品详情API基于RESTful架构，支持JSON/XML格式，通过AppKey、AppSecret与签名三重认证，结合OAuth 2.0实现安全调用。开发者可获取商品名称、价格、销量、库存、促销等实时数据，适用于电商分析与商业智能。接口强制使用HTTPS协议，支持POST/GET请求，统一采用UTF-8编码，确保数据传输安全可靠。

662 1 1

奔跑的数据

|

8月前

|

数据采集存储缓存

|

博文

LLM + 抓取：让学术文献检索更聪明

结合爬虫与大模型，打造懂语义的学术检索助手：自动抓取最新NLP+爬虫论文，经清洗、向量化与RAG增强，由LLM提炼贡献，告别关键词匹配，实现精准智能问答。

937 0 2

蒋星熠Jaxonic

|

8月前

|

机器学习/深度学习人工智能算法

|

博文

卷积神经网络深度解析：从基础原理到实战应用的完整指南

蒋星熠Jaxonic带你深入卷积神经网络（CNN）核心技术，从生物启发到数学原理，详解ResNet、注意力机制与模型优化，探索视觉智能的演进之路。

744 11 11

winx_19970108018

|

9月前

|

JSON API 数据格式

|

博文

小红书笔记详情API数据解析（附代码）

本内容介绍了小红书开放平台的笔记详情API接口功能，涵盖笔记标题、内容、互动数据及多媒体资源的获取方式。提供接口概述、请求方式及Python调用示例，适用于内容分析与营销策略优化，帮助开发者高效集成与使用。

982 4 4

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

实时数仓 Hologres产品使用合集之报错：ORCA failed to produce a plan : PlStmt Translation: Group by key is type of imprecise not supported如何解决

如何为Kafka加上账号密码（二）

通义千问Qwen-72B-Chat基于PAI的低代码微调部署实践

《揭秘，阿里开源自研搜索引擎Havenask的在线检索服务》

Next Station of Flink CDC

python-dict()

《Havenask分布式索引构建服务--Build Service》

3D目标检测数据集 DAIR-V2X-V

智能驾驶--语义分割 公开数据集 汇总

如何在cmd中打开指定文件夹路径

区间预测 | MATLAB实现基于QRCNN-BiGRU-Multihead-Attention多头注意力卷积双向门控循环单元多变量时间序列区间预测

阿里云DSW实例wandb使用示例

史诗级计算机字符编码知识分享，万字长文，一文即懂！

ODPS是什么/阿里云一体化大数据平台ODPS的前世今生

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

AI加持的阿里云飞天大数据平台技术揭秘

【转载】时隔一年多，我又用起了 Superset

漫谈分布式计算框架

你刚吃的兰州牛肉面，背后就藏着大数据

实时离线平台Pora介绍@2015

别再手写低效的代理池了，试试这3个开箱即用的调度框架！

构建云上数据安全防线：阿里云加密参数配置的最佳实践与合规指南

从HTTP头部彻底搞懂高匿、普匿与透明代理

Windows 全版本 OpenClaw 搭建教程 零代码可视化一键部署

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

Anthropic 内部用了数百个 Skills，这份清单他们第一次公开

数据智能引擎：从精准问数到深度分析的完整解决方案

RAG不只是问答！看完这些应用案例，才发现它的潜力这么大

PPO 真正的应用场景，和你想的可能不一样

Opus 4.5、GPT-5.2 与 Gemini 3 Pro：企业级场景下的大模型工程表现对比

大模型微调完全指南：原理、实践与平台选择，让AI真正为你所用

【AI大模型面试宝典四】- 基础架构篇

【AI大模型面试宝典二】— 基础架构篇

最近比较火的GEO适合哪些行业的推广？

基于YOLOv8模型的行人车辆多目标检测计数与跟踪系统

去中心化身份（DID）体系解析：我们真的需要“没有平台”的身份吗？

IDEA开发常用的快捷键

什么是 Code 39?

超长String接收处理

大模型训练方法与技术术语解释

融合共生的智能时代引擎

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

实时交互数字人端到端延迟压至0.8秒：关键技术节点与商业价值解析

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

2025 ChatBI 产品选型推荐：智能问数+归因分析+报告生成

苏宁商品详情API秘籍！轻松获取商品详情数据

LLM + 抓取：让学术文献检索更聪明

卷积神经网络深度解析：从基础原理到实战应用的完整指南

小红书笔记详情API数据解析（附代码）

大数据与机器学习

活跃用户

相关产品

智能驾驶--语义分割公开数据集汇总

Windows 全版本 OpenClaw 搭建教程零代码可视化一键部署