大数据与机器学习-博文-第20页-阿里云开发者社区

aliyun0925406400-41188

|

数据采集自然语言处理搜索推荐

|

博文

Python实现基于LDA主题模型进行电商产品评论数据情感分析

2534 0 1

来自：人工智能平台PAI 版块

游客ppk2hfj3wdppy

|

1月前

|

机器学习/深度学习数据采集人工智能

|

博文

跨越鸿沟：传统产品经理如何迈向AI产品经理的黄金赛道

384 9 9

Aron_NeAr

|

11月前

|

SQL 存储消息中间件

|

博文

Trino权威指南

Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用，适合交互式分析与BI场景。Trino采用无共享架构，通过列式内存格式和动态代码生成优化性能，并提供丰富的连接器实现计算存储分离，最大化下推优化以提升效率。

1923 3 3

liuyunshengsir

|

分布式计算并行计算调度

|

博文

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

在HPC场景中，集群任务调度系统是资源管理和作业调度的核心工具。LSF、SGE、Slurm和PBS是主流调度系统。LSF适合大规模企业级集群，提供高可靠性和混合云支持；SGE为经典开源系统，适用于中小规模集群；Slurm成为HPC领域事实标准，支持多架构和容器化；PBS兼具商业和开源版本，擅长拓扑感知调度。选型建议：超大规模科研用Slurm，企业生产环境用LSF/PBS Pro，混合云需求选LSF/PBS Pro，传统小型集群用SGE/Slurm。当前趋势显示Slurm在TOP500系统中占比超60%，而商业系统在金融、制造等领域保持优势。

3187 32 32

郑小健

|

存储分布式计算监控

|

博文

Hadoop在云计算环境下的部署策略

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。随着云计算技术的发展，越来越多的企业开始利用云平台的优势来部署Hadoop集群，以实现更高的可扩展性、可用性和成本效益。本文将探讨如何在公有云、私有云及混合云环境下部署和管理Hadoop集群，并提供具体的部署策略和代码示例。

1220 0 0

一颗小树x

|

传感器算法 Linux

|

博文

查看 PCD 点云 windows

在Linux系统查看PCD 点云有许多方法，但发现在windows下的工具比较少，这里分享两个思路，一个是使用MATLAB工具编程，另一个是下载CloudCompare软件进行查看点云。

13940 0 0

游客3prgg6nuf5oak

|

3天前

|

人工智能安全 API

|

博文

从 Vibecoding 入门，到 Agent 差点入土

Vibecoding 最迷人的地方，是它让“开始做一个东西”变得特别轻。你有一个想法，打开 AI 编程工具，说几句话，项目就有了第一批文件、第一段界面、第一套目录。那一刻很爽。

52 0 0

来自：智能搜索推荐版块

be4z2royodrny

|

5月前

|

canal 缓存关系型数据库

|

博文

微服务原理篇(Canal-Redis)

本文介绍了ES索引同步的常见方案，重点讲解Canal+MQ数据同步机制。通过解析MySQL的binlog日志，Canal模拟slave伪装接入主库，实现增量数据捕获，并结合RabbitMQ保证消息顺序性地同步至Elasticsearch。同时探讨了缓存一致性问题，提出使用分布式锁（如Redis）控制并发写操作，避免双写不一致。还涵盖Redis持久化、集群模式、过期淘汰策略及缓存三剑客（穿透、雪崩、击穿）的解决方案，系统梳理了高并发场景下的数据同步与缓存保障技术体系。

525 0 0

游客rj7kdyude6p6g

|

7月前

|

机器学习/深度学习数据采集人工智能

|

博文

【机器学习算法篇】K-近邻算法

K近邻（KNN）是一种基于“物以类聚”思想的监督学习算法，通过计算样本间距离，选取最近K个邻居投票决定类别。支持多种距离度量，如欧式、曼哈顿、余弦相似度等，适用于分类与回归任务。结合Scikit-learn可高效实现，需合理选择K值并进行数据预处理，常用于鸢尾花分类等经典案例。（238字）

2098 7 7

孙玉洁-47170

|

设计模式缓存安全

|

博文

设计模式-代理模式（静态代理、动态代理、cglib代理）、代理模式和装饰者模式的区别

560 1 1

云梦泽123

|

博文

python-tuple()

1036 0 0

翼达口香糖

|

机器学习/深度学习人工智能自然语言处理

|

博文

2023年排行前五的大规模语言模型(LLM)

截至2023年，人工智能正在风靡全球。它已经成为热门的讨论话题，吸引了数百万人的关注，不仅限于技术专家和研究人员，还包括来自不同背景的个人。人们对人工智能热情高涨的原因之一是其在人类多年来处理的各种形式的领域中所具备的能力，其中包括语言。语言是人类生活的一个组成部分，它帮助我们交流，理解我们周围的事物，甚至帮助我们思考。但是，如今人工智能已经更有能力处理与人类水平甚至高于人类水平的语言。这是由于自然语言处理（NLP）和大型语言模型（LLMs）的进步，ChatGPT的背后就是其中之一，这是总部位于旧金山的初创公司OpenAI的伟大创举。但是，OpenAI成为成功将其LLM技术推向公众的公司之一。

1102 0 0

游客zawi3z6zznzpg

|

12天前

|

博文

养龙虾不破产，OpenClaw 三种使用技巧，降低 Token 消耗

这是一份OpenClaw降本增效实战指南，聚焦三大核心：①斜杠命令（/compact、/reset、/new）秒级优化对话长度；②多Agent分工实现上下文隔离与故障可控；③memory-search机制以查代记，精准调用长期知识。三法协同，直击Token浪费与响应迟缓痛点。（239字）

125 0 0

阿里云大数据

|

1月前

|

存储算法定位技术

|

博文

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

面对轨迹数据“高实时、高并发、长周期存储”的典型特征，高德团队以访问跨度为依据完成热/温/冷分层，并以 Apache Paimon + StarRocks 构建统一的数据底座，支撑轨迹数据的近实时写入与高性能查询。

346 4 4

来自：开源大数据平台 E-MapReduce 版块

工程师高培

|

2月前

|

人工智能算法安全

|

博文

AI辅助编程设计之道：从Spec到Code工程实践

大语言模型正重塑开发模式，但盲目依赖AI生成代码易陷入“描述-生成-修改”循环。核心问题在于跳过设计阶段：模糊需求无法支撑高质量输出。Spec驱动开发强调以结构化文档（需求、架构、接口等）明确设计，再由AI高效实现。人专注设计与验证，AI负责编码与建议——这才是提效关键。（239字）

873 7 9

Echo_Wish

|

2月前

|

API 数据库数据安全/隐私保护

|

博文

别再只会调大模型了：用 Python 搭一套自己的知识库问答系统（RAG 实战指南）

853 2 4

代理IP不迷路

|

4月前

|

数据采集

|

博文

静态IP购买常见问题及解决方案

静态IP因稳定、适用广，成企业刚需，但购买易踩坑。本文梳理IP纯度低、带宽虚标、地域偏差、售后差、计费不透明、合规风险6大问题，提供避坑指南，助你高效选购合规、稳定的独享静态IP，保障业务顺畅运行。（238字）

532 1 1

Echo_Wish

|

7月前

|

算法搜索推荐大数据

|

博文

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

920 8 8

Deephub

|

9月前

|

人工智能监控搜索推荐

|

博文

使用LangGraph从零构建多智能体AI系统：实现智能协作的完整指南

本文将通过构建AI研究助手的完整案例，展示如何使用LangGraph框架实现这种架构转变，从理论基础到具体实现，帮助你掌握下一代AI系统的构建方法。

2013 12 14

奔跑的数据

|

11月前

|

搜索推荐数据挖掘计算机视觉

|

博文

小红书视频图文提取：采集+CV的实战手记

这是一套用于自动抓取小红书热门视频内容的工具脚本，支持通过关键词搜索提取前3名视频的封面图、视频文件及基本信息（标题、作者、发布时间）。适用于品牌营销分析、热点追踪或图像处理等场景。脚本包含代理配置、接口调用和文件下载功能，并提供扩展建议如图像识别与情绪分析。适合需要高效采集小红书数据的团队或个人使用，稳定性和灵活性兼备。

1131 4 4

极客小俊

|

11月前

|

人工智能程序员 PHP

|

博文

Cursor AI来袭！编程从此不再繁琐，一键生成代码，效率提升千倍

AI攻破最后防线！连架构设计都能自动生成，中级程序员集体破防

1892 10 10

百岁001

|

关系型数据库 MySQL 数据库

|

博文

基于Flink CDC 开发，支持Web-UI的实时KingBase 连接器，三大模式无缝切换，效率翻倍！

TIS 是一款基于Web-UI的开源大数据集成工具，通过与人大金仓Kingbase的深度整合，提供高效、灵活的实时数据集成方案。它支持增量数据监听和实时写入，兼容MySQL、PostgreSQL和Oracle模式，无需编写复杂脚本，操作简单直观，特别适合非专业开发人员使用。TIS率先实现了Kingbase CDC连接器的整合，成为业界首个开箱即用的Kingbase CDC数据同步解决方案，助力企业数字化转型。

3031 5 6

翻滚的樱桃肉

|

监控 Linux iOS开发

|

博文

告别数据丢失！跨平台同步工具FreeFileSync 14.2下载教程｜手把手配置多设备备份

FreeFileSync 14.2 是一款开源跨平台文件同步工具，支持 Windows、macOS 和 Linux 系统。新增功能包括实时同步监控、云存储集成（Google Drive 和 Dropbox）、智能冲突解决及性能优化，适用于数据备份、服务器文件同步等场景。本文详细介绍其下载、安装、配置及高级使用技巧，并提供常见问题解答和延伸学习资源。

4902 8 8

ly~

|

供应链监控搜索推荐

|

博文

大数据的应用场景

大数据在众多行业中的应用场景广泛，涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业，大数据用于风险评估、精准营销、反欺诈以及决策支持；零售业则应用于商品推荐、供应链管理和门店运营优化等；医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估；交通物流业通过大数据优化物流配送、交通管理和运输安全；制造业则在生产过程优化、设备维护和供应链协同方面受益；能源行业运用大数据提升智能电网管理和能源勘探效率；政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全；教育行业通过大数据实现个性化学习和资源优化配置；体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。

3702 2 2

云梦泽123

|

关系型数据库

|

博文

武汉得知网络AI搜索优化基于内容质量、用户意图匹配与交互数据，通过语义深度、页面体验及权威链接提升排名，结合技术性能与多模态策略，助力企业精准抢占AI搜索流量高地。

999 4 4

来自：实时数仓 Hologres 版块

winx_19970108018

|

5月前

|

数据挖掘 BI API

|

博文

微店店铺所有商品API接口指南

微店商品API支持通过店铺ID获取全部商品信息，提供分页、状态筛选与多维度排序功能，适用于商品管理、数据统计及跨平台同步。返回商品ID、标题、价格、库存、主图等详细信息，助力高效运营。

454 2 2

游客tjibdsr2fxljq

|

8月前

|

数据采集存储人工智能

|

博文

拆解AI-Agentforce企业级智能体中台：如何让企业AI落地从“噱头”到“实效”

在GDMS峰会上，迈富时集团尹思源指出41.3%中国企业尚未布局AI Agent，已应用者亦陷“Demo化、孤岛化”困局。其发布的AI-Agentforce智能体中台，以“冰山模型”重构架构，打通认知、价值、能力三重鸿沟，覆盖内容、获客、销售、陪练、分析五大场景，助力企业实现AI从“工具”到“数字员工”的全链路协同升级。

1180 3 4

Deephub

|

9月前

|

人工智能分布式计算自然语言处理

|

博文

多智能体系统设计：5种编排模式解决复杂AI任务

本文探讨了多AI智能体协作中的关键问题——编排。文章指出，随着系统从单体模型向多智能体架构演进，如何设计智能体之间的通信协议、工作流程和决策机制，成为实现高效协作的核心。文章详细分析了五种主流的智能体编排模式：顺序编排、MapReduce、共识模式、分层编排和制作者-检查者模式，并分别介绍了它们的应用场景、优势与挑战。最后指出，尽管大模型如GPT-5提升了单体能力，但在复杂任务中，合理的智能体编排仍不可或缺。选择适合的编排方式，有助于在系统复杂度与实际效果之间取得平衡。

1914 10 10

winx_19970108018

|

10月前

|

XML JSON API

|

博文

淘宝API系列：淘宝店铺所有商品API接口详解

本攻略详解淘宝店铺商品API接口，涵盖接口概述、核心分类与功能、调用准备、请求示例及应用场景，助开发者高效获取商品信息，适用于电商开发与数据管理。

1191 0 0

阿里云大数据Al技术

|

12月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长，它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下，将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程，其具备多种功能模块，包括数据合成、基础和进阶蒸馏训练。通过数据合成，丰富训练集的多样性；基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化，从而提升小模型的性能。

2342 7 7

来自：人工智能平台PAI 版块

guoweish

|

SQL 数据可视化 atlas

|

博文

低空经济新基建！DataV Atlas 如何用大模型玩转空间数据？

阿里云DataV Atlas推出搭载通义千问最新2.5 Max大模型「时空SQL智能小助手」，通过自然语言生成专业SQL，简化空间数据分析流程，助力智慧农田、城市低空交通及应急调度等领域，推动精准决策和智能化管理。零门槛体验空间智能分析革命，开启“会思考的天空网络”新时代。

1054 5 5

来自：数据可视化DataV 版块

信安百科

|

机器学习/深度学习人工智能自然语言处理

|

博文

国产AI神器Deepseek，本地离线使用教程！

2542 14 15

来自：人工智能平台PAI 版块

kng32f3vbngrm

|

存储数据挖掘大数据

|

博文

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模是组织和设计数据以支持数据分析的过程，包括ER模型和维度建模。ER模型通过实体和关系描述数据结构，遵循三范式减少冗余。维度建模，特别是Kimball方法，用于数据仓库设计，便于分析和报告。事实表存储业务度量，如销售数据，分为累积、快照、事务和周期性快照类型。维度表提供描述性信息，如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据)，以优化数据管理、质量、查询性能和适应性。

6551 5 8

汀丶人工智能

|

机器学习/深度学习资源调度算法

|

博文

推荐系统[四]：精排-详解排序算法LTR (Learning to Rank)_ poitwise, pairwise, listwise相关评价指标，超详细知识指南。

2533 0 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

流计算 Apache 人工智能

|

博文

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

8 月最后一天，由 Apache Kafka 与 Apache Flink 联合举办的 Meetup 深圳站圆满落幕，现场站无虚席，来自 Confluent 、中国农业银行、虎牙直播、数见科技以及阿里巴巴的五位技术专家带来了丰富精彩的分享，全场干货满满！

14616 0 0

来自：实时计算 Flink 版块

AI精灵

|

1天前

|

JavaScript 机器人开发者

|

博文

OpenClaw钉钉渠道插件安装与配置｜从零到消息回复的完整教程

本教程详解OpenClaw接入钉钉全流程：从钉钉开发者平台创建机器人、获取Client ID/Secret，到OpenClaw安装插件、配置凭证并保存启用，图文步骤清晰，助你快速实现智能消息互通。（239字）

49 0 0

游客bzektkifrykre

|

13天前

|

存储人工智能小程序

|

博文

困惑度衡量语言模型预测能力，值越低越好；过拟合指模型记住了训练数据却泛化差；泛化能力体现模型应对新任务的适应性；人工评估是生成质量的“金标准”；BLEU和ROUGE分别基于n-gram和召回率评估生成文本与参考的相似度；混淆矩阵用于分析分类错误模式。这些指标共同构成大模型评估体系，需结合使用以全面评价性能。

652 0 0

游客vtcv2hujaeyjs

|

5月前

|

人工智能 Java 网络安全

|

博文

Spring AI Alibaba：本地运行(☆)

简介：本任务要求使用SSH方式拉取私有Git仓库代码，基于SpringCloud、MySQL、Maven技术栈，完成聊天机器人、智能体、工作流三大功能模块的本地运行。需录制8分钟以上视频，结构化输出项目理解，包括技术栈、核心功能、数据库关系及未解困惑，帮助新人快速融入开发环境。（239字符）

715 0 0

魔羯座liaotianfeile

|

7月前

|

API 开发者数据采集

|

博文

高效获取淘宝商品详情：API 开发实现链接解析的完整技术方案

2025反向海淘新机遇：依托代购系统，聚焦小众垂直品类，结合Pandabay数据选品，降本增效。系统实现智能翻译、支付风控、物流优化，助力中式养生茶等品类利润翻倍，新手也能快速入局全球市场。

1406 2 2

Echo_Wish

|

11月前

|

SQL 数据建模关系型数据库

|

博文

别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）

2807 4 4

Deephub

|

算法数据处理 Python

|

博文

高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用

Savitzky-Golay滤波器是一种基于局部多项式回归的数字滤波器，广泛应用于信号处理领域。它通过线性最小二乘法拟合低阶多项式到滑动窗口中的数据点，在降噪的同时保持信号的关键特征，如峰值和谷值。本文介绍了该滤波器的原理、实现及应用，展示了其在Python中的具体实现，并分析了不同参数对滤波效果的影响。适合需要保持信号特征的应用场景。

2180 11 12

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

Python实现基于LDA主题模型进行电商产品评论数据情感分析

跨越鸿沟：传统产品经理如何迈向AI产品经理的黄金赛道

Trino权威指南

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

Hadoop在云计算环境下的部署策略

查看 PCD 点云 windows

从 Vibecoding 入门，到 Agent 差点入土

微服务原理篇(Canal-Redis)

【机器学习算法篇】K-近邻算法

设计模式-代理模式（静态代理、动态代理、cglib代理）、代理模式和装饰者模式的区别

python-tuple()

2023年排行前五的大规模语言模型(LLM)

养龙虾不破产，OpenClaw 三种使用技巧，降低 Token 消耗

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

AI辅助编程设计之道：从Spec到Code工程实践

别再只会调大模型了：用 Python 搭一套自己的知识库问答系统（RAG 实战指南）

静态IP购买常见问题及解决方案

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

使用LangGraph从零构建多智能体AI系统：实现智能协作的完整指南

小红书视频图文提取：采集+CV的实战手记

Cursor AI来袭！编程从此不再繁琐，一键生成代码，效率提升千倍

基于Flink CDC 开发，支持Web-UI的实时KingBase 连接器，三大模式无缝切换，效率翻倍！

告别数据丢失！跨平台同步工具FreeFileSync 14.2下载教程｜手把手配置多设备备份

大数据的应用场景

Pg库增加&修改字段

开发者效率神器｜OpenClaw 本地AI一键部署，无需Python/命令行（Win11适配）

# Pyc怎么转Py？PyLingual 部署教程

什么是微调？大模型定制化的核心技术与实操指南

Python | Stacking回归和SHAP可解释性分析回归预测及可视化算法

入门运行Soul

通义AI搜索排名优化全攻略

微店店铺所有商品API接口指南

拆解AI-Agentforce企业级智能体中台：如何让企业AI落地从“噱头”到“实效”

多智能体系统设计：5种编排模式解决复杂AI任务

淘宝API系列：淘宝店铺所有商品API接口详解

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

低空经济新基建！DataV Atlas 如何用大模型玩转空间数据？

国产AI神器Deepseek，本地离线使用教程！

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

推荐系统[四]：精排-详解排序算法LTR (Learning to Rank)_ poitwise, pairwise, listwise相关评价指标，超详细知识指南。

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

OpenClaw钉钉渠道插件安装与配置｜从零到消息回复的完整教程

CDP 建设实践：从多源客户数据整合到运营闭环

【AI大模型面试宝典九】- 推理部署篇

Hologres Dynamic Table：高效增量刷新，构建实时统一数仓的核心利器

大模型评估与调试术语解释

Spring AI Alibaba：本地运行(☆)

高效获取淘宝商品详情：API 开发实现链接解析的完整技术方案

﻿别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）

高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用

大数据与机器学习

活跃用户

相关产品

别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）