|
存储 SQL 分布式计算
|

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

本文介绍了百草味大数据平台从 IDC 自建 Hadoop 到阿里云数据湖架构的迁移方案和落地过程。重点从 IDC 自建集群的痛点分析,云上大数据方案的选型以及核心模块的建设过程几个方面做了详细的介绍,希望给想了解和实践数据湖架构的企业和朋友一个参考。

4430 2
|
消息中间件 分布式计算 DataWorks
|

DataWorks数据集成-大数据上下云的核心枢纽 | 《一站式大数据开发治理DataWorks使用宝典》

数据集成是大数据平台上下云的核心枢纽,它的主要功能是把不同业务系统中的数据进行打通,实现数据自由离线或实时地流动,可以通过丰富的网络解决方案完成数据上下云。

3230 1
|
存储 数据采集 监控
|

Monitoring 及 Central Management - Elastic Stack 实战手册

Monitoring 及 Central Management

2158 0
|
SQL 消息中间件 缓存
|

Flink SQL 实战:双流 join 场景应用

大家都知道在使用 SQL 进行数据分析的过程中,join 是经常要使用的操作。在离线场景中,join 的数据集是有边界的,可以缓存数据有边界的数据集进行查询,有Nested Loop/Hash Join/Sort Merge Join 等多表 join;而在实时场景中,join 两侧的数据都是无边界的数据流,所以缓存数据集对长时间 job 来说,存储和查询压力很大。如何从容应对各种流式场景?

10974 2
来自: 实时计算 Flink  版块
|
存储 消息中间件 SQL
|

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时,会碰撞出什么样的火花呢?

8080 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 算法
|

推荐系统召回算法及架构说明

阿里巴巴技术专家傲海为大家带来推荐系统召回算法及架构说明的介绍。内容包括召回模块在推荐系统中的位置,召回算法的介绍,什么是协同过滤,以及向量召回架构的说明。

5976 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 人工智能
|

阿里巴巴开源GNN框架Graph-Learn

项目地址:https://github.com/alibaba/graph-learn 阿里巴巴近期开源了面向图神经网络(GNN)的框架Graph-Learn(GL,原AliGraph)。框架由阿里内部团队研发,研发同学分别来自计算平台事业部-PAI团队,新零售智能引擎事业群-智能计算实验室,以及安全部-数据与算法团队。

4419 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 SQL 人工智能
|

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景?

人工智能应用场景中,Flink 在包括特征工程,在线学习,在线预测等方面都有一些独特优势,为了更好的支持人工智能的使用场景,Flink 社区以及各个生态都在努力。本文将介绍近期 Flink 在人工智能生态系统中的工作进展。

3232 0
来自: 实时计算 Flink  版块
|
SQL 存储 分布式计算
|

MaxCompute SQL与Hive对比分析及使用注意事项

一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。

4969 0
来自: 大数据计算 MaxCompute  版块
|
对象存储 存储 分布式计算
|

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家殳鑫鑫和Intel大数据团队软件开发经理徐铖共同向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构以及与Intel DCPM的性能评测。

16961 58
|
消息中间件 Kafka 流计算
|

如何构建批流一体数据融合平台的一致性语义保证?

本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。

4710 0
来自: 实时计算 Flink  版块
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行

本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。

8859 0
来自: 实时计算 Flink  版块
|
人工智能 搜索推荐 异构计算
|

从HA3到AI·OS -- 全图化引擎破茧之路

8563 0
来自: 智能搜索推荐  版块
|
存储 运维 资源调度
|

iGraph架构演进之三战

前言 iGraph是搜索事业部工程团队打造的实时在线图存储与查询的系统,提供大规模图数据的存储、查询、更新和计算服务,目前承载了集团多个部门5000+表的数据,双11期间proxy入口峰值流量1106w qps、实时数据峰值更新506w qps,是名副其实的在线数据航空母舰。

11958 2
来自: 智能搜索推荐  版块
|
运维 监控 安全
|

【ELK入门】Elastic中文社区运维监控实战之架构篇

阿里云MVP曾勇撰写的《ELK运维监控入门实战》系列,以Elasticsearch中文社区网站运维监控体系搭建作为案例,讲解了ELK监控系统的相关原理和技术实现,可作为对ELK感兴趣的同学的入门级文章。本篇作为第一篇,介绍了项目背景和技术架构。

6984 0
|
1天前
|
缓存 供应链 搜索推荐
|

1688拍立淘图片搜索API概述

1688拍立淘是基于图像识别的以图搜图服务,支持上传图片查找相似商品,具备批量搜索、全维度数据返回等功能,适用于电商选品、供应链管理等场景。建议优化图片预处理与请求性能,提升调用效率。

21 0
|
7天前
|
数据采集 分布式计算 监控
|

别再把数据管道当“体力活”了:从单体任务到事件驱动的升级之路

别再把数据管道当“体力活”了:从单体任务到事件驱动的升级之路

46 3
|
8天前
|
分布式计算 Serverless 数据处理
|

活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台

2025年12月20日,上海 · 阿里巴巴徐汇滨江园区,Apache Spark Meetup 助力企业构建高效数据平台,欢迎报名!

68 3
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
|

教育行业如何做GEO?让AI成为你的课程推荐官

过去,学生找课程靠搜索;现在,他们直接问AI:“附近有哪些性价比高的编程课?”或“商科最好的在线大学?”——AI不会简单罗列链接,而是直接推荐答案。如果你的教育机构没被AI“看见”,可能已经错过了新一轮流量红利。 作为深耕GEO领域的实战团队,数聚酷科技结合教育行业特性,总结出以下可落地的GEO优化策略,帮助你的课程和…

132 6
来自: 智能搜索推荐  版块
|
1月前
|
SQL 人工智能 自然语言处理
|

如何找到适合好用的 AI 数据分析软件?实用指南

AI 数据分析软件则通过自然语言交互、智能问数、自动化建模查询等技术,让业务人员无需写复杂的 SQL 即可自主获取数据洞察,快速定位问题根因,并生成结构化决策建议。

111 11
|
1月前
|
存储 人工智能 Java
|

官宣 | Apache Fluss (Incubating) 0.8 发布公告

Apache Fluss 0.8(孵化中)正式发布!作为进入Apache后的首个版本,全面增强湖流一体能力,支持Iceberg与Lance,引入Delta Join、动态配置、Materialized Table等核心特性,显著提升稳定性与性能,推动实时流处理迈向新阶段。

216 3
|
2月前
|
安全 API
|

LlamaIndex检索调优实战:分块、HyDE、压缩等8个提效方法快速改善答案质量

本文总结提升RAG检索质量的八大实用技巧:语义分块、混合检索、重排序、HyDE查询生成、上下文压缩、元数据过滤、自适应k值等,结合LlamaIndex实践,有效解决幻觉、上下文错位等问题,显著提升准确率与可引用性。

274 8
|
2月前
|
存储 人工智能 数据库
|

向量存储vs知识图谱:LLM记忆系统技术选型

本文探讨LLM长期记忆系统的构建难点与解决方案,对比向量检索与知识图谱架构优劣,分析Zep、Mem0、Letta等开源框架,并提供成本优化策略,助力开发者实现高效、可扩展的AI记忆系统。

367 3
|
3月前
|
分布式计算 Java 关系型数据库
|

二、Sqoop 详细安装部署教程

在大数据开发实战中,Sqoop 是数据库与 Hadoop 生态之间不可或缺的数据传输工具。这篇文章将以 Sqoop 1.4.7 为例,结合官方站点截图,详细讲解 Sqoop 的下载路径、安装步骤、环境配置,以及常见 JDBC 驱动的准备过程,帮你一步步搭建出能正常运行的 Sqoop 环境,并通过 list-databases 命令验证安装是否成功。如果你正打算学习 Sqoop,或者在搭建大数据平台过程中遇到安装配置问题,本文将是非常实用的参考指南。

299 6
|
3月前
|
机器学习/深度学习 数据采集 算法
|

量子机器学习入门:三种数据编码方法对比与应用

在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。

311 8
|
4月前
|
JSON API 开发者
|

闲鱼商品详情API数据解析(附代码)

闲鱼商品详情API(goodfish.item_get)支持通过商品ID获取标题、价格、描述等信息,适用于比价、推荐系统及市场分析。接口支持GET/POST请求,返回JSON格式数据,并提供Python调用示例,便于开发者快速集成。

431 0
|
4月前
|
编解码 文字识别 自然语言处理
|

Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22

Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。

591 0
|
5月前
|
人工智能 JSON 开发工具
|

解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案

本文介绍了一种基于用户意图的提示词优化系统,利用多智能体架构实现自动化优化,提升少样本学习场景下的提示词质量与模型匹配度。系统通过专用智能体协同工作,识别并修复逻辑矛盾、格式不清及示例不一致等问题,结合Pydantic结构化数据模型与OpenAI评估框架,实现高效、可扩展的提示词优化流程。该方案显著减少了人工干预,增强了系统效率与输出一致性,适用于复杂研究任务与深度AI应用。

646 0
|
5月前
|
数据采集 自然语言处理 NoSQL
|

利用中间件实现任务去重与分发精细化:股吧舆情数据采集与分析实战

本项目针对东方财富股吧设计精细化采集方案,解决重复采集、调度混乱与反爬等问题,构建舆情分析数据模型。通过采集帖子内容、用户行为与情绪信号,实现情绪趋势可视化、热点识别与个股预警,助力把握市场风向。

208 0
|
5月前
|
数据采集 运维 DataWorks
|

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。

557 0
|
6月前
|
SQL 存储 消息中间件
|

Trino权威指南

Trino(原Presto SQL)是一款开源分布式SQL查询引擎,专为大数据联邦查询设计。它支持秒级查询PB级数据,可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用,适合交互式分析与BI场景。Trino采用无共享架构,通过列式内存格式和动态代码生成优化性能,并提供丰富的连接器实现计算存储分离,最大化下推优化以提升效率。

1088 3
|
6月前
|
Go vr&ar 图形学
|

把娱乐“搬到”你眼前:增强现实AR如何让文娱产业更卷更有趣?

把娱乐“搬到”你眼前:增强现实AR如何让文娱产业更卷更有趣?

500 8
|
7月前
|
消息中间件 数据采集 人工智能
|

体育直播网站如何实现实时数据

体育直播中的实时数据如何快速、准确地传递到用户手机上?本文揭秘了这一过程:数据来源包括官方合作伙伴和AI+人工双保险;传输借助WebSocket、MQTT协议及CDN加速;高并发通过Redis缓存、消息队列与自动扩容解决。未来,AI+5G将推动实时数据向更低延迟发展,甚至实现赛事预测。代码示例展示了比赛数据处理逻辑,确保用户获得精准信息。

375 33
|
7月前
|
前端开发 开发者
|

HarmonyOS实战:自定义时间选择器

在鸿蒙开发中,官方提供的默认时间选择器可能无法满足特定需求。本文分享了自定义时间选择器的实现过程:通过 TextPicker 控件实现年月日及时分的选择,支持默认选中当前时间、精确到时分,并注意闰年计算与日期格式处理。代码中使用 Promise 处理耗时的日期计算,确保显示和逻辑正确。总结指出,尽管看似简单,但需关注时间计算、格式化等细节。快动手试试吧!

329 1
|
7月前
|
数据采集 Web App开发 JavaScript
|

Python爬虫如何获取JavaScript动态渲染后的网页内容?

Python爬虫如何获取JavaScript动态渲染后的网页内容?

748 6
|
8月前
|
人工智能 边缘计算 前端开发
|

人工智能平台 PAI DistilQwen2.5-DS3-0324发布:知识蒸馏+快思考=更高效解决推理难题

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。DistilQwen2.5-DS3-0324 系列模型是基于 DeepSeek-V3-0324 通过知识蒸馏技术并引入快思考策略构建,显著提升推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。实验显示,DistilQwen2.5-DS3-0324 系列中的模型在多个基准测试中表现突出,其32B模型效果接近参数量接近其10倍的闭源大模型。

915 56
来自: 人工智能平台PAI  版块
|
8月前
|
数据采集 存储 开发者
|

如何动态调整Python爬虫的Request请求延迟

如何动态调整Python爬虫的Request请求延迟

328 13
|
8月前
|
移动开发 人工智能 定位技术
|

用 Godot 开发像素风《饥荒》的流程

用 Godot 开发像素风《饥荒》的流程

534 6
|
8月前
|
人工智能 编解码 自然语言处理
|

VideoMind:Chain-of-LoRA突破时间盲区让AI真正看懂长视频

VideoMind是一种新型视频语言代理,专为解决长视频时间定位理解挑战设计。它通过“Chain-of-LoRA”技术结合四个专业角色(Planner、Grounder、Verifier、Answerer)实现高效推理。Planner分析查询并制定计划;Grounder精确定位视频时刻;Verifier验证候选时刻准确性;Answerer生成最终答案。此架构在14个公共基准上表现出色,尤其在长视频定位任务中超越了现有模型,同时保持高内存效率。VideoMind推动了多模态AI的发展,提供了解决复杂视频理解问题的新方法。

10398 5
|
9月前
|
网络安全
|

window系统下安装elk

本文介绍了Elasticsearch、Logstash和Kibana(统称ELK栈)8.17.3版本的安装与配置流程。主要内容包括: - **Elasticsearch**:详细描述了从下载到启动服务的步骤,以及`elasticsearch.yml`的关键配置项,并提供了Postman操作示例及常见问题解决方案。 - **Logstash**:涵盖了插件安装、配置文件`logstash.conf`编写及其启动命令。 - **Kibana**:讲解了下载、配置`kibana.yml`和启动过程,确保与Elasticsearch正确连接。

544 16
|
10月前
|
存储 JSON API
|

小红书笔记评论数据接口(小红书 API 系列)

小红书凭借庞大的用户群体和丰富的内容生态,成为重要的数据来源。其笔记评论数据对企业了解市场需求、优化产品策略等具有极高价值。为高效、合法获取数据,可使用小红书笔记评论数据接口。该接口通过HTTP请求获取指定笔记的评论内容、时间、昵称等信息,返回JSON格式数据。开发者可利用Python的requests库发送GET请求并处理响应,实现批量收集评论数据,支持舆情监测、竞品分析等业务场景。

1215 5
|
10月前
|
机器学习/深度学习 人工智能
|

Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法

本文介绍了一种名为 Diffusion-DPO 的创新方法,该方法基于直接偏好优化(DPO)原理,简化了扩散模型与人类偏好的对齐过程。相比传统的基于人类反馈的强化学习(RLHF)方法,Diffusion-DPO 避免了显式奖励模型的训练,通过数学近似简化实现流程,并在处理开放词汇表场景时展现出更强的能力。实验结果表明,该方法在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上显著提升了生成图像的质量和可控性,为未来扩散模型的发展提供了新的思路。

828 14
|
10月前
|
运维 并行计算 数据处理
|

量子计算的基本原理与传统计算的区别

量子计算的基本原理与传统计算的区别

511 5
|
11月前
|
机器学习/深度学习 编解码 vr&ar
|

NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构

本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。

1081 8
|
12月前
|
机器学习/深度学习 算法 数据可视化
|

无监督学习与数据聚类:从理论到实践

无监督学习与数据聚类:从理论到实践

507 12
|
12月前
|
安全 API 数据安全/隐私保护
|

淘宝店铺所有商品数据接口(Taobao.item_search_shop)

淘宝开放平台提供的 `Taobao.item_search_shop` 接口用于获取指定淘宝店铺的所有商品数据。请求参数包括 `seller_id`(必需)、`page`(可选,默认为1)和 `sort`(可选,排序方式如新品、价格、销量)。响应参数包括商品的唯一标识符、主图URL、标题、价格、销量等。使用步骤包括注册账号、创建应用、获取权限、构建请求、分页获取商品列表和获取商品详细信息。注意遵守调用频率限制和相关法律法规。

509 5
|
人工智能 自然语言处理 数据挖掘
|

从行业痛点到AI前沿:揭秘AGI时代企业培训的终极之选

近几年接触到的各类培训合作方越来越多,从国际咨询巨头、互联网科技培训平台,到本土独角兽型的专业培训公司;从专攻新技术与创新场景的培训团队,到深谙传统行业痛点的咨询顾问。作为一名在央企、国企、上市公司人力资源培训条线深耕多年的HR负责人,深知在这片竞争激烈的培训服务蓝海中,寻找高质、高效的合作伙伴并不简单,因为企业培训的逻辑正在悄然改变。

816 10
|
Java Unix Linux
|

Java “SocketException” 错误怎么处理

Java 中的 "SocketException" 错误通常发生在网络通信过程中,如连接失败、断开连接或数据传输异常。处理方法包括检查网络配置、确保服务器正常运行、使用超时设置和重试机制,以及捕获并处理异常。

2260 6
|
网络协议 程序员 数据库
|

什么是公网IP和内网IP

【10月更文挑战第27天】公网IP与内网IP是网络通信中的两个重要概念。公网IP是互联网上的唯一标识,而内网IP仅在局域网内部有效,用于局域网内的设备通信。由于IPv4地址资源有限,通常一个公司或家庭只有一个公网IP,内部设备通过NAT(网络地址转换)技术共享该公网IP访问互联网。这样不仅节省了IP资源,还提高了网络安全性和稳定性。

1150 0
|
人工智能
|

写歌词的技巧和方法:优化歌词结构的秘诀,妙笔生词AI智能写歌词软件

歌词是音乐的灵魂,优化其结构能让作品更加动人。掌握开头吸引人、主体结构清晰、情感递进自然及结尾余味悠长等技巧至关重要。同时,借助《妙笔生词智能写歌词软件》的多种AI功能,如智能写词、押韵优化等,可有效提升创作效率与质量,为你的歌词增添光彩。

1412 4

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67708
内容
128
活动
439498
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务