|
机器学习/深度学习 数据可视化 PyTorch
|

【Deep Learning 5】FNN前馈神经网络

🍊本文详细介绍了FNN的原理,并给出了具体的推导过程🍊使用Pytorch搭建了FNN模型,并对糖尿病数据集开展分类任务实战。

2219 0
|
机器学习/深度学习 存储 自然语言处理
|

【论文解读】A review on the attention mechanism of deep learning

注意力已经成为深度学习中最重要的概念之一。本文旨在对近年来提出的最新注意力模型作概述。我们建立了一个较为通用的模型,此外根据四个标准即注意力的柔软性、输入特征的形式、输入表示和输出表示来对当前注意力模型进行分类。最后讨论了注意力在深度学习可解释上的作用。

1926 0
|
SQL 存储 消息中间件
|

Hive SQL on Flink 构建流批一体引擎

阿里巴巴开发工程师罗宇侠&方盛凯,在 Flink Forward Asia 2022 流批一体专场的分享。

19645 3
来自: 实时计算 Flink  版块
|
存储 机器学习/深度学习 人工智能
|

喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践

喜马拉雅AI云借助阿里云提供的HybridBackend开源框架,实现了其推荐模型在 GPU 上的高效训练。

1257 0
来自: 人工智能平台PAI  版块
|
存储 关系型数据库 MySQL
|

技术原理,Hologres Binlog技术原理揭秘

详细介绍Hologres Binlog技术原理以及最佳实践。

3100 4
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 自然语言处理 达摩院
|

跨境电商多语言搜索最佳实践

本文详细介绍智能开放搜索OpenSearch行业版在跨境电商领域的智能搜索应用。

1970 0
来自: 智能搜索推荐  版块
|
数据采集 SQL 弹性计算
|

重磅发布!阿里云全链路数据湖开发治理解决方案

阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。

3111 4

钱大妈基于 Flink 的实时风控实践

钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。

7313 7
来自: 实时计算 Flink  版块
|
存储 SQL 关系型数据库
|

实时数仓入门训练营:Hologres性能调优实践

《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算Flink版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容,直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用,7 门精品课程帮助你 5 天时间从小白成长为大牛!

2756 0
来自: 实时计算 Flink  版块
|
SQL 数据采集 运维
|

实时数仓入门训练营:实时数仓助力互联网实时决策和精准营销

《实时数仓入门训练营》由阿里云研究员王峰、阿里云高级产品专家刘一鸣等实时计算Flink版和 Hologres 的多名技术/产品一线专家齐上阵,合力搭建此次训练营的课程体系,精心打磨课程内容,直击当下同学们所遇到的痛点问题。由浅入深全方位解析实时数仓的架构、场景、以及实操应用,7 门精品课程帮助你 5 天时间从小白成长为大牛!

2551 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 Cloud Native
|

Hologres揭秘:优化COPY,批量导入性能提升5倍+

揭秘Hologres优化COPY的技术原理,实现批量导入性能提升5倍+。

4216 0
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 消息中间件 数据采集
|

可观测性-Elastic Stack 实战手册

业界对可观测性的定义由Logging(日志),Metrics (指标)和 Tracing(跟踪)组成。其中大多数软件都仅在一个领域内发力,这导致了实施可观测性时的高昂成本。需要建设多个技术栈的软件,才能实现完整的可观测性。大多数企业基本都使用了 5个+ 的技术栈,有的甚至能达到10个技术栈。

769 0
|
存储 SQL 缓存
|

正确设计Hologres实时数仓,性能提升10倍+

本文将会讲述阿里巴巴零售通数据平台如何优化Hologres实时数仓,达到性能提升10倍+的效果,完美支撑双11营销活动、实时数据大屏等核心场景。也希望通过此文对Hologres新用户起到一定的帮助作用,通过合理的数仓设计实现事半功倍的性能效果。

4184 1
来自: 实时数仓 Hologres  版块
|
分布式计算 Spark Apache
|

限免首发 | Spark 企业级实战集锦,国内Spark开发者的进阶指南!

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭,本书集结国内外顶级大厂技术专家,汇集多年实战经验,带你走进全球顶级开源社区之一 Apache Spark,探秘时下最流行的开源分布式内存式大数据处理引擎。

15292 0
|
存储 JSON 分布式计算
|

使用Databricks作为分析平台

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践,技术上取得了哪些突破,以及周边的生态发展。本文是阿里巴巴高级技术专家章剑锋做的相关分享,介绍了YipitData公司基于Databricks平台搭建的分析平台。

2735 0
|
存储 机器学习/深度学习 运维
|

Elasticsearch集群模式知多少?

Elasticsearch经过多年发展,集群模式已经非常成熟,涵盖的技术点非常多,对于使用者来说,掌握并熟练运用至关重要。那么Elasticsearch有多少种集群模式呢?当前适合哪种集群模式?

8223 0
|
存储 分布式计算 算法
|

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

在 2019 年的打榜测试中,我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化 对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。

6125 0
|
编解码 达摩院 监控
|

阿里云 Elasticsearch 向量检索,轻松玩转人脸识别、搜索推荐等29个业务场景

简介:我们知道,市面上有不少开源的向量检索库供大家选择使用,例如 Facebook 推出的 Faiss 以及 Nswlib,虽然选择较多,但业务上需要用到向量检索时,依旧要面对四大共性问题。

11315 1
|
DataWorks 机器人
|

欢迎加入DataWorks产品钉钉交流群

欢迎加入DataWorks产品钉钉交流群,该群每日有值班针对dataworks问题进行讲解

38159 0
|
数据采集 分布式计算 监控
|

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

  数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。   本次分享嘉宾是来自阿里云大数据的技术专家祎休   背景与总体思路   数据仓库是一个面向主题的、集成的、非易失的、反映历史变化的数据集合用于支持管理决策。

10387 1
来自: 大数据计算 MaxCompute  版块
|
大数据
|

通过Fluentd实时上传数据到DataHub实践

本文把我通过Flunetd,把数据上传到DataHub的配置过程记录下来,希望对大家在配置中能有帮助。

4367 0
来自: 大数据计算 MaxCompute  版块
|
8天前
|
资源调度 前端开发 小程序
|

前端UI框架介绍mpvue WeUI Express Koa NPM YARN

前端UI框架介绍mpvue WeUI Express Koa NPM YARN

155 108
|
15天前
|
存储 SQL 大数据
|

分布式存储三国杀:对象存储 vs HDFS vs 列式存储,到底该怎么选?

分布式存储三国杀:对象存储 vs HDFS vs 列式存储,到底该怎么选?

103 2
|
21天前
|
Java API Spring
|

Spring Boot中使用Swagger3.0.0注解

Spring Boot中使用Swagger3.0.0注解

226 4
|
22天前
|
人工智能 算法 前端开发
|

实验报告:让AI自动生成采集代码,会踩哪些坑?

本文复盘AI自动生成采集代码的实战效果,梳理出“模拟行为”与“接口调用”两大技术路线。AI在浏览器自动化中表现良好,适合简单场景;但面对加密接口与强反爬时仍需人工介入。最终结论:AI是高效助手,但核心难题仍需工程师掌控。

111 1
|
22天前
|
数据采集 人工智能 JavaScript
|

双解析引擎VS单一架构:DataEyes如何用视觉革命重塑AI数据基建

Jina与DataEyes代表AI数据工具两大技术路径。本文从架构、场景、赋能三维度对比,揭示DataEyes如何通过“视觉+代码”双模解析,提升动态数据捕获效率,实现电商、金融、农业等多行业落地,推动企业级数据获取迈向自动化与智能化。

236 154
|
24天前
|
机器学习/深度学习 数据可视化 算法
|

Python | 随机搜索参数优化的XGBoost+SHAP可解释性分析回归预测及可视化算法

本教程将带你掌握Python中XGBoost模型的随机搜索调参、SHAP可解释性分析及多种可视化技术,涵盖特征相关性热图、散点密度图、超参数优化等核心内容,助力科研论文与实际项目应用。

113 2
|
29天前
|
机器学习/深度学习 JSON 搜索推荐
|

淘宝拍立淘API助力电商比价与同款搜索

淘宝图片搜索API(拍立淘)基于深度学习技术,支持通过图片URL、Base64或本地上传,在海量商品中查找相似款。适用于比价、同款识别、穿搭推荐等场景,提升购物效率与体验。

91 1
|
1月前
|
边缘计算 自然语言处理 算法
|

实时交互数字人端到端延迟压至0.8秒:关键技术节点与商业价值解析

0.8秒是实时数字人体验的关键阈值,端到端延迟低于此值可实现自然流畅交互。本文解析其技术链路、核心支撑与商业价值,揭示为何这一指标成为数字人从“可用”到“好用”的分水岭。

194 4
来自: 人工智能平台PAI  版块
|
1月前
|
数据可视化 Java 大数据
|

基于大数据的天气分析与应用系统

本研究基于Spark大数据技术,针对西南复杂地形与多变气候,构建气象数据分析模型,结合Java、Vue、Spring Boot与MySQL技术实现降水可视化预测系统,提升气象预报精度与防灾能力。

134 4
|
1月前
|
人工智能 分布式计算 大数据
|

阿里云大数据AI产品月刊-2025年10月

大数据& AI 产品技术月刊【2025年 10 月】,涵盖 10 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

232 1
|
1月前
|
人工智能 安全 算法
|

当AI开始一本正经“胡说八道”,我们该怎么办?——聊聊大模型安全与反“幻觉”技术

当AI开始一本正经“胡说八道”,我们该怎么办?——聊聊大模型安全与反“幻觉”技术

183 7
|
2月前
|
数据采集 JSON 文字识别
|

图像与视频页面的数据提取

随着小红书、抖音等视觉平台崛起,传统采集难以应对图像视频内容。本文详解多模态采集架构:通过OCR识别图文、关键帧抽取视频信息,结合元数据融合,实现对视觉内容的精准理解与结构化提取,推动数据采集从“抓取”迈向“认知”。

195 7
|
2月前
|
存储 人工智能 数据库
|

向量存储vs知识图谱:LLM记忆系统技术选型

本文探讨LLM长期记忆系统的构建难点与解决方案,对比向量检索与知识图谱架构优劣,分析Zep、Mem0、Letta等开源框架,并提供成本优化策略,助力开发者实现高效、可扩展的AI记忆系统。

362 3
|
2月前
|
Cloud Native Serverless API
|

微服务架构实战指南:从单体应用到云原生的蜕变之路

🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。

365 4
|
2月前
|
JavaScript 前端开发 安全
|

Vue 3 + TypeScript 现代前端开发最佳实践(2025版指南)

每日激励:“如果没有天赋,那就一直重复”。我是蒋星熠Jaxonic,一名执着于代码宇宙的星际旅人。用Vue 3与TypeScript构建高效、可维护的前端系统,分享Composition API、状态管理、性能优化等实战经验,助力技术进阶。

601 1
|
3月前
|
机器学习/深度学习 传感器 分布式计算
|

数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度

299 14
|
3月前
|
数据采集 NoSQL 数据可视化
|

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

本项目将单机Playwright爬虫逐步演进为分布式集群,解决脚本不稳定、限速、维护难等问题。以招聘数据采集为例,实现从页面解析、代理IP轮换、Redis任务队列到多机并发的完整链路,结合MongoDB/Elasticsearch落库与可视化,形成可复用的生产级爬虫架构,适用于数据分析、岗位监控等场景。

302 0
|
3月前
|
人工智能 JSON 测试技术
|

AI智能体开发实战:从提示工程转向上下文工程的完整指南

曾被热捧的提示工程正逐渐退潮,本文揭示其局限性,并提出“上下文工程”新范式:通过结构化提示、精准上下文管理、工具调用与统一状态,构建可扩展、可恢复、生产级的智能体工作流,推动AI系统迈向工程化与可控化。

435 9
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Step-Audio2 声音克隆 详细介绍

Step-Audio2是StepFun于2024年推出的中文语音克隆大模型,支持“一句话克隆+情感可控+实时流式”一体化生成,参数总量300M,首包延迟低至120ms,MOS达4.4+,采用Apache-2.0协议开源,适配商业应用,是当前中文TTS领域开源落地门槛最低的方案之一。

536 1
|
4月前
|
JSON API 开发者
|

闲鱼商品详情API数据解析(附代码)

闲鱼商品详情API(goodfish.item_get)支持通过商品ID获取标题、价格、描述等信息,适用于比价、推荐系统及市场分析。接口支持GET/POST请求,返回JSON格式数据,并提供Python调用示例,便于开发者快速集成。

426 0
|
4月前
|
机器学习/深度学习 数据采集 运维
|

匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率

匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。

247 6
|
4月前
|
存储 消息中间件 人工智能
|

Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台

本文整理自 Lazada Group EVP 及供应链技术负责人陈立群在 Flink Forward Asia 2025 新加坡实时分析专场的分享。作为东南亚领先的电商平台,Lazada 面临在六国管理数十亿商品 SKU 的挑战。为实现毫秒级数据驱动决策,Lazada 基于阿里云实时计算 Flink 和 Hologres 打造端到端实时商品选品平台,支撑日常运营与大促期间分钟级响应。本文深入解析该平台如何通过流式处理与实时分析技术重构电商数据架构,实现从“事后分析”到“事中调控”的跃迁。

474 55
来自: 实时计算 Flink  版块
|
4月前
|
算法 安全 量子技术
|

“RSA还能撑多久?”——聊聊量子计算下密码学的危与机

“RSA还能撑多久?”——聊聊量子计算下密码学的危与机

269 0
|
5月前
|
存储 搜索推荐 算法
|

Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)

本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。

226 0
|
5月前
|
安全 JavaScript Java
|

java Web 项目完整案例实操指南包含从搭建到部署的详细步骤及热门长尾关键词解析的实操指南

本项目为一个完整的JavaWeb应用案例,采用Spring Boot 3、Vue 3、MySQL、Redis等最新技术栈,涵盖前后端分离架构设计、RESTful API开发、JWT安全认证、Docker容器化部署等内容,适合掌握企业级Web项目全流程开发与部署。

396 0
|
5月前
|
人工智能 自然语言处理 数据可视化
|

开源AI BI可视化工具-dataline

DataLine 是一个开源数据分析工具,支持自然语言交互,可快速生成图表与报告。数据默认存储本地,保障隐私安全,兼容 Postgres、MySQL、Excel 等多种数据源。提供可视化仪表盘、触发器及知识库功能,支持 Windows、Mac、Linux 平台运行,并可通过 Docker 部署,适合企业使用。

469 1
|
6月前
|
存储 分布式计算 NoSQL
|

特征存储避坑指南:对比 Feast/Hopsworks 在金融风控场景的落地实践

金融风控场景对特征存储系统有严苛要求,包括低延迟、强一致性、多源数据处理及合规性。本文对比Feast与Hopsworks两大平台的实战经验,解析其在特征服务优化、版本控制、性能调优等方面的优势与陷阱,并提出混合架构方案兼顾实时性与计算效率。通过实践验证,可显著提升系统性能并降低成本。

470 4
|
6月前
|
存储 分布式计算 Java
|

Spark RDD 及性能调优

RDD(弹性分布式数据集)是Spark的核心抽象,支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换(Transformations)与行动(Actions),提供丰富的API支持复杂数据处理。 执行模型涵盖用户代码到分布式执行的全流程,通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存,提升资源利用率。 性能调优涉及资源配置、执行引擎优化及数据处理策略。Catalyst优化逻辑计划,Tungsten提高运行效率,而合理分区与缓解数据倾斜可显著改善性能。这些特性共同确保Spark在大规模数据处理中的高效表现。

347 1
来自: 大数据计算 MaxCompute  版块
|
6月前
|
数据采集 人工智能 数据可视化
|

体育动画直播怎么做出来的?揭秘从数据到卡通的魔法过程!

体育动画直播是一种结合实时数据、游戏引擎与AI技术的创新形式,可将真实比赛数据转化为动画呈现。它支持自由视角观看、100%还原比赛细节,适用于足球/篮球可视化直播、电竞虚拟形象直播等场景。制作流程包括数据采集(如球员定位、生物力学数据)、3D建模(创建虚拟球场与球员模型)、动画生成(关键帧或AI驱动动作)及实时渲染播出。开发者需注意数据清洗、性能优化与版权问题,未来还将融入元宇宙技术,带来全息、VR沉浸式体验。这是一场体育与科技的完美碰撞!

659 4

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

5
今日
67691
内容
128
活动
439495
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务