|
SQL 存储 缓存
|

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

流计算中一个常见的需求就是为数据流补齐字段。因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全。比如采集到的交易日志中只记录了商品 id,但是在做业务时需要根据店铺维度或者行业纬度进行聚合,这就需要先将交易日志与商品维表进行关联,补全所需的维度信息。

27994 2
来自: 实时计算 Flink  版块
|
新零售 搜索推荐 调度
|

通过Flink实时构建搜索引擎的索引

1.背景介绍 搜索引擎的出现大大降低了人们寻找信息的难度,已经深入到生活与工作的方方面面,简单列举几个应用如下: 互联网搜索,如谷歌,百度等; 垂直搜索,如淘宝、天猫的商品搜索; 站内搜索,各个内容网站提供的站内搜索服务; 企业内部搜索,员工查询企业内部信息; 广告投放,根据投放上下文检索出对应的广告主和广告内容; 搜索引擎的关键是让用户找到其所需信息,其整体架构如下: 从图示可知,一个搜索引擎从大的方面来看主要包括两部分,一部分是提供在线的搜索服务,一部分要把原始数据已离线的方式建立索引,建立索引是信息可搜索的前提。

17472 2
来自: 实时计算 Flink  版块
|
算法 搜索推荐 双11
|

实时离线平台Pora介绍@2015

11344 1
来自: 智能搜索推荐  版块
|
算法
|

FM算法介绍

概述 FM (Factorization Machine) 算法可进行回归和二分类预测,它的特点是考虑了特征之间的相互作用,是一种非线性模型,目前FM算法是推荐领域被验证的效果较好的推荐方案之一,在诸多电商、广告、直播厂商的推荐领域有广泛应用。

11772 0
来自: 人工智能平台PAI  版块
|
SQL 双11 流计算
|

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

通俗讲retract就是传统数据里面的更新操作,也就是说retract是流式计算场景下对数据更新的处理方式。

18491 10
来自: 实时计算 Flink  版块
|
SQL 分布式计算 MaxCompute
|

MaxCompute SQL-列转行和行转列

1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c

13395 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

如何用SQL对MaxCompute数据进行修改和删除

MaxCompute SQL不支持对数据的Update和Delete操作,但是实际工作中可能确实有一些场景需要这样处理,怎么办呢?本文就各种场景下的的解决方法做一个说明。 特别提醒大家,在工作中为避免误操作,尽量避免直接对数据进行直接的修改和删除,建议是创建一张新的表,把结果表进过加工后写入新的表

10931 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 自然语言处理 搜索推荐
|

深度语义模型以及在淘宝搜索中的应用

传统的搜索文本相关性模型,如BM25通常计算Query与Doc文本term匹配程度。由于Query与Doc之间的语义gap, 可能存在很多语义相关,但文本并不匹配的情况。为了解决语义匹配问题,出现很多LSA,LDA等语义模型。

11416 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 算法
|

大数据分析平台产品对比之MaxCompute 篇

之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的MaxCompute。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。

9644 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 MaxCompute
|

odps之sql性能优化

前一段时间做了一些作业成本优化的工作,这里做下总结。 首先说明本篇中谈及的优化主要的目标是在不大幅度增加作业运行时长的条件下对作业运行成本的优化。 ## 1. odps的优化引擎并没有那么智能 odps自带的优化引擎会对sql作业做一定的优化处理,如列裁剪、分区裁剪和谓词下推。

8378 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

7625 0
来自: 大数据计算 MaxCompute  版块
|
监控 安全 大数据
|

【入门指南】操作阿里云Kibana

Elastic公司的“ELK”是目前最火的日志分析三剑客,其中ElasticSearch负责日志的索引,Logstash负责日志的收集,Kibana负责日志的展示和分析。Elastic与阿里云达成了合作伙伴关系,推出“阿里云 Elasticsearch”服务,提供了开箱即用的Elasticsearch和Kibana环境。

9140 0
|
SQL 分布式计算 Java
|

MaxCompute - ODPS重装上阵 第三弹 - 复杂类型

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

7898 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 分布式计算 Kafka
|

基于MaxCompute构建Noxmobi全球化精准营销系统

摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

5507 0
来自: 大数据计算 MaxCompute  版块
|
新零售 机器学习/深度学习 算法
|

千亿特征流式学习在大规模推荐排序场景的应用

摘要:2017云栖大会机器学习平台PAI专场,阿里巴巴高级技术专家陈绪带来千亿特征流式学习在大规模推荐排序场景的应用的演讲。主要从电商个性化推荐开始谈起,进而描述了技术挑战和PAI解决方案,重点分享了鲲鹏框架和算法调优,最好作了简要总结。

5475 0
来自: 大数据计算 MaxCompute  版块
|
搜索推荐 开发者 算法
|

云栖全程回顾|搜索推荐工程技术专场(附视频与文档)

2019年9月26日在云栖大会《搜索推荐工程技术专场》上,介绍了阿里巴巴搜索推荐与广告,淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀,承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务,同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家,为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。

7997 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 大数据
|

MaxCompute SQL中的更新和删除如何实现

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。   由于 MaxCompute是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。

6173 0
来自: 大数据计算 MaxCompute  版块
|
存储 运维 分布式计算
|

飞天5K实战经验:大规模分布式系统运维实践

传统的运维人员通常只面对几十或者上百台的服务器,但在大规模分布式集群中,运维人员面临工作任务明显不同。本文分别阐述服务器数量激增,要求提升全局掌控能力,如何实现系统的自我保护和自动化恢复,大规模与精细化平衡,以及需要开发和运维更加紧密合作等方面,通过对真实数据进行分析和预测,将判断失误概率降到最低。

5915 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。

6890 0
来自: 大数据计算 MaxCompute  版块
|
流计算 NoSQL Redis
|

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。 这要求风控系统一定要有实时性。

13237 2
来自: 实时计算 Flink  版块
|
存储 分布式计算 搜索推荐
|

一场变美盛宴后面的大数据故事

小红唇和阿里云大数据平台的牵手要从2016年5月份说起。随着小红唇业务的发展,用户量和内容量不断增加,迫切需要推出个性化功能,增加用户的使用时长和用户粘度。对于一个没有大数据/机器学习经验和技术储备,并且开发人员有限的年轻团队,在业务快速发展的情况下,如何在非常有限的开发资源和不影响正常业务开发的前提下,快速建立起自己的推荐系统,成为摆在小红唇技术团队面前一个不小的挑战。

6530 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Spark
|

欢迎加入Spark中国社区

欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群

9013 1
|
流计算 大数据 Apache
|

重磅揭晓!Flink Forward Asia 2019 议程完整出炉

60 年前,人工智能的诞生刷新了人类对技术的期待;过去 10 年,大数据、云计算等核心技术的发展,推动了整个社会的重构与革新;5 年时间,移动互联网从诞生到逐步实现万物互联,数据在现实中的边界正在不断被拓展;技术迭变的进程不断加快,新兴技术的涌现昼夜不停。

10239 12
来自: 实时计算 Flink  版块
|
人工智能 双11 机器学习/深度学习
|

2684亿销售额背后的阿里AI技术

刚刚结束的双十一,天猫交易额达到 2684 亿元,较去年同比增长 25.7%。这一结果背后,云计算、人工智能等技术以及阿里巴巴工程师们的努力功不可没。在正在召开的 AICon 全球人工智能与机器学习技术大会 现场,阿里云智能计算平台事业部研究员林伟介绍了阿里基于飞天 AI 平台的人工智能技术及能力,揭开双 11 大规模交易场景下,阿里人工智能技术的神秘面纱。

6017 0
来自: 人工智能平台PAI  版块
|
存储 算法 测试技术
|

索引压缩算法New PForDelta简介以及使用SIMD技术的优化

New PForDelta算法介绍 倒排索引的数据包括docid, term frequency, term position等,往往会占用很大的磁盘空间,需要进行压缩。压缩算法需要考虑两点:压缩效果和解压缩效率。

5676 0
来自: 智能搜索推荐  版块
|
新零售 分布式计算 大数据
|

首次加入云栖大会的Flink专场,究竟都讲了啥?

9月19日,云栖大会的Flink分论坛,在杭州正式开幕。今天是云栖大会的第一天,据悉,这也是云栖大会首次加入Flink的论坛,足见阿里对于Flink前景的看好与重视。本次Flink分论坛,除了阿里巴巴的嘉宾外,论坛也邀请了Data Artisans的联合创始人,Flink的开创者和发扬者同台,共话Flink的前世今生。

4213 0
来自: 实时计算 Flink  版块
|
分布式计算 大数据 MaxCompute
|

MaxCompute UDF系列之全角转半角

我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理,今天为大家提供一个全角转半角的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.

3777 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute 大数据
|

TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

3963 0
来自: 大数据计算 MaxCompute  版块
|
大数据 测试技术
|

2017大数据标准化论坛发布了第一批大数据系统测试结果,阿里云数加获得了大数据系统测试证书。

2017年3月18日, 2017大数据标准化论坛在北京成功召开。本次论坛由工业和信息化部信息化和软件服务业司和国家标准化管理委员会工业标准二部指导,中国电子技术标准化研究院和全国信标委大数据标准工作组共同主办。

3120 0
来自: 大数据计算 MaxCompute  版块
|
网络协议 Linux 分布式数据库
|

TCP的backlog导致的HBase超时问题排查

TCP的backlog导致的超时问题排查

2963 0
|
资源调度 网络性能优化 调度
|

阿里巴巴搜索在离线统一调度

1. 发展历程         Hippo是搜索事业部调度系统团队自研的支撑集团内外多个BU搜索与推荐体系和阿里云上Opensearch/ES等的调度系统,经过了5年的快速发展,提供了可靠、简单、低成本的资源及应用托管方案,通过自动化运维、机器合池、智能弹性调度、混部和在离线统一调度等手段解决成本和效率的问题。

4822 0
来自: 智能搜索推荐  版块
|
SQL 存储 大数据
|

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟,TextFile、CSV这些文本格式存储效率低,查询速度慢,往往不能很好地满足大数据系统中存储和查询的需求,列式存储也在大数据社区逐渐兴起到成熟。

5673 0
|
分布式计算 对象存储 Spark
|

玩转阿里云EMR三部曲-入门篇

优异的自动化创建集群让小伙伴专心于业务开发,不再纠结于hadoop、spark版本,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。可以保留更多精力和成本用于业务开发和维护,而把集群运维/存储问题托管给阿里云。

3529 0
|
SQL 分布式计算 MaxCompute
|

使用split_size优化的ODPS SQL的场景

使用split_size优化的ODPS SQL的场景

3128 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 SQL 分布式计算
|

日均万亿条数据如何处理?爱奇艺实时计算平台这样做

本文由爱奇艺大数据服务负责人梁建煌分享,介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台,并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。

2977 0
来自: 实时计算 Flink  版块
|
人工智能 分布式计算 大数据
|

开源大数据周刊-2018年08月03日 第95期

开源大数据周刊-2018年08月03日 第95期

1822 0
|
SQL 分布式计算 资源调度
|

EB级计算平台调度系统伏羲 DAG 2.0: 构建更动态更灵活的分布式计算生态

伏羲(Fuxi)是十年前创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute(内部代号ODPS),分布式调度 Fuxi),过去十年来,伏羲在技术能力上每年都有新的进展和突破,2013年5K,2015年Sortbenchmark世界冠军,2017年超大规模离在/在离线混部能力,2019年的 Yugong 发布并且论文被VLDB2019接受等。

2564 0
来自: 大数据计算 MaxCompute  版块
|
存储 大数据 BI
|

Iceberg 在基于 Flink 的流式数据入库场景中的应用

本文以流式数据入库的场景为基础,介绍引入 Iceberg 作为落地格式和嵌入 Flink sink 的收益,并分析了当前可实现的框架及要点。

3761 0
来自: 实时计算 Flink  版块
|
分布式计算 Apache Spark
|

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲 【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

1215 0
|
关系型数据库 RDS MySQL
|

【最佳实践】DTS轻松实现RDS for MySQL与阿里云Elasticsearch数据实时同步

本文介绍如何使用 DTS 快速创建RDS for MySQL->阿里云Elasticsearch的实时同步作业,实现RDS for MySQL数据到阿里云Elasticsearch的实时同步。

4209 0
|
分布式计算 Spark Apache
|

Kerberos使用OpenLDAP作为backend

本文介绍Kerberos对接OpenLDAP, 使用OpenLDAP作为principal数据库

2350 0

7月10日直播【E-MapReduce产品探秘,扩展开源生态云上的能力】

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

832 0
|
Web App开发 缓存 负载均衡
|

什么是HTTP代理?HTTP代理的作用?HTTP代理怎么设置?

HTTP代理是一种充当客户端和服务器之间的中间人的服务器。当客户端发起请求时,HTTP代理会拦截请求并将其转发给目标服务器。一旦目标服务器响应,HTTP代理会拦截响应并将其转发回客户端。HTTP代理可以被用于多种场景,例如加强安全、缓存内容以加速访问、访问受限资源等等。在这篇文章中,我们将会讨论HTTP代理的作用、类型以及如何设置它。

8395 0
|
5月前
|
SQL XML JavaScript
|

【若依Java】15分钟玩转若依二次开发,新手小白半小时实现前后端分离项目,springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

摘要: 本文档详细介绍了如何使用若依框架快速搭建一个基于SpringBoot和Vue3的前后端分离的Java管理后台。教程涵盖了技术点、准备工作、启动项目、自动生成代码、数据库配置、菜单管理、代码下载和导入、自定义主题样式、代码生成、启动Vue3项目、修改代码、以及对代码进行自定义和扩展,例如单表和主子表的代码生成、树形表的实现、商品列表和分类列表的改造等。整个过程详细地指导了如何从下载项目到配置数据库,再到生成Java和Vue3代码,最后实现前后端的运行和功能定制。此外,还提供了关于软件安装、环境变量配置和代码自动生成的注意事项。

3097 3
|
2月前
|
机器学习/深度学习 人工智能 文字识别
|

ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)

本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化

1148 0
|
7月前
|
算法
|

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

【MATLAB】史上最全的11种数字信号滤波去噪算法全家桶

2035 0
|
7月前
|
存储 缓存 网络协议
|

CDNJS/UNPKG/JSDelivr 太慢用不了,换成这些国内高速镜像

npm cdn, cdnjs, unpkg, jsdelivr, zstatic, zstatic.net, s4.zstatic.net

4017 4
|
2月前
|
IDE Java 编译器
|

Java“找不到符号” 错误怎么查找解决

“找不到符号”是Java编程中常见的编译错误,通常表明代码试图访问未声明或不可见的符号(如类、方法或变量)。解决此问题需检查拼写、导入包是否正确及作用域是否合适。确保使用正确的类路径和库,可有效避免此类错误。若问题依旧,查阅官方文档或使用调试工具定位错误亦为良策。

1642 10
|
7月前
|
Ubuntu Linux
|

Ubuntu 报错:System has not been booted with systemd as init system (PID 1). Can‘t operate.

系统未使用 `systemd` 初始化导致错误。解决方法是通过 `apt` 安装。首先备份并更换`sources.list`,添加阿里云镜像源,然后更新源并以管理员权限运行 `apt-get install systemd -y` 和 `apt-get install systemctl -y` 安装所需组件。

2419 3

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
64734
内容
112
活动
438248
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务