Kudu入门_应用场景_项目介绍|学习笔记

简介: 快速学习Kudu入门_应用场景_项目介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)Kudu入门_应用场景_项目介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11746


Kudu入门_应用场景_项目介绍


内容介绍:

一、Kudu 阶段的四大部分内容

二、Kudu 的应用场景


一、Kudu 阶段的四大部分内容

1、什么是 kudu

(1)kudu 的应用场景

①设计项目

②选取方案。很多种方案,已迭代的方式选择。

(2)kudu 当中的对比

2、Kudu 的原理

3、kudu 的安装和管理

4、操作 kudu

image.png


二、Kudu 的应用场景

1、设计一个项目

现代大数据的应用场景

例如现在要做一个类似物联网的项目,可能是对某个工厂的 生产数据进行分析。工业大数据可以这么理解:

假设有一个工厂,工厂里面有特别多的机器,大概有几百条,有一个数据中心,然后把机器设备的数据放到数据中心。

(1)项目特点:

①数据量大

机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。有一个非常重大的挑战,就是这些设备可能很多,其所产生的事件记录可能也很大,所以需要对设备进行数据收集和分析的话,需要使用一些大数据组件和功能。(机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。)

设备把数据收集出来放到平台当中,然后数据应用就会到平台上进行数据查询。

image.png

(2)流式处理

因为数据是事件,事件是一个一个来的,并且如果快速查看结果的话,必须使用流计算来处理这些数据。比如我们希望通过数据中心来查看当前工厂机器的运行状态,就得尽可能最快的获取,就必须进行流式处理。

(3)数据需要存储

最终需要对数据进行统计和分析,所以数据要先有一个地方存,后再通过可视化平台去分析和处理 。

image.png

2、对存储层的要求

数据存储的关键问题就是对存储的要求,比如说现在有一个访问模式,这样的一个流计算系统,需要对数据进行处理

(1)和流数据进行配合要能够及时的看到最近的数据,判断系统是否有异

(2)要能够扫描历史数据,从而改进设备和流程

对数据存储层就有可能进行如下的操作

(1)逐行插入,因为数据是一行一行来的,要想及时看到,就需要来一行插入一行

(2)低延迟随机读取,如果想分析某台设备的信息,就需要在数据集中随机读取某一个设备的事件记录(批量读取为来一天的数据,随机读取就是具体查取某一台机器比如001的数据。)

(3)快速分析和扫描,数据分析师需要快速的得到结论,执行一行 SOL 等上十天是不行的。

在项目中对存储层要求是随机插入,低延迟随机读,以及能批量读和分析。随机插入是 mysql oltp 比较擅长。低延迟随机读也是 OLTP 中常用的手段,查某一部分数据,有一些判断。批量读和分析是 hdfs 中的方式,把文件 hdfs 中,hdfs 是分片的,所以读取性能非常高。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 算法 计算机视觉
使用sklearn进行特征选择
背景 一个典型的机器学习任务,是通过样本的特征来预测样本所对应的值。如果样本的特征少,我们会考虑增加特征。而现实中的情况往往是特征太多了,需要减少一些特征。
|
Java 应用服务中间件 持续交付
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
本文是采用Java配置类的方式配置微服务的Nacos服务注册,并动态的配置spring.cloud.discovery.ip属性以打到微服务内网穿透注册至Nacos注册中心。
5431 0
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
|
监控 文件存储 Docker
实现NAS远程下载,Docker部署qBittorrent、Transmission、贝锐花生壳
与电脑不同,NAS通常7x24小时运行,便于下载资源,解决BT/PT下载需长时间在线的问题。因此,qBittorrent、Transmission等下载管理工具成为NAS用户的必备应用。通过Docker,用户可在多种NAS设备上快速安装这些工具,并通过局域网IP地址+端口访问。然而,缺乏公网IPv4地址导致远程访问困难,贝锐花生壳提供了解决方案,允许无公网IP情况下通过固定域名远程访问NAS中的下载工具,简化了部署过程,使用户能随时随地控制家中的下载任务。
1125 33
实现NAS远程下载,Docker部署qBittorrent、Transmission、贝锐花生壳
|
PyTorch 算法框架/工具
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解
PyTorch中的`nn.AdaptiveAvgPool2d()`函数用于实现自适应平均池化,能够将输入特征图调整到指定的输出尺寸,而不需要手动计算池化核大小和步长。
1113 1
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解
|
3月前
|
安全 测试技术 程序员
web渗透-文件包含漏洞
文件包含漏洞源于程序动态包含文件时未严格校验用户输入,导致可加载恶意文件。分为本地和远程包含,常见于PHP,利用伪协议、日志或session文件可实现代码执行,需通过合理过滤和配置防范。
669 79
web渗透-文件包含漏洞
|
2月前
|
存储 供应链 API
1688获得店铺所有商品的API接口
本文介绍如何通过1688开放平台API获取指定店铺的全部商品信息,涵盖注册、认证、分页调用及Python代码实现,适用于数据同步、库存管理与电商分析,内容真实可靠,步骤清晰易行。
331 0
|
4月前
|
Ubuntu 网络协议 Unix
在虚拟机中安装Linux Ubuntu系统指南
通过点击【浏览】按钮,您可以更改Ubuntu的安装位置。为确保系统稳定,建议避免将Ubuntu安装在C盘。您可以在D盘或其他磁盘中创建一个名为“ubuntu”的文件夹,并选择该文件夹作为安装位置,然后点击【下一步】继续。
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:百万数据量的优化实录
【10月更文挑战第6天】 在现代互联网应用中,随着用户量的增加和业务逻辑的复杂化,数据量级迅速增长,这对后端数据库系统提出了严峻的挑战。尤其是当数据量达到百万级别时,传统的数据库解决方案往往会遇到性能瓶颈。本文将分享一次使用MySQL与Redis协同优化大规模数据统计的实战经验。
587 3
|
JSON 前端开发 测试技术
API接口 |产品经理一定要懂的10%技术知识
作为产品经理,掌握约10%的技术知识对处理API相关工作至关重要。这包括理解API的基本概念及其作为数据交换的桥梁作用;熟悉JSON和XML两种主要数据格式及其特点;了解常见HTTP请求方法(GET、POST、PUT、DELETE)及响应状态码;关注API安全性,如认证授权和数据加密;掌握API版本管理和错误处理技巧;重视性能优化,以提升用户体验;参与API联调测试,确保稳定可靠;并与前后端团队紧密协作,选择合适的第三方API服务,推动产品高效开发。
|
SQL Java 数据库连接
成功解决:was not registered for synchronization because synchronization is not active
这篇文章是关于解决Mybatis在同步过程中出现"was not registered for synchronization because synchronization is not active"错误的技术博客。
成功解决:was not registered for synchronization because synchronization is not active