备案控制台

开发者社区阿里云开发者学堂文章正文

HDFS 数据源、DStream 的持久化存储_ 1|学习笔记

2021-12-23 151

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 HDFS 数据源、DStream 的持久化存储_ 1

开发者学堂课程【大数据实时计算框架 Spark 快速入门：HDFS 数据源、DStream 的持久化存储_ 1】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/100/detail/1722

HDFS 数据源、DStream 的持久化存储_ 1

具体操作如下:

package com. shsxt. study,streaming;

import java. util. Arrays;[

public class HDFSWordcount {

public static void main(String[]args){Sparkconf conf=new Sparkconf().setAppName(“HDFSWordcount ”).setMaster(“IOzlI”)] Javastreaming Context jssc=new JavaStreamingContext (conf, Durations, seconds(5) );

JavaDStream<String>lines=jssc.textFileStream ("hdfs://node21#8020/ worldcount _ dir"); JavaDStream <String>words=lines,flatMap(new FlatMapFunction <String, String>()

{

private static final long serial VersionUID =1L;

@Override public Iterable<String>call(String line) throws Exception{

return Arrays.asList(line. split("));

}

JavaPairDStreamsString , Integer>pairds.mapIoPair(new Pair function<5tring,5tring, Integer/(]});

private static final long se rialVersionUID =1L;

@Override publicTuple2 <String, Integer>call(String word) throws Exception{

return newTuple2<String, Integer>(word,1);

}

});

JavaPainDStreawKtring , Integer>wordcounts . reduceByKey(new functional Integer, Integer, Integer/l private static final long se rialVersionUID =1L;

@Override public Integer call(Integerv1, Integerv2) throws Exception{

return v1+v2;

}

文章标签：

流计算

存储

大数据

开发者

关键词：

文件存储HDFS版数据源

文件存储HDFS版学习笔记

文件存储HDFS版数据源dstream持久化存储学习笔记

学堂小助手

目录

相关文章

我是廖志伟

|

数据采集存储 Java

【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】

【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】

我是廖志伟

286 0 0

全栈技术精选

|

存储分布式计算负载均衡

Hadoop学习笔记(二)之HDFS

Hadoop学习笔记(二)之HDFS

全栈技术精选

280 0 0

武子康

|

消息中间件分布式计算关系型数据库

大数据-140 - ClickHouse 集群表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

大数据-140 - ClickHouse 集群表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

武子康

282 0 0

栈江湖

|

12月前

|

消息中间件关系型数据库 MySQL

ClickHouse如何整合数据源：MySQL、HDFS...

ClickHouse 是一个强大的列式数据库管理系统，支持多种数据源。常见的数据源包括外部数据源（如 HDFS、File、URL、Kafka 和 RabbitMQ）、数据库（如 MySQL 和 PostgreSQL）和流式数据（如 Stream 和 Materialized Views）。本文介绍了如何从 MySQL 和 HDFS 读取数据到 ClickHouse 中，包括创建数据库、映射表和查询数据的具体步骤。通过这些方法，用户可以方便地将不同来源的数据导入 ClickHouse 进行高效存储和分析。

栈江湖

798 3 3

这啥名啊

|

存储机器学习/深度学习分布式计算

Hadoop学习笔记（HDP）-Part.12 安装HDFS

本系列为HDP大数据平台部署实战指南，涵盖HDFS、YARN、Hive等核心组件安装配置，详解Ambari集群搭建、Kerberos安全认证及高可用实现，助力快速构建企业级大数据环境。

这啥名啊

742 0 0

Maynor

|

存储 SQL 分布式计算

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

Maynor

839 0 0

阿里云社区

|

存储缓存分布式计算

HDFS（二）|学习笔记

快速学习 HDFS（二）

阿里云社区

220 0 0

阿里云社区

|

SQL JSON 负载均衡

离线同步 mysql 数据到 HDFS2 | 学习笔记

快速学习离线同步 mysql 数据到 HDFS2

阿里云社区

321 0 0

离线同步 mysql 数据到 HDFS2 | 学习笔记

阿里云社区

|

SQL 消息中间件 JSON

离线同步 mysql 数据到 HDFS1 | 学习笔记

快速学习离线同步 mysql 数据到 HDFS1

阿里云社区

237 0 0

离线同步 mysql 数据到 HDFS1 | 学习笔记

技术内容小助手

|

监控开发工具开发者

网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记

快速学习网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动

技术内容小助手

293 0 0

网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记

阿里云开发者学堂

热门文章

最新文章

HDFS文件上传异常分析：put: `test.txt': No such file or directory

sqoop2:从mysql导出数据到hdfs

HDFS将普通用户添加到超级用户组

阿里云OSS-HDFS技术与能力解析

HDFS源码分析数据块复制监控线程ReplicationMonitor（二）

HDFS Federation

HDFS源码分析心跳汇报之DataNode注册

查看HDFS集群信息

Hadoop生态系统概览：从HDFS到Spark

第4关：HDFS-JAVA接口之删除文件

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

ClickHouse如何整合数据源：MySQL、HDFS...

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

【赵渝强老师】基于RBF的HDFS联邦架构

【赵渝强老师】基于ViewFS的HDFS联邦架构

【赵渝强老师】HDFS数据上传和下载的过程

大数据-140 - ClickHouse 集群表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

相关课程

更多

Hadoop 分布式文件系统 HDFS

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

安全设备篇——WAF