eTextInputFormat(案例分析)| 学习笔记

简介: 快速学习 eTextInputFormat(案例分析)

开发者学堂课程【Hadoop 分布式计算框架 MapReduceFilelnputFormat 切片机制和配置参数】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1504


eTextInputFormat(案例分析)

 

目录:

一、特性

二、使用案例

三、需求分析

 

一、特性

每一行均为一条记录,被分隔符分割为 key,value。 可以通过在驱动类中设置confset(KeyValueLineRecordReader:KEY_ _VALUE_ SEPERATOR, "t"),来设定分隔符。默认分隔符是 tab (\t)。以下是一个示例,输入是一个包含4条记录的分片。其中一>表示一个(水平方向的)制表符。

line1一>Rich learning form

line2一-> Intell igent learning engine

line3一->Learning more conven ient

line4一>From the real demand for more close to the enterprise

每条记录表示为以下键值对:

(line1,Rich learning forn}

(line2, Intelligent learn ing engine)

(line3, Learning more convenient)

(line4,From the real denand for more close to the enterprise)

此时的键是每行排在制表符之前的 Text 序列。

让天下没方难学的技术。


二、使用案例

1.需求。

统计输入文件中每一行的第一个单词相同的行数。。

(1)输入数据。

banzhang ni haou

xihuan hadoop banzhang-banzhang ni haor

xihuan hadoop banzhange

(2)期望结果数据. .

banzhang 2

xihuan    2


三、需求分析

1、需求:统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao

xihuan hadoop banzhang

banzhang ni hao

xihuan hadoop banzhang

3、期望输出数据

banzhang 2

xihuan 2

4、Map 阶段

banzhang ni hao

( 1 )设置 key 和 value

<banzhang,1>

( 2 )写出

5、Reduce 阶段

<banzhang,1>

<banzhang,1>

( 1 )汇总

<banzhang,2>

(2)写出

6、Driver

//( 1 )设置切割符

conf . set (KeyValueLineRecordRea der . KEY VALUE SEPERATOR, " ") ;

// ( 2 )设置输入格式

job.setInputFormatClass(KeyValue TextInput Format.class);

相关文章
|
SQL 移动开发 BI
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
怎样对SQL查询结果集分页比较好、平时你用分析函数优化传统查询,所以你会不会认为分析函数一定比传统查询效率高?一个实验告诉你答案、我想对数据进行隔行抽样应该怎么实现?【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。分析查询的一个小建议,可能大家平时为了方便,用row_number做分页的比较多,但是在有些场景,这个效率真的挺低。
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
|
存储 开发者
数字音频基础(中)| 学习笔记
快速学习数字音频基础(中),介绍了数字音频基础(中)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(中)| 学习笔记
|
存储 人工智能 算法
数字音频基础(下)| 学习笔记
快速学习数字音频基础(下),介绍了数字音频基础(下)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(下)| 学习笔记
|
编解码 开发者
数字音频基础(上)| 学习笔记
快速学习数字音频基础(上),介绍了数字音频基础(上)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(上)| 学习笔记
|
Java 关系型数据库 MySQL
入门案例(使用的资源介绍)|学习笔记
快速学习入门案例(使用的资源介绍)
入门案例(使用的资源介绍)|学习笔记
|
分布式计算 算法 数据可视化
房源画像实验演示(上)|学习笔记
快速学习房源画像实验演示(上)
508 0
房源画像实验演示(上)|学习笔记
|
自然语言处理 算法 机器人
课时3 :高级能力和算法效果优化(二)|学习笔记
快速学习课时3 :高级能力和算法效果优化
119 0
课时3 :高级能力和算法效果优化(二)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(一)|学习笔记
快速学习课时3 :高级能力和算法效果优化
101 0
课时3 :高级能力和算法效果优化(一)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(三)|学习笔记
快速学习课时3 :高级能力和算法效果优化
150 0
课时3 :高级能力和算法效果优化(三)|学习笔记
|
机器学习/深度学习 算法 数据挖掘
需求分析(下)| 学习笔记
快速学习需求分析(下)
需求分析(下)| 学习笔记