《Hive编程指南》一1.4 后续事情

简介:

本节书摘来异步社区《Hive编程指南》一书中的第1章,第1.4节,作者: 【美】Edward Capriolo , Dean Wampler , Jason Rutherglen 译者: 曹坤,更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.4 后续事情
我们描述了Hive在Hadoop生态系统中所扮演的重要角色。现在我们开始!

[1]不过,因为Hive是被设计用来处理的大数据集的,这个启动所消耗的时间和实际数据处理时间相比是微乎其微的。

[2]请访问Apache HBase的官方网站,http://hbase.apache.org,以及Lars George(O’Reilly)所著的《HBase权威指南》一书。

[3]请参考Cassandra的官方网站,http://cassandra.apache.org/,以及参考Edward Capriolo (Packt)所著的《High Performance Cassandra Cookbook》一书。

[4]请参考DynamoDB的官方网站,http://aws.amazon.com/dynamodb/

[5]参考链接 https://cwiki.apache.org/Hive/

[6]不过,非常有必要将这个wiki链接加入到网址收藏夹中,因为wiki中包含了一些我们没有覆盖的、比较模糊的信息。

[7]对于不是开发者的用户,这里需要补充说明的是“Hello World”程序通常是学习一门新的语言或者工具集的第一个程序。

[8]Apache Hadoop word count: http://wiki.apache.org/hadoop/WordCount.

[9]详细信息请参考Tom White所著的《Hadoop权威指南》一书。

[10]还有一个微小的差异。Hive查询硬编码指定一个指向数据的路径,而Java代码把这个路径作为一个输入参数处理。在第2章,我们将学习如何在Hive脚本中使用变量来避免这种硬编码。

相关文章
|
SQL 存储 分布式计算
《Hive编程指南》一导读
本书是一本Hive的编程指南。Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR-FS、Amazon的S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的数据。
1541 0
|
8月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
215 1
|
8月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
328 0
|
3月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
77 0
|
6月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。