Hadoop Hive sql语法详解1-认识hive及DDL操作

本帖最后由 pig2 于 2014-4-11 23:20 编辑
hive或许我们有一个整体的认识，可以转换为mapreduce，那么具体是如何做的那？
1.编写的mapreduce能否成为hive插件那？
2.hive如何创建？
3.hive是如何查询数据的？

1.认识hive：
Hive 是基于Hadoop 构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据，可以将结构

化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL 去查询分析需

要的内容，这套SQL 简称Hive SQL，使不熟悉mapreduce 的用户很方便的利用SQL 语言查询，汇总，分析数据。而mapreduce开发人员可以把

己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。

   它与关系型数据库的SQL 略有不同，但支持了绝大多数的语句如DDL、DML 以及常见的聚合函数、连接查询、条件查询。HIVE不适合用于联机

online)事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。

HIVE的特点：可伸缩（在Hadoop的集群上动态的添加设备），可扩展，容错，输入格式的松散耦合。

2.  DDL 操作
创建简单表
hive> CREATE TABLE pokes (foo INT, bar STRING);

复杂一下如下：
创建外部表：

CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
   page_url STRING, referrer_url STRING,
   ip STRING COMMENT 'IP Address of the User',
   country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
STORED AS TEXTFILE
LOCATION '<hdfs_location>';

建分区表:

CREATE TABLE par_table(viewTime INT, userid BIGINT,
   page_url STRING, referrer_url STRING,
   ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the page view table'
PARTITIONED BY(date STRING, pos STRING)
ROW FORMAT DELIMITED ‘\t’
FIELDS TERMINATED BY '\n'
STORED AS SEQUENCEFILE;

建Bucket表

CREATE TABLE par_table(viewTime INT, userid BIGINT,
   page_url STRING, referrer_url STRING,
   ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the page view table'
PARTITIONED BY(date STRING, pos STRING)
CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
ROW FORMAT DELIMITED ‘\t’
FIELDS TERMINATED BY '\n'
STORED AS SEQUENCEFILE;

创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);

复制一个空表
CREATE TABLE empty_key_value_store
LIKE key_value_store;

例子
create table  user_info (user_id int, cid string, ckid string, username string)
row format delimited
fields terminated by '\t'
lines terminated by '\n';
导入数据表的数据格式是：字段之间是tab键分割，行之间是断行。

及要我们的文件内容格式：

100636  100890  c5c86f4cddc15eb7       yyyvybtvt
100612  100865  97cc70d411c18b6f       gyvcycy
100078  100087  ecd6026a15ffddf5       qa000100

显示所有表
hive> SHOW TABLES;
按正条件（正则表达式）显示表，
hive> SHOW TABLES '.*s';
下一篇：
Hadoop Hive sql语法详解2-修改表结构

xioaxu790 · 发表于 2014-4-12 10:15:16

楼主，可否有时间写下什么是“外部表”、“分区表”、“Bucket表”呢。
我想需要扫盲

阿飞 · 发表于 2014-4-12 12:05:41

xioaxu790 发表于 2014-4-12 10:15
楼主，可否有时间写下什么是“外部表”、“分区表”、“Bucket表”呢。
我想需要扫盲

“外部表”、“分区表”、“Bucket表”
Bucket表和另外两个表不是同一个概念：

对于“外部表”、“分区表”，可以看看下面概念：

　1、外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据；而如果你要删除表，该表对应的所有数据包括元数据都会被删除。
　2、分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。
　3、桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件（注意和分区的区别）。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user/hive/warehouse/wyp/part-00000；而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。

xioaxu790 · 发表于 2014-4-12 12:51:38

本帖最后由 xioaxu790 于 2014-4-12 13:00 编辑

OK啦。好高深啊。飞飞哥

break-spark · 发表于 2014-10-24 17:26:25

学习中，大神辛苦

EASONLIU · 发表于 2014-12-17 10:04:35

路过，学习学习

EASONLIU · 发表于 2015-1-15 16:39:55

偶尔反复看下

hignhive · 发表于 2015-3-5 23:14:28

按照分区列来划分数据，每个划分出来的数据独立成为保存在分区一个独立的文件，保存在分区目录下。
如果我们设置了数据的输出文件格式是ORC，即stored as ORC，则每个分区目录下的文件都是ORC文件了吧。

feng01301218 · 发表于 2015-3-8 14:19:38

我想需要扫盲我想需要扫盲

tang · 发表于 2015-3-12 14:50:55

图文精华

Hadoop Hive sql语法详解1-认识hive及DDL操作

本帖被以下淘专辑推荐:

已有(16)人评论

最佳新人

活跃会员

突出贡献

论坛元老

推荐 /2