分享 列式存储格式之orc
J20_果农 2016-8-2 17:29
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往 ...
个人分类: hive|1546 次阅读|1 个评论 热度 1
分享 新型列式存储格式 Parquet 详解
J20_果农 2016-8-2 17:22
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Impala的缘故)合作开发完成并开源,2015年5月从Apache的孵化器里毕业成为Apache顶级项 ...
个人分类: hive|2126 次阅读|0 个评论
分享 Hive整合HBase,操作HBase表(转摘)
J20_果农 2016-7-29 10:43
HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。 值得商榷的是,使用Hive操作HBase中的表,只是提供了便捷性,对于性能上,较MapReduce并不会提升太多,请大家酌情使用。 下面来看使用方法(基于Hive0.13和HBase0.96): ...
个人分类: hive|1369 次阅读|1 个评论 热度 1
分享 Hadoop笔试题及答案
J20_果农 2016-7-29 10:26
1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。 3. 伪分 ...
个人分类: 面试题|1492 次阅读|1 个评论 热度 1
关闭

推荐上一条 /2 下一条