hadoop面试题

本帖最后由 desehawk 于 2014-11-16 22:50 编辑

一、
1、hadoop集群搭建过程，写出步骤。
2、hadoop集群运行过程中启动那些线程，各自的作用是什么？

3、/tmp/hadoop-root/dfs/name the path is not exists or is not accessable.
NameNode main中报错，该怎么解决。（大意这样一个什么异常）

4、工作中编写mapreduce用到的语言，编写一个mapreduce程序。

5、hadoop命令
1）杀死一个job任务（杀死50030端口的进程即可）
2）删除/tmp/aaa文件目录
3）hadoop集群添加或删除节点时，刷新集群状态的命令

6、日志的固定格式：
a,b,c,d
a,a,f,e
b,b,d,f
使用一种语言编写mapreduce任务，统计每一列最后字母的个数。

7、hadoop的调度器有哪些，工作原理。

8、mapreduce的join方法有哪些？

9、Hive元数据保存的方法有哪些，各有什么特点？

10、java实现非递归二分法算法。
11、mapreduce中Combiner和Partition的作用。

12、用linux实现下列要求：

  ip             username
  a.txt
  210.121.123.12 zhangsan
  34.23.56.78    lisi
  11.56.56.72    wanger
  .....

  b.txt
  58.23.53.132   liuqi
  34.23.56.78    liba
  .....
复制代码

  a.txt,b.txt中至少100万行。
  1）a.txt,b.txt中各自的ip个数，ip的总个数。
  2）a.txt中存在的ip而b.txt中不存在的ip。
  3）每个username出现的总个数，每个username对应的ip个数。

13、大意是 hadoop中java、streaming、pipe处理数据各有特点。

14、如何实现mapreduce的二次排序。

二、
15、面试官上来就问hadoop的调度机制，

16、机架感知，

17、MR数据倾斜原因和解决方案，

18、集群HA

三、
19、如果让你设计，你觉得一个分布式文件系统应该如何设计，考虑哪方面内容；
每天百亿数据入hbase，如何保证数据的存储正确和在规定的时间里全部录入完毕，
不残留数据。

20、对于hive，你写过哪些UDF函数，作用是什么

21、hdfs的数据压缩算法

22、mapreduce的调度模式

23、hive底层与数据库交互原理

24、hbase过滤器实现原则

25、对于mahout，如何进行推荐、分类、聚类的代码二次开发分别实现那些借口

四、
26、请问下，直接将时间戳作为行健，在写入单个region时候会发生热点问题，为什么呢？

注释：来自网络搜集