分享

hadoop面试题

desehawk 发表于 2014-11-16 22:46:59 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 7 30848
本帖最后由 desehawk 于 2014-11-16 22:50 编辑

一、
1、hadoop集群搭建过程,写出步骤。
2、hadoop集群运行过程中启动那些线程,各自的作用是什么?

3、/tmp/hadoop-root/dfs/name    the path is not exists or is not accessable.
    NameNode main中报错,该怎么解决。(大意这样 一个什么异常)

4、工作中编写mapreduce用到的语言,编写一个mapreduce程序。

5、hadoop命令
   1)杀死一个job任务   (杀死50030端口的进程即可)
   2)删除/tmp/aaa文件目录
   3)hadoop集群添加或删除节点时,刷新集群状态的命令

6、日志的固定格式:
    a,b,c,d
    a,a,f,e
    b,b,d,f
   使用一种语言编写mapreduce任务,统计每一列最后字母的个数。

7、hadoop的调度器有哪些,工作原理。

8、mapreduce的join方法有哪些?

9、Hive元数据保存的方法有哪些,各有什么特点?

10、java实现非递归二分法算法。
11、mapreduce中Combiner和Partition的作用。

12、用linux实现下列要求:
  1.   ip             username
  2.   a.txt
  3.   210.121.123.12 zhangsan
  4.   34.23.56.78    lisi
  5.   11.56.56.72    wanger
  6.   .....
  7.   b.txt
  8.   58.23.53.132   liuqi
  9.   34.23.56.78    liba
  10.   .....
复制代码


  a.txt,b.txt中至少100万行。
  1)a.txt,b.txt中各自的ip个数,ip的总个数。
  2)a.txt中存在的ip而b.txt中不存在的ip。
  3)每个username出现的总个数,每个username对应的ip个数。

13、大意是 hadoop中java、streaming、pipe处理数据各有特点。

14、如何实现mapreduce的二次排序。


二、
15、面试官上来就问hadoop的调度机制,

16、机架感知,

17、MR数据倾斜原因和解决方案,

18、集群HA

三、
19、如果让你设计,你觉得一个分布式文件系统应该如何设计,考虑哪方面内容;
每天百亿数据入hbase,如何保证数据的存储正确和在规定的时间里全部录入完毕,
不残留数据。

20、对于hive,你写过哪些UDF函数,作用是什么

21、hdfs的数据压缩算法

22、mapreduce的调度模式

23、hive底层与数据库交互原理

24、hbase过滤器实现原则

25、对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些借口


四、
26、请问下,直接将时间戳作为行健,在写入单个region时候会发生热点问题,为什么呢?


注释:来自网络搜集

已有(7)人评论

跳转到指定楼层
韩克拉玛寒 发表于 2014-11-17 09:27:39
很不错的面试题,先分享了
回复

使用道具 举报

李新魁 发表于 2014-11-19 10:34:16
有无答案啊。
回复

使用道具 举报

hero1122 发表于 2014-11-29 22:57:05
就是,能给提供给参考答案就更好了,毕竟好多人还是新人……
回复

使用道具 举报

ainubis 发表于 2015-3-28 01:16:52
不错。谢谢分享。
回复

使用道具 举报

fpw85 发表于 2016-9-7 13:18:46
非常感谢,这么好的资料
回复

使用道具 举报

ggggying12 发表于 2017-8-16 17:17:21
有无答案啊,
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条