分享

hadoop面试题(4)

admin 发表于 2013-12-2 01:00:12 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 7 27598
1、设计一套系统,使之能够从不断增加的不同的数据源中,提取指定格式的数据。
要求:      1、运行结果要能大致得知提取效果,并可据此持续改进提取方法;
            2、由于数据来源的差异性,请给出可弹性配置的程序框架;
            3、数据来源可能有Mysql,sqlserver等;
            4、该系统具备持续挖掘的能力,即,可重复提取更多信息;
2. 经典的一道题:
现有1亿个整数均匀分布,如果要得到前1K个最大的数,求最优的算法。
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)
我先说下我的想法:分块,比如分1W块,每块1W个,然后分别找出每块最大值,从这最大的1W个值中找最大1K个,那么其他的9K个最大值所在的块即可扔掉,从剩下的最大的1K个值所在的块中找前1K个即可。那么原问题的规模就缩小到了1/10。
问题:
(1)这种分块方法的最优时间复杂度。
(2)如何分块达到最优。比如也可分10W块,每块1000个数。则问题规模可降到原来1/100。但事实上复杂度并没降低。
(3)还有没更好更优的方法解决这个问题。

3. MapReduce大致流程?
4. combiner, partition作用?
5.用mapreduce实现sql语句 select count(x) from a group by b?
6. 用mapreduce如何实现两张表连接,有哪些方法?
7.知道MapReduce大致流程,map, shuffle, reduce
8.知道combiner, partition作用,设置compression
9.搭建hadoop集群,master/slave 都运行那些服务
10.HDFS,replica如何定位
11.版本0.20.2->0.20.203->0.20.205, 0.21, 0.23, 1.0. 1
新旧API有什么不同
12.Hadoop 参数调优,cluster level: JVM, map/reduce slots, job level: reducer #,memory, use combiner? use compression?

13.pig latin, Hive 语法有什么不同
14.描述HBase, zookeeper 搭建过程

15.hadoop运行的原理?

16.mapreduce的原理?

17.HDFS存储的机制?

18.举一个简单的例子说明mapreduce是怎么来运行的 ?

19。使用mapreduce来实现下面实例

      实例:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

20.hadoop中Combiner的作用?

21.如何确认Hadoop集群的健康状况

已有(4)人评论

跳转到指定楼层
x5136160 发表于 2014-7-16 17:28:47
很好很好,了解了解。。。
回复

使用道具 举报

howtodown 发表于 2013-12-2 01:01:25
只会21题:
hadoop自带了两个JSP页面,使得可以监控集群的全面的健康状况和job活动。


使用以下URL确认hadoop性能统计

Hadoop job tracker:
http://[jobtracker机器的URL]:50030/jobtracker.jsp
Hadoop DFS健康页面:
http://[jobtracker机器的URL]:50070/dfshealth.jsp




回复

使用道具 举报

iceeyes992 发表于 2013-12-2 09:36:11
第3题MapReduce是一种线性可伸缩的编程模型。Map函数和reduce函数---每个函数定义一个键值对集合对另一个键值对集合的映射。MapReduce任务过程被分成两个处理阶段:Map阶段和reduce阶段,程序员需要定义两个函数:map函数和reduce函数。Map函数可以简单的理解为一个数据准备阶段,通过这种方式来准备数据,使reduce函数能在该准备数据上继续处理。Map函数还是一个比较适合错误数据的方法:初步筛选并排除那些没有用的数据。Map函数的输出经过MapReduce框架处理后,被发送到reduce函数,在reduce中汇总所有的map输出并给出最终结论
回复

使用道具 举报

sstutu 发表于 2013-12-2 12:17:04
iceeyes992 发表于 2013-12-2 09:36
第3题MapReduce是一种线性可伸缩的编程模型。Map函数和reduce函数---每个函数定义一个键值对集合对另一个键 ...

美女,我咋一个都不会。能多答几个吗?我膜拜一下。
回复

使用道具 举报

够潮 发表于 2013-12-16 15:02:35
非常不错,适合入门者
回复

使用道具 举报

mingfly 发表于 2013-12-20 01:08:11
这个问题问的好仔细 !
回复

使用道具 举报

御剑破天痕 发表于 2013-12-31 10:25:04
不错 学习学习  谢谢楼主整理
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条