日志

大数据面试题

已有 726 次阅读2018-12-11 21:28 |系统分类:大数据

1.hbase大批量写入数据该如何优化？

（1）预分区，预分区防止热点

（2）hbase的堆内存增加到3GB，条件好可以增加到4-8G

（3）批量的读取和写入

2.spark用Yarn调度任务时候，某个节点宕机，该如何处理?

一个节点宕机，如果是worker宕机没有关系，spark会重新分配

3.一个小组公用一个集群开发，如果有大量的读或则写的操作时，资源该如何划分。

这个很多公司这样做，而且跑集群的任务的时候，资源也是得不到合理的使用。

技术手段：

1.对于大量的读取资源有限的情况下，可以采用时间错开

2.如何同时存在，采用技术手段，Yarn实现资源的隔离，包括内存，io，网络资源的隔离