1.hbase大批量写入数据该如何优化?
(1)预分区,预分区防止热点
(2)hbase的堆内存增加到3GB,条件好可以增加到4-8G
(3)批量的读取和写入
2.spark用Yarn调度任务时候,某个节点宕机,该如何处理?
一个节点宕机,如果是worker宕机没有关系,spark会重新分配
3.一个小组公用一个集群开发,如果有大量的读或则写的操作时,资源该如何划分。
这个很多公司这样做,而且跑集群的任务的时候,资源也是得不到合理的使用。
技术手段:
1.对于大量的读取资源有限的情况下,可以采用时间错开
2.如何同时存在,采用技术手段,Yarn实现资源的隔离,包括内存,io,网络资源的隔离