分享

关于Oozie Server的一个奇怪的问题--当出现大量作业提交时……

hapjin 发表于 2015-12-6 21:55:43 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 10149
本帖最后由 hapjin 于 2015-12-6 22:01 编辑

粗略看了下Oozie的官方安装文档,发现并没有所谓的Oozie集群的安装(类似于HBase集群、ZooKeeper集群那种每台机子都要复制一份)
后面想了下:不管是HBase还是ZooKeeper中,都有一个主节点的概念(HMaster或Leader)。而对于Oozie Server而言,它负责Oozie Client 提交的作业,并将之"发送"到实际的Hadoop 执行平台运行。
那么,问题是:如果Oozie Client 端进行大批量的作业提交时,OOzie Server端会出现什么情况?Oozie Server是怎么应对的?
或者说:我能在一个Hadoop集群中安装多个OOzie Server吗?然后某些区域的Oozie Client 向 Oozie Server A提交作业,另外区域的OOzie Client 向 Server B提交作业??
请问有人了解吗?分享一下??

已有(2)人评论

跳转到指定楼层
starrycheng 发表于 2015-12-6 22:51:30
楼主安装部署下就明白了,并没有楼主想的那么复杂
它是基于hadoop的
适合使用Oozie的情景
        Hadoop中需要按顺序进行的数据处理工作流
        即能够顺序执行,又能够并行处理(fork-join)

        运行结果或异常的通报、处理
        Hadoop集群内ETL任务
        取代Hadoop集群内的Cron Job
        需要定期执行的任务,如 ETL
         cron job A,在 hdp01 这个机器上,每个小时的15分启动,处理原始数据集1
         cron job B,在 hdp05 这个机器上,每个小时的20分启动,处理原始数据集2
         cron job C,在 hdp11 这个机器上,每个小时的50分启动,去读A和B的结果,然后做处理
         RDBMS中的表 => HBase Table / Hive Table


更多
链接:http://pan.baidu.com/s/1o7frC8q 密码:3wao
回复

使用道具 举报

hapjin 发表于 2015-12-8 09:59:33
starrycheng 发表于 2015-12-6 22:51
楼主安装部署下就明白了,并没有楼主想的那么复杂
它是基于hadoop的
适合使用Oozie的情景

首先感谢你的评论。可是你没有回答到点子上。
我问的是当Oozie Server面对大量的工作流提交请求(workflow submit request)时,Oozie会出现什么情况?是不是可以部署多个 Oozie Server服务?

比如当用户作为Oozie Client提交一个Hive作业给Oozie Server时,Oozie Server首先会启动一个MapReduce作业(lanuncher job),由这个作业代理相应的Hive 客户端去启动Hive作业,让该Hive作业运行在多个计算节点上(集群中)。

在Oozie Server上,只会执行workflow,不会执行用户提交的作业。。Oozie Server执行workflow的机制是什么?当它遇到大量的workflow请求时会发生什么?Oozie Server启动的launcher job是运行在Oozie Server上还是运行在其他计算节点上?

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条