分享

没见过mapreducer的项目,想自己学着写一个但是遇见了问题

mjjian0 发表于 2014-10-30 10:01:19 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 12 13617
我公司有个数据分析的项目是用 flume--》hdfs--》hive---》mysql,数据是这样流转的。我现在想试着用:flume-->hdfs--- 写mr程序取HDFS数据----》mysql。
理论上是行得通的。请教有经验的前辈。我这样做比着之前公司的方案有什么优缺点啊。还有在写程序的时候遇到些问题:
1,我写的map函数取读hdfs文件的每一行数据,当函数里抛异常了,程序就中断了。hadoop有没有什么方法让程序在map或reducer函数里抛异常仍然可以继续下次任务的处理啊。
2,在job处理那段,一定要把处理过的数据写到hdfs输出文件里吗?

如果前辈有写过实际的mr项目,方便的话请提供一些hadoop的项目代码,供小弟参考,不胜感激。!!!!

已有(12)人评论

跳转到指定楼层
mjjian0 发表于 2014-10-30 10:19:10
自己再顶一个啊,请看到到的 也给个建议啊,谢谢啦
回复

使用道具 举报

bioger_hit 发表于 2014-10-30 10:25:13
1.出异常了,需要查找异常,而不是让系统忽略

2.job处理后,如果你使用的是hdfs系统,肯定输出到hdfs上。你也可以使用swift,那么输出便是swift。

源码可以通过git下载
目前还没有完毕,可以从这里用git下载


https://code.csdn.net/bj278595437/aboutyunhadoop.git
回复

使用道具 举报

bioger_hit 发表于 2014-10-30 10:26:13
不会使用git,可以参考
软件版本控制-在Windows中使用Git视频介绍
回复

使用道具 举报

mjjian0 发表于 2014-10-30 10:26:14
bioger_hit 发表于 2014-10-30 10:25
1.出异常了,需要查找异常,而不是让系统忽略

2.job处理后,如果你使用的是hdfs系统,肯定输出到hdfs上 ...

你给的链接404啊
回复

使用道具 举报

bioger_hit 发表于 2014-10-30 10:26:56
必须通过git下载
回复

使用道具 举报

mjjian0 发表于 2014-10-30 10:27:20
bioger_hit 发表于 2014-10-30 10:25
1.出异常了,需要查找异常,而不是让系统忽略

2.job处理后,如果你使用的是hdfs系统,肯定输出到hdfs上 ...

一定要把分析好的数据输出到hdfs吗,我想直接存到mysql数据库,这样不行吗?
回复

使用道具 举报

bioger_hit 发表于 2014-10-30 10:32:59
可以试试,在reduce阶段,把处理后的结果,直接插入mysql中,不过没有人这么做过。你可以做第一个吃螃蟹的人。

而且输出到mysql,这个数据量很大,一般不会输出到mysql。

这里面其实可能你接触的不太深

大数据才会用maprecue,由于大数据,采用一般把数据放到hbase里面,而不是mysql,mysql很难承受如此大的数据。
单数如果小数据库,其实也没有必要使用hadoop了,也就是没有必要使用mapreduce。

换句话说,如果把结果导入mysql,还不如直接使用传统程序处理,然后把结果输出到mysql。
回复

使用道具 举报

mjjian0 发表于 2014-10-30 10:38:31
bioger_hit 发表于 2014-10-30 10:32
可以试试,在reduce阶段,把处理后的结果,直接插入mysql中,不过没有人这么做过。你可以做第一个吃螃蟹的 ...

那,一般写mr函数都是做什么用啊,有些完全没必要写mr函数,直接用hive就行了吗,如果是写mr函数的项目,他的数据流是怎样流转的啊?
回复

使用道具 举报

bioger_hit 发表于 2014-10-30 10:50:19

这个问题不好回答,需要对hadoop有一个比较好的认识,才能明白mr。建议参考下面帖子

hadoop新手学习指导

mapreduce学习指导及疑难解惑汇总
简单来讲

hive也是驱动的mr,很多都可以使用hive来写,但是面对一些复杂的业务hive可能满足不了要求,所以需要自己写mr
mr不讲究数据流,数据流是针对的storm和spark来讲的。
hadoop是用批量来形容数据的。
mr处理数据的流程是

先map数据,也就是分割数据,然后送到reduce处理。详细参考上面链接

回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条