分享

求关注!求建议!求指导!

学习hadoop过程中的许多问题?
我们总体目标如图,我们的数据量每天50G(后期)

1,交互性数据分析,但是速度问题,hive无法用,改用sparksql读取hive中的表不知道是否可行,目前还在测试探索这个可行性,另外还听闻kylin是非常强大的OLAP,不知道kylin是否适合我们,希望有经验的不吝分享下。谢谢!
2,数据关联性分析和信息挖掘部分,之前用python来进行分析,不知道python在hadoop之上还是否用武之地。
3,hadoop是如何利用多台机子进行分布式计算的?Hive 的mapreduce比较好理解。 例如请问:利用spark跑一些机器学习的算法的时候,其中的相关RDD是在不同的机器里的么?
zonghe.png

已有(1)人评论

跳转到指定楼层
arsenduan 发表于 2017-5-18 20:00:23
1,交互性数据分析,但是速度问题,hive无法用,改用sparksql读取hive中的表不知道是否可行,目前还在测试探索这个可行性,另外还听闻kylin是非常强大的OLAP,不知道kylin是否适合我们,希望有经验的不吝分享下。谢谢!
spark sql可以,hive on tez很多公司在用的,速度也不错。kylin目前资料还是不多的。如果想更稳一些,还是使用比较常见的。
2,数据关联性分析和信息挖掘部分,之前用python来进行分析,不知道python在hadoop之上还是否用武之地。
python是数据挖掘比较好的语言。如果是hadoop到是也是可以的。不过最正统的还是Java
3,hadoop是如何利用多台机子进行分布式计算的?Hive 的mapreduce比较好理解。 例如请问:利用spark跑一些机器学习的算法的时候,其中的相关RDD是在不同的机器里的么?
spark的rdd也是分布式的,在多台机器。并且spark自己提供了很多算法。

更多楼主可以自己搜一下
2016年携程Spark算法平台及其应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21473

spark机器学习算法实现【代码】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=14899

Spark MLlib算法之KMeans应用实例讲解【附代码下载】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21436

Spark 随机森林算法原理、源码分析及案例实战

http://www.aboutyun.com/forum.php?mod=viewthread&tid=16656




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条