求关注！求建议！求指导！

学习hadoop过程中的许多问题？
我们总体目标如图，我们的数据量每天50G（后期）

1，交互性数据分析，但是速度问题，hive无法用，改用sparksql读取hive中的表不知道是否可行，目前还在测试探索这个可行性，另外还听闻kylin是非常强大的OLAP，不知道kylin是否适合我们，希望有经验的不吝分享下。谢谢！
2，数据关联性分析和信息挖掘部分，之前用python来进行分析，不知道python在hadoop之上还是否用武之地。
3，hadoop是如何利用多台机子进行分布式计算的？Hive 的mapreduce比较好理解。例如请问：利用spark跑一些机器学习的算法的时候，其中的相关RDD是在不同的机器里的么?

arsenduan · 发表于 2017-5-18 20:00:23

1，交互性数据分析，但是速度问题，hive无法用，改用sparksql读取hive中的表不知道是否可行，目前还在测试探索这个可行性，另外还听闻kylin是非常强大的OLAP，不知道kylin是否适合我们，希望有经验的不吝分享下。谢谢！
spark sql可以，hive on tez很多公司在用的，速度也不错。kylin目前资料还是不多的。如果想更稳一些，还是使用比较常见的。
2，数据关联性分析和信息挖掘部分，之前用python来进行分析，不知道python在hadoop之上还是否用武之地。
python是数据挖掘比较好的语言。如果是hadoop到是也是可以的。不过最正统的还是Java
3，hadoop是如何利用多台机子进行分布式计算的？Hive 的mapreduce比较好理解。例如请问：利用spark跑一些机器学习的算法的时候，其中的相关RDD是在不同的机器里的么?
spark的rdd也是分布式的，在多台机器。并且spark自己提供了很多算法。

更多楼主可以自己搜一下
2016年携程Spark算法平台及其应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21473

spark机器学习算法实现【代码】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=14899

Spark MLlib算法之KMeans应用实例讲解【附代码下载】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21436

Spark 随机森林算法原理、源码分析及案例实战

http://www.aboutyun.com/forum.php?mod=viewthread&tid=16656

图文精华

求关注！求建议！求指导！

已有(1)人评论

最佳新人

活跃会员

热心会员

推荐 /2