分享

Spark社区的圣诞礼物 : Spark Package

admin 2014-12-24 01:21:25 发表于 介绍解说 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 15394

问题导读

1.什么是Spark Package?
2.本文spark Package各自的作用是什么?






假如这个库能持续的发展下去,从用户的角度来说肯定是非常欢迎的。打个不恰当的比喻,这玩意儿类似于Spark的“App Store”,越丰富越好。 不过目前这个库有不少只是列出来,并没有release,但是我相信很快就会release出来。
其中有几个库非常值得注意,甚至有一些在Spark界已经非常出名了,我列出几个大家需要关注的。


· dibbhatt/kafka-spark-consumer
目前Spark Streaming的Kafka connector是基于Kafka high-level API的,导致的直接后果是无法控制offset来replay数据。所以一个基于low-level的connector就非常有必要了。这个包就能更好的控制Kafka的offset,同时能更好的处理错误。对kafka比较了解的人应该知道,这里的receiver是会把最新的offset存在ZK里的。详情见:http://spark-packages.org/package/5


· spark-jobserver/spark-jobserver
这个玩意儿其实我很早很早以前就在国内宣传过了,让我比较高兴的是,有几家大型互联网公司(真的算比较大)已经在采用, 它提供了RESTful API来提交和管理Spark任务。JobServer有不少有意思的功能,譬如说能预先建立SparkContext,并能在一个独立的Context中方便的共享RDD。 详情见:http://spark-packages.org/package/10 github:https://github.com/spark-jobserv ... graphs/contributors 据我所知,使用JobServer的各家几乎都做了不少改动,不过最近大家(包括我)有打算直接切换到最新的开源版本了。


·mengxr/spark-als
Spark MLlib的lead孟祥瑞提供的一个新的ALS实现,在使用原算法的前提下,采用新的实现使得效率有5倍左右的提升,这个我还是建议大家试一下,祥瑞不久前会北京时跟我提起过新的ALS的事,我本人还是比较期待,目前代码还未放出,他说是目前比较messy : ) 不过应该快了 详情见 : http://spark-packages.org/package/1
其它值得注意的还有Spark性能测试工具databricks/spark-perf,时序数据处理killrweather/killrweather(名字很酷)



已有(5)人评论

跳转到指定楼层
355815741 发表于 2014-12-24 08:58:42
非常的东西,学习了,谢谢分享~
回复

使用道具 举报

zhujun182104906 发表于 2014-12-24 10:21:30
牛叉的新功能
回复

使用道具 举报

小南3707 发表于 2014-12-24 18:19:25
不错~                          
回复

使用道具 举报

ainubis 发表于 2015-3-28 04:49:06
持续关注中。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条