分享

大数据实时计算框架网址(网站)整理和介绍(可收藏)

sunshine_junge 发表于 2014-4-29 20:44:26 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 17820
本帖最后由 nettman 于 2014-4-29 21:25 编辑
本文可以作为一个小导航

一、实时计算一些基本概念
http://www.cnblogs.com/panfeng412/archive/2011/10/28/2227195.html

二、早期产品
1. IBM的StreamBase:
StreamBase是IBM开发的一款商业流式计算系统,在金融行业和政府部门使用
2. Borealis:Brandeis University、Brown University和MIT合作开发的一个分布式流式系统,由之前的流式系统Aurora、Medusa演化而来,学术研究的一个产品,08年已经停止维护

三、近期产品:
1.Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
官方网站:http://s4.io/

2. Twitter实时计算
2.1 Twitter的storm:Storm是一个分布式的、容错的实时计算系统
Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。

2.2. Twitter的Rainbird:Rainbird 是一款分布式实时统计系统, Rainbird可以用于实时数据的统计:(1)统计网站中每一个页面,域名的点击次数,(2)内部系统的运行监控(统计被监控服务器的运行状态),(3) 记录最大值和最小值
中文介绍:
http://www.cnblogs.com/gpcuster/archive/2011/02/06/1949466.html

3.Facebook 的Puma:facebook使用puma和Habase相结合来处理实时数据,另外facebook发表一篇利用HBase/Hadoop进行实时数据处理的论文(Apache Hadoop Goes Realtime at Facebook),通过一些实时性改造,让批处理计算平台也具备实时计算的能力。

4.淘宝的实时计算、流式处理

4.1银河流数据处理平台:通用的流数据实时计算系统,以实时数据产出的低延迟、高吞吐和复用性为初衷和目标,采用actor模型构建分布式流数据计算框架(底层基于akka),功能易扩展、部分容错、数据和状态可监控。 银河具有处理实时流数据(如TimeTunnel收集的实时数据)和静态数据(如本地文件、HDFS文件)的能力,能够提供灵活的实时数据输出,并提供自定义的数据输出接口以便扩展实时计算能力。 银河目前主要是为魔方提供实时的交易、浏览和搜索日志等数据的实时计算和分析。

4.2.基于storm的流式处理,统计计算、持续计算、实时消息处理。

4.3利用Habase实现的online应用。

5.另外还有一些其他实时计算系统:
Esper:esper可以用在股票系统、风险监控系统等等要求实时性比较高的系统中
Yahoo! s4和Twitter storm的粗略比较:
http://www.blogjava.net/killme2008/archive/2011/11/08/363238.html


欢迎加入about云群90371779322273151432264021 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(2)人评论

跳转到指定楼层
perfri 发表于 2014-4-29 22:42:27
赞一个,积累经验
回复

使用道具 举报

chencheng06 发表于 2014-5-25 15:56:30
非常好!牛bility
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条