分享

Spring for Apache Hadoop 2.1 版本介绍

howtodown 发表于 2015-3-22 20:00:15 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 41206

问题导读

1.Spring for Apache Hadoop能否运行mapreduce、hive、pig作业以及hbase?
2.从 Spring for Apache Hadoop 2.1 是否支持 Hadop v1 版本?
3.Spring for Apache Hadoop 2.1 主要做了哪些改进?







Spring for Apache Hadoop 提供了 Spring 框架用于创建和运行 Hadoop MapReduceHivePig 作业的功能,包括 HDFSHBase。如果你需要简单的基于 Hadoop 进行作业调度,你可添加 Spring for Apache Hadoop 命名空间到你的 Spring 项目即可快速使用 Hadoop 了,使用该项目无需了解过多 Hadoop 技巧。
Spring for Apache Hadoop 是 Spring Data 的子模块之一。
Spring for Apache Hadoop 2.1 正式发布,经过 6 个月的努力,2.1 终于正式发布啦!
从 Spring for Apache Hadoop 2.1 版本开始,只支持 Hadoop 2.0 APIs,不再向后兼容旧版的 Hadop v1 版本。如果你需要支持 Hadoop v1 版本,请使用 2.0.4 或者 1.1.0 版本。
主要改进内容如下:
支持 Configuration 和 Boot;
Store:
  • Added support for append mode in the HDFS store writers.
  • The Kite SDK dataset support updated to 0.17.0. This means there are some changes to the API. The use of a namespace in addition to the basePath is now mandatory. The DatasetTemplate now also uses ViewCallbacks instead of a partition expression for querying the data.

YARN:
  • Support for container grouping and clustering in Spring YARN, which brings functionality for running multiple container types within a single YARN application.
  • A new REST API for submitted apps and an improved application model with new client side commands and a command line shell.
  • To see examples of these features look at the yarn-store-groups example app or at the Spring XD implementation for running on YARN.

此版本支持:
  • Apache Hadoop 2.4.1 (2.1.0.RELEASE-hadoop24)
  • Apache Hadoop 2.5.2 (2.1.0.RELEASE-hadoop25)
  • Apache Hadoop 2.6.0 (2.1.0.RELEASE)
  • Pivotal HD 2.1 (2.1.0.RELEASE-phd21)
  • Cloudera CDH5 5.3.0 (2.1.0.RELEASE-cdh5)
  • Hortonworks HDP 2.2 (2.1.0.RELEASE-hdp22)

默认的版本是 Apache Hadoop 2.6.0。
未来计划开发的特性:
  • Better Java Configuration support.
  • Add better support for for Hiveserver2 including a batch tasklet.
  • Basic support for a batch tasklet to run Spark apps.
  • Better boot support throughout the different modules.
  • Improved security support (i.e. the YARN Boot CLI interaction, etc).
  • Enhancements to have seamless integration with spring-cloud components (i.e. spring-cloud-cluster).

更多内容请看发行说明




已有(1)人评论

跳转到指定楼层
howtodown 发表于 2015-3-22 20:01:50
进一步补充:
这个项目整合了 Spring 框架和 Apache Hadoop 平台。该项目提供了一种方便的机制,让我们可以通过 Spring 容器来配置、创建和执行各种各样的服务和工具,像 MapReduce、Hive、Pig 和 Cascading 作业等。此外,该项目还通过 JVM 脚本语言——像 Groovy、JRuby、Jython 和 Rhino——提供了对 HDFS 数据访问的支持,为 HBase 提供了声明式配置的支持,以及对 Hadop 工具(包括 FS Shell 和 DistCp)提供了声明和编程的支持。  

可能更有意义的是,工具还为基于 Spring 的应用程序提供了一种便利方式,可以使用 Hadoop 作为数据分析工具,而这些数据可能来自多个源,像 Spring Integration 和 Spring Batch,以及传统的关系型数据库等等。“例如,你可以让 Hadoop 作业成为 Spring Batch 环境中的 tasklet,从而我们可以开始对其进行调整,并在作业完成时拥有触发器。

这样,和新发布的 Hadoop 项目一样,它更广泛的目标是为各种不同样式的 SQL 和 NoSQL 数据库——关系型数据库、图型数据库、文档数据库、键值数据库等等——提供一等支持,并显式地支持某些那种更流行的产品类型。当前这包括对 JPA 的支持,还有 MongoDB、Redis 和 Neo4J,并且 Cassandra 方面也在进行中。Colyer 认为这个列表反映出当前 SpringSource 的企业用户中处于领先地位的产品,但是需要强调的是,在大多数大型企业中,对 NoSQL 数据库的使用还处于初级阶段。





回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条