分享 Spark 1.2.1 发布,修复了哪些bug
desehawk 2015-2-12 23:25
导读: 1.spark1.2.1修复了哪些方面的bug? 2.PySpark方面修复了哪些bug? Spark 1.2.1 发布,此版本是个维护版本,包括 69 位贡献者,修复了一些 Spark 的 bug,包括核心 API,Streaming,PySpark,SQL,GraphX 和 MLlib 方面的。更多改进内容请看 发行说明 ,此版本现已提供 下载 。 修复 ...
729 次阅读|0 个评论
分享 从通过Java API,用户身份验证的远程主机访问HDFS
desehawk 2015-2-8 00:20
package org.myorg; import java.security.PrivilegedExceptionAction; import org.apache.hadoop.conf.*; import org.apache.hadoop.security.UserGroupInformation; import org.apache.hadoop.fs.Path; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileStatus; public class HdfsTest ...
1074 次阅读|0 个评论
分享 hadoop多路径总结
desehawk 2015-2-5 00:00
问题导读 1.如何将本地多个输入文件合并到hadoop中的一个文件? 2.MapReduce多路径输入,文说了几种路径模式? 目前为止知道MapReduce有三种路径输入方式。 1、第一种是通过一下方式输入: FileInputFormat.addInputPath(job, new Path(args )); FileInputFormat.addInputPath(job, new Path(a ...
2796 次阅读|1 个评论 热度 2
分享 hadoop生态系统各个版本包网址(1.x、2.x)
desehawk 2015-1-29 18:25
hadoop生态系统各个版本包网址(1.x、2.x)
http://archive.apache.org/dist/ 很多同学在官网上找不到官网包,这里记录下来。各个版本都存在
933 次阅读|0 个评论 热度 1
分享 集群必备知识:让你真正明白Linux NTP(包括历史、参数解释、安装配置)
desehawk 2015-1-27 09:29
导读 由于ntp服务器时间的设置,网上错综复杂,资料很多,大家随便找个资料,这个不行,找另外的资料,总之对这个不是太了解,这里找了份资料,详细介绍了ntp。万变不离其中,明白了原理,ntp的配置就不在困难了。 这里面解决了一些疑问: 1.如何查看ntp是否配置成功? 2.如何了解ntp列出的参数的含义? 3. ...
1672 次阅读|0 个评论 热度 1
分享 初创企业获得成功的几点经验
desehawk 2015-1-26 00:02
初创企业获得成功的几点经验
很多人看到创业界的一些成功案例时,往往认为最大的一个因素就是运气比较好。这也没错,时机对于初创企业的成功是很重要,但是运气对其成功所能起到的作用是微乎其微的。不过如果我们纵观这几年的趋势,可以发现有一些科学的秘诀能有助于提高初创企业成功的几率。 1.企业文化 当我们开始运作一家初创企业时,它的企业 ...
530 次阅读|0 个评论
分享 在Hadoop上运行基于RMM中文分词算法的MapReduce程序
desehawk 2015-1-22 21:59
在Hadoop上运行基于RMM中文分词算法的MapReduce程序
我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究。这个实验报告是我做高性能计算课程的实验里提交的。所以,下面的内容是从我的实验报告里摘录出来的,当作是我学习hadoop分享出来的一些个人经验。 实 ...
1583 次阅读|2 个评论 热度 3
分享 HADOOP HA yarn-site.xml(收藏以后备用)
desehawk 2015-1-14 16:45
2.3.MinimumSettingsforAutomaticResourceManagerHAConfiguration Theminimumyarn-site.xmlconfigurationsettingsforResourceManager &nbs ...
782 次阅读|0 个评论
分享 hbase的行锁与多版本并发控制(MVCC)
desehawk 2015-1-14 12:02
hbase的行锁与多版本并发控制(MVCC)
MVCC (Multiversion Concurrency Control) ,即多版本并发控制技术,它使得大部分支持行锁的事务引擎,不再单纯的使用行锁来进行数据库的并发控制,取而代之的是,把数据库的行锁与行的多个版本结合起来,只需要很小的开销,就可以实现非锁定读,从而大大提高数据库系统的并发性能。 HBase正是通过行锁+MVCC保证了高 ...
936 次阅读|0 个评论
分享 spark 开发环境搭建
desehawk 2015-1-8 21:50
现在网上很多spark开发环境的搭建都是基于idea的,个人用习惯了eclipse,还是用eclipse来搭建开发环境把。准备工作,下载Scala IDE for Eclipse 版本: http://scala-ide.org/ Scala 工程版本 该方法和Java 工程类似。 新建scala工程 在工程中移除自带的scala版本库 添加spark 库spark-assembly-1.1.0-cdh5.2.0-h ...
884 次阅读|0 个评论
关闭

推荐上一条 /2 下一条