立即注册 登录
About云-梭伦科技 返回首页

desehawk的个人空间 https://www.aboutyun.com/?29 [收藏] [复制] [分享] [RSS]

日志

分享 要怎么设置HDFS可以根据磁盘空间百分比来负载均衡呢?
2018-6-13 16:28
集群有2台机器,磁盘大小1台1TB、另1台300GB,然后300GB那台经常空间告警。 要怎么设置HDFS可以根据磁盘空间百分比来负载均衡呢? 根据空间百分比平衡的是这个hdfs-site.xml 中的这个配置项: dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction 来自 about云1 ...
1593 次阅读|0 个评论
分享 Operation category READ is not supported in state standby
2018-6-11 18:31
RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby 两个namenode都是standby 在一台主机上执行: hdfs haadmin -transitionToActive --forcemanual nn1 再访问,一台active 一台standy
1785 次阅读|0 个评论
分享 cloudera如何设置中文界面
2018-3-8 11:12
cloudera如何设置中文界面
在cloudera中,如何设置中文界面。它有一个设置项 在管理-语言中设置即可 对于浏览器或则谷歌浏览器,设置下语言
2129 次阅读|0 个评论
分享 mapreduce中split由哪个参数来决定
2018-2-28 18:50
mapreduce的FileInputFormat类中有个getSplit()方法对文件进行split时,split由谁来决定: 当mapreduce.input.fileinputformat.split.maxsize mapreduce.input.fileinputformat.split.minsize dfs.blockSize的情况下,此时的splitSize 将由mapreduce.input.fileinputformat.split.minsize参数决定   ...
1799 次阅读|0 个评论
分享 mongoDB同步数据到hive思路
2017-11-29 17:25
mongoDB同步数据到hive思路
sqoop作为很常用的数据同步工具,用于RDBMS和HDFS的数据迁移,但是不支持NoSql,比如说MongoDB,那如果我们需要同步mongoDB的数据到hive该怎么处理呢?下面提供下我的思路: 这里写图片描述 1.我先去查询了一下mongoDB可以导出数据为CSV格式或者json格式的文件,CSV是以逗号分隔的,这样可以直接把这个文件put ...
4214 次阅读|1 个评论 热度 1
分享 HDFS数据迁移解决方案之DistCp工具详解
2017-9-27 18:33
HDFS数据迁移解决方案之DistCp工具详解
前言 在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有些欠缺思考的办法.无谓的加机器只会带来无限上升的成本消耗,更好的办法应该是做到更加精细化的数据存储与管理, ...
2151 次阅读|0 个评论
分享 CDH5.11.1安装spark1.6.0找不到Java home的记录
2017-9-15 19:02
CDH5.11.1安装spark1.6.0找不到Java home的记录
CDH5.11.1安装中,所有的组件都识别Java home,但是spark不识别自己安装的jdk的Java home,如下图 原因: 部署spark的时候默认会把usr/java/default当做JAVA_HOME 解决办法 将JAVA_HOME建个软链然后就解决了 不会软连接,可参考 大数据云技术基础之:Linux软链接ln -s http://www.aboutyun.com/fo ...
996 次阅读|0 个评论
分享 如何用python做因子分析
2017-7-31 18:38
如何用python做因子分析
一.介绍 主成分分析在统计中的地位不言自明,而因子分析像一个孪生兄弟一样,常常和主成分分析密不可分,本帖将用最简单的叙述,越过证明,只从基本的步骤来学习一下如何用python做因子分析。 因子分析研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量和因子之间的关系。 ...
16450 次阅读|1 个评论 热度 1
分享 spark Task/Object not serializable 任务不能序列化记录
2017-6-15 15:42
序列化问题 If you see this error: 如果你在Spark任务提交之后碰到了这样的情况: org.apache.spark.SparkException: Job aborted due to stage failure: Task not serializable: java.io.NotSerializableException: ... The above error can be triggered when you intialize a variable on the driver ...
1898 次阅读|0 个评论
分享 不能序列化解决方法 org.apache.spark.sparkException:Task not serializable
2017-6-7 21:04
不能序列化解决方法 org.apache.spark.sparkException:Task not serializable
解决办法: 问题来自:about云7群
3704 次阅读|0 个评论
关闭

推荐上一条 /2 下一条