分享 redis报max number of clients错误,可能是因为客户端接入太多,也是可能是因为系统最 ...
nextuser 2016-12-26 14:03
说明: redis报max number of clients错误,可能是因为客户端接入太多,也是可能是因为系统最大文件描述符数过小。 解决: 1.碰到因为客户端接入太多,可以通过修改redis.conf的maxclients XXXX,设置同一时间最大客户端连接数(默认0,表示不限制)来解决。 # netstat -an|grep 6380|wc -l 4602 ...
1166 次阅读|0 个评论
分享 spark DataFrame 的函数|基本操作|集成查询记录
nextuser 2016-11-20 13:49
DataFrame 的函数 Action 操作 1、collect() ,返回值是一个数组,返回dataframe集合所有的行 2、collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行 3、count() 返回一个number类型的,返回dataframe集合的行数 4、describe(cols: String*) 返回一个通过数学计算的类表 ...
2108 次阅读|0 个评论
分享 solr去重汇总
nextuser 2016-11-11 15:41
1.solr 实现去掉重复的搜索结果,打SOLR-236_collapsing.patch补丁 打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并 ...
2342 次阅读|1 个评论 热度 1
分享 解决HBase 在数据大量写入时导致RegionServer崩溃故障的问题
nextuser 2016-11-9 19:01
HBase在0.90之后的版本提供Replication功能,这些天本人在测试这个功能时发现在大量数据(100W)写入时会出现RegionServer崩溃的情况。异常日志如下: 2014 -10 -29 10 : 40 : 44 , 225 WARN org.apache.hadoop.hdfs. DFSClient: DFSOutputStream ResponseProcessor exception for block blk_ -2223802775658 ...
1562 次阅读|0 个评论
分享 scala的List容器里++和:::运算符有什么不同?
nextuser 2016-11-6 10:54
简单的说,两个算符(其实是函数)的效果是一模一样的。:::是 List 专有的函数,后来Scala 的 collection API 重新设计,加入了++函数,++定义在 trait TraversableLike 中,更加通用,但是 List 中已经存在的:::是不能删除的,要保留兼容性。 作者:Leo Liang 来源:知乎
1048 次阅读|0 个评论
分享 hbase时间戳修改带来的问题总结
nextuser 2016-9-21 18:01
大家知道,像OB,HBase这种存储系统,插入数据的时候,一般数据上都会有一个时间戳(ts)。 Hbase有一个TTL(time to live),可以标识数据的有效期,比如,可以把TTL设置成86400*1000,也就是说数据将于1天后过期。这是一个表级的设置,必须在建表时指定。 但是如果说你需要存储某一天内的数据,到第二天0点失效。 ...
1779 次阅读|0 个评论
分享 解决DataNode Volume Failures故障
nextuser 2016-6-23 20:17
一、概述 Hadoop集群有一台DataNode节点发生硬件故障,由于后需需要长时间的处理,所以从Cloudera集群中剔除了该节点,在重新将该节点添加到集群时候发现DataNode节点爆 DataNode 卷故障阈值警告 二、解决过程 2.1、排查故障 排查DataNode日志发现如下错误: 2016-06-02 10:19:55,214 ERROR org.apache.hadoop.h ...
4895 次阅读|0 个评论
分享 【nova】liberty版本openstack在线调整云主机大小
nextuser 2016-5-27 17:52
【nova】liberty版本openstack在线调整云主机大小
有时虚拟机创建后发现虚拟机规格太小,满足不了业务需求。于是需要在线拉伸虚拟机的规格。 1、用admin用户登录dashboard,创建满足需求的虚拟机规格 2、输入适当的参数 3、修改controller和各个computer节点的nova.cnf文件,打开下面两个参数 allow_resize_to_same_host=True s ...
914 次阅读|0 个评论
分享 组合式的MapReduce作业
nextuser 2016-5-22 18:36
在实际的应用中,很多的复杂任务都是不止一趟的mapreduce任务,需要查分成多个简单的mapreduce子任务去完后。 (1)迭代的计算任务。 (2)顺序组合MapReduce作业 (3)具有依赖关系的组合式mapreduce作业 (4)mapreduce前处理和后处理步骤的链式执行 迭代的计算任务: PageRank算法。 顺序组合: 多个mapreduce ...
1049 次阅读|1 个评论 热度 1
分享 Hadoop/Yarn/MapReduce内存分配(配置)方案
nextuser 2015-12-5 15:02
以horntonworks给出推荐配置为蓝本,给出一种常见的Hadoop集群上各组件的内存分配方案。方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的。 Configuration File Configuration Setting Value C ...
1511 次阅读|0 个评论
关闭

推荐上一条 /2 下一条