立即注册 登录
About云-梭伦科技 返回首页

starrycheng的个人空间 https://www.aboutyun.com/?1310 [收藏] [复制] [分享] [RSS]

日志

分享 flume写kafka topic带有时间戳问题
2017-4-12 19:33
结构: nginx-flume-kafka-flume-kafka(因为牵扯到跨机房问题,在两个kafka之间加了个flume,蛋疼。。) 现象: 在第二层,写入kafka的topic和读取的kafka的topic相同,手动设定的sink topic不生效 打开debug日志: source实例化: 21 Apr 2015 19:24:03,146 INFO (org.apache.flume.source. ...
3440 次阅读|0 个评论
分享 python 连接 hive
2017-3-9 19:11
python 连接 hive
由于版本的不同,Python 连接 hive 的方式也就不一样。 在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的,首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中,也就是 site-package 中,或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下,然后用这个目录下提供的 thr ...
1646 次阅读|0 个评论 热度 2
分享 通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
2017-2-6 15:06
SparkStreaming的DStream提供了一个dstream.foreachRDD方法,该方法是一个功能强大的原始的API,它允许将数据发送到外部系统。然而,重要的是要了解如何正确有效地使用这种原始方法。一些常见的错误,以避免如下: 写数据到外部系统,需要建立一个数据连接对象(例如TCP连接到远程的服务器),使用它将数据发送到外部存储系 ...
2034 次阅读|1 个评论 热度 1
分享 为ElasticSearch添加HTTP基本认证【增强安全性】
2017-1-19 15:38
ES的HTTP连接没有提供任何的权限控制措施,一旦部署在公共网络就容易有数据泄露的风险,尤其是加上类似elasticsearch-head这样友好的前端界面,简直让你的数据瞬间裸奔在黑客的眼皮底下。项目上线前做十万伏特的防护当然不现实,但至少,我们不要裸奔,穿一套比基尼吧。而做一个简单的HTTP认证并不需要从头造轮子,elastics ...
2012 次阅读|2 个评论 热度 1
分享 sqoop job --exec 的含义
2016-11-23 18:51
sqoop job --exec $JOB_NAME sqoop job --exec UQE_DIM_DS_DJ_NSRXX
1089 次阅读|0 个评论
分享 spark经验记录
2016-11-15 15:29
1. spark性能配置 我目前的环境是5台机器,每台机器8个核。如果有以下两种配置方案: (a) SPARK_WORKER_INSTANCES = 8 SPARK_WORKER_CORES = 1 (b) SPARK_WORKER_INSTANCES = 1 SPARK_WORKER_CORES = ...
2011 次阅读|0 个评论
分享 安装OpenStack Mitaka :安装配置Horizon出现问题总结 (ubuntu 16.04 )
2016-10-17 14:53
本文介绍在ubuntu 16.04下单点安装Mitaka Horizon的过程。 步骤1:安装组件 apt-get install openstack-dashboard 步骤2:编辑文件 /etc/openstack-dashboard/local_settings.py,对一些参数进行如下设置: ...
3736 次阅读|0 个评论
分享 CDH集群调优:包括内存、Vcores和DRF
2016-7-1 17:17
CDH集群调优:包括内存、Vcores和DRF
DRF和相关参数 DRF: Dominant Resource Fairness,根据CPU和内存公平调度资源。CDH动态资源池默认采用的DRF计划策略。简单的理解就是内存不够的时候,多余的CPU就不会分配任务了,就让他空着;CPU不够的时候,多出来的内存也不会再启动任务了。 理解这个计划策略后,再查看Yarn启动任务时资源相关的参数 ...
1765 次阅读|0 个评论
分享 关闭DataNode前HDFS的调优
2016-6-29 22:07
配置CDH 和管理服务 关闭DataNode 前HDFS的调优 角色要求:配置员、集群管理员、完全管理员 当一个DataNode 关闭,NameNode确保每一个DataNode中的每一个块根据复制系数(the replication factor)跨集群仍然是可用的。这个过程涉及到DataNode间小批次的块复制。在这种情况下,一个DataNode有成千 ...
1467 次阅读|0 个评论
分享 Storm 中什么是-acker,acker工作流程介绍
2016-6-24 18:31
概述 我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指: 一个tuple被完全处理的意思是: 这个tuple以及由这个tuple所导致的所有的tuple都被成功处理。而一个tuple会被认为处理失败了如果这个消息在timeout所指定的时间内没有成功处理。 也就是说对于任何一个spou ...
1856 次阅读|0 个评论
12下一页
关闭

推荐上一条 /2 下一条