分享 修改了dfs.block.size的大小,然后format之后,块大小没变是什么回事?
hyj 2014-6-3 21:17
因为是用windows链接的集群,忘记修改Advancedparameters了
985 次阅读|0 个评论
分享 IOUtils.copyBytes的简单例子
hyj 2014-5-23 22:18
IOUtils.copyBytes可以方便地将数据写入到文件,不需要自己去控制缓冲区,也不用自己去循环读取输入源。 import java.io.BufferedInputStream; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.File ...
5820 次阅读|0 个评论
分享 hive产生动态分区太多导致的问题
hyj 2014-5-23 22:09
过多的动态分区会导致job出现以下情况: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-maintain/hive_2012-11-28_22-39-43_810_1689858262130334284/_task_tmp.-ext-10002/part=334 ...
1170 次阅读|0 个评论
分享 格式化Hive语法树(python)
hyj 2014-5-23 22:07
为了容易看一点,把用explain得到的语法树加上一些缩进. 该代码只是简单的加上缩进. 效果 这是查询explain select key from kv mykv join test mytest on (mykv.key == mytest.id);语句获取的语法树 (TOK_QUERY (TOK_FROM (TOK_JOIN &n ...
763 次阅读|0 个评论
分享 hive中间结果和结果的压缩
hyj 2014-5-23 22:06
hadoop中常见的压缩格式及特性如下: 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE* 无 DEFLATE .deflate 不 不 Gzip gzip DEFLATE .gz 不 不 ZIP zip DEFLATE .zip 是 是,在文件范围内 bzip2 bzip2 bzip2 .bz2 不 是 LZO lzop LZO .lzo ...
926 次阅读|0 个评论
分享 Hive权限授权命令
hyj 2014-5-23 22:05
官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization Hive支持的权限有Users,Groups,Roles 一个角色可以包含组或者用户 By default, the Metastore uses the HadoopDefaultAuthenticator for determing user - group mappings metastore默认会以metastore所在的 ...
553 次阅读|0 个评论
分享 ubuntu ntp时间同步服务器搭建与使用
hyj 2014-5-14 02:00
问题导读: 1.ntp的作用是什么? 2.ntp的英文全拼是什么? 3.如何重启ntp? 4.客户端如何与服务端达到时间同步? ubuntu server ntp时间同步服务器安装及使用 一、服务端 1 sudo apt-get install ntp 2 安装后默认启动服务,如果没有启动,启动之。 sudo /etc/init.d/ntp star ...
632 次阅读|0 个评论
分享 hadoop基础:Java环境变量配置Ant环境变量
hyj 2014-5-3 00:33
右击—我的电脑—属性—高级—环境变量—系统变量 1. 新建: 变量名:JAVA_HOME 变量值:D:\biancheng\Java\jdk1.6.0_10(jdk的安装路径) 2. Path设置 变量名:Path 变量值:在最后加上:;%JAVA_HOME%\bin;%JAVA_HOME% & ...
594 次阅读|0 个评论
分享 集群搭建必备:nat模式设置静态ip,达到上网与主机相互通信
hyj 2014-3-31 17:51
网上资料很多,但是都不怎么实用,这里给大家总结一下。nat模式上网。因为nat本身就能上网为什么还要设置ip。这有点自找麻烦。但是在集群这是必须的。要么你搭建伪分布,要么至少具有三台物理机器。为了节省成本,一般会选择伪分布。 伪分布也有选择,三种模式那种方式比较合适。 1.桥接,这种方式对于大多数来说比较简 ...
2323 次阅读|4 个评论 热度 4
1234
关闭

推荐上一条 /2 下一条