用户组:游客
问题导读: 1.需求背景是什么?2.存储何种数据? 3.数据特点是什么? 4.存在哪些技术挑战? 5.解决方案有哪些? 6.md5散 ...
阅读本文思考: 1.对磁盘IO了解多少 2.为什么是磁盘IO是瓶颈,有没有自己的答案 想了解磁盘io可以查看此帖:集群瓶颈:磁盘 ...
问题导读: 1.文件与block的信息被保存在什么文件中? 2.如何查看整个目录树? 3.可以通过什么方式查看文件与block的对应关系 ...
问题导读 1.什么是ActiveMQ? 2.ActiveMQ有哪些特性? 3.什么是Kafka? 序言 今天让我们来谈谈身份高贵,举 ...
在hadoop中,map->combine->partition->shuffle->reduce,五个步骤的作用分别是什么?
问题导读: 1./bin/bash:的原因是什么? 2.解决的步骤是什么? 测试版本:CDH5.0,(Hadoop2.3) 在使用wind ...
本帖最后由 pig2 于 2014-3-16 23:00 编辑 我们经常听thrift,我么也知道它可以和其他不同语言之间转换,那么我们想真切的看到 ...
问题导读: 1.MapReduce的应用场景是什么? 2.如何通过Configuration来设置全局变来那个? 3.如何获取设置的全局参数? ...
问题导读: 1.增加节点后,Hadoop不会自动的按照新的备份系数进行调整,该如何处理? 2.增加和删除节点,都需要修改哪些配置 ...
问题导读 1.人工智能、机器学习、统计学和数据挖掘有什么区别? 2.它们之间到底有什么共同点和不同点? 3.它们是利用不同方 ...
问题导读 1.这些结果是如何创造出来的?也就是推荐语料是如何生成的? 2.兴趣协同,细粒度时效性协同都是指什么? 3.总结二 ...
问题导读 1.第三方的应用想在java应用里启动一个mapreduce作业,怎么弄? 2.你认为能远程连接hadoop的原因是什么? ...
本帖最后由 howtodown 于 2014-4-29 12:17 编辑 问题导读: 1.如何判断程序是运行在本地还是在集群? 2.eclipse运行程序需要 ...
本帖最后由 xuanxufeng 于 2016-5-8 17:11 编辑 问题导读 1.mapreduce处理文件是否按行分割? 2.如何事先自定义分割文件? ...
hadoop一个节点默认起两个map slot,这两个slot是多线程吗? hadoop-0.21.0 源码中是这样的: 首先看看 org.apache.had ...
我们知道hadoop集群具有容错性,分布式等特点,为什么会具有这些特点,下面是其中原理之一。 分布式的集群通常包含非常多的机 ...
导读: 明白LocatedBlocks作用即可 此问题来自about云(371358502): 可实现: DFSClient dfsClient = n ...
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: i ...
问题导读 1.数据分为哪几类? 2.数据是以何种方式存储的呢? **************************************** 概述 相对于结构 ...
本帖最后由 pig2 于 2014-5-6 04:19 编辑 问题导读: 1.hadoop官网32位编译Java文件,在64位机器上为什么还要重新编译? ...
问题导读 1.Impala与Hive的相似之处,区别在什么地方? 2.各自适合什么场景? 这里再补充一些Impala的知识 1. Impala ...
问题导读: 1.如何进行Redis”数据丢失“的故障排查? 2.数据丢失的影响是什么? 3.常见Redis数据丢失的情况都有哪些? ...
问题导读 1、将同一个应用部署在多个服务器上通过负载均衡对外提供访问,如何实现Session共享? 2、Spring Session的过滤 ...
问题导读 1.如何判断一个集群是否数据倾斜? 2.balancer的原理是什么? 3.CDH集成平台如何实现数据重分布? Ha ...
本帖最后由 pig2 于 2014-5-11 22:39 编辑 问题导读: 1.带参数hadoop程序与不带参数书写上有什么区别? 2. implements Tool ...
问题导读 1.namenode包含哪两个文件? 2.这两个文件的关系和作用是什么? 3.什么时候checkpiont ? namenode对 ...
很多同学都问,如果我装两台机器,是否需要ZooKeeper ,可能没有真正明白ZooKeeper到底是干什么的,它用来干嘛的。下面给大家介 ...
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行 ...
异常日志: 正常情况下DFSClient写block数据的过程是: 1. DFSClient端 a)DFSOutputStream负责数据的接收和 ...
Hadoop是基于Java的数据计算平台,在我们公司得到了广泛应用。同样mllib也是我们算法组同学经常使用的一个机器学习工具包。但目 ...
本版积分规则 发表帖子
查看 »