关于HBase行键的问题

提示: 作者被禁止或删除内容自动屏蔽

howtodown · 发表于 2014-8-23 14:28:12

这里提供一个思路：
首先Start key， end key 确定，然后再使用RowFilter过滤

seraph50 · 发表于 2014-8-23 17:26:05

提示: 作者被禁止或删除内容自动屏蔽

sstutu · 发表于 2014-8-23 20:25:13

你的id从哪里来，怎么产生的

seraph50 · 发表于 2014-8-23 20:27:59

提示: 作者被禁止或删除内容自动屏蔽

desehawk · 发表于 2014-8-23 21:37:29

本帖最后由 pig2 于 2014-8-23 23:20 编辑
这里进行了一下修改：

首先你要明确 startkey与endkey的含义。
什么是start key
什么是end key
start key我这里的理解是必须包含下面三个元素，也就是说，无论是start key还是end key都必须是rowkey

散列字段-id-time

假如我们换另外一种理解：
包括：

散列字段-id

可能是这个范围是找不出来的。

如果说

id-time

个人认为这种可能性不大，但是没有验证

也就是说如果有范围的话，前缀需要是有序的，这样才能写出rowkey的范围

如果这个你认同的话，咱们继续。

那么既然是rowkey，前面有个散列字段，我们就不好确定end key都必须是rowkey，换句话说这个start key、end key是直接写不出来的。
这也就是我们所遇到的难题。

那么这个难题该如何解决？
首先我们根据下面帖子，
hbase RowFilter如何根据rowkey查询以及实例实现代码

能够达到抽出某个设备的信息，放到结果集中。这个是无容置疑的。
比如：我们就抽取设备00001的设备信息，这个通过SubstringComparator实现
如下：

   Filter filter3 = new RowFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("设备号"));
复制代码

这个设备的信息出来了，剩下我们就要做什么那-------过滤时间段。
我们可以通过mapreduce分割数据，然后过滤出某个时间段的信息。最后输出结果。

其实这里面还有另外一个思路：
因为你的设备号还有时间肯定是属于某一个列吧，你直接使用hbase的多条件查询，结果直接就出来了。

例子如下：根据自己的情况修改。

/**
* 组合条件查询
* @param tableName
*/
public static void QueryByCondition3(String tableName) {

try {
HTablePool pool = new HTablePool(configuration, 1000);
HTable table = (HTable) pool.getTable(tableName);

List<Filter> filters = new ArrayList<Filter>();

Filter filter1 = new SingleColumnValueFilter(Bytes
.toBytes("column1"), null, CompareOp.EQUAL, Bytes
.toBytes("aaa"));
filters.add(filter1);

Filter filter2 = new SingleColumnValueFilter(Bytes
.toBytes("column2"), null, CompareOp.EQUAL, Bytes
.toBytes("bbb"));
filters.add(filter2);

Filter filter3 = new SingleColumnValueFilter(Bytes
.toBytes("column3"), null, CompareOp.EQUAL, Bytes
.toBytes("ccc"));
filters.add(filter3);

FilterList filterList1 = new FilterList(filters);

Scan scan = new Scan();
scan.setFilter(filterList1);
ResultScanner rs = table.getScanner(scan);
for (Result r : rs) {
System.out.println("获得到rowkey:" + new String(r.getRow()));
for (KeyValue keyValue : r.raw()) {
System.out.println("列：" + new String(keyValue.getFamily())
+ "====值:" + new String(keyValue.getValue()));
}
}
rs.close();

} catch (Exception e) {
e.printStackTrace();
}

}

}
复制代码

nettman · 发表于 2014-8-24 12:46:58

你前面放上散列，本身这个设计就是有问题的。
防止热点存储的方式有很多种，你这种方式不太好的。
对于rowkey的多条件查询，你也可以通过建立索引表来实现。

可以这样设计：

首先你的主表是可以这样的：
id-time

索引表可以是这样的：

rowkey	column family
id-time-散列字段	id-time

seraph50 · 发表于 2014-8-25 10:43:45

提示: 作者被禁止或删除内容自动屏蔽

nettman · 发表于 2014-8-25 16:51:01

seraph50 发表于 2014-8-25 10:43
能多说几种防止热点存储的方法么

使用预分区、散列
详细可参考
HBase Rowkey的散列与预分区设计

arsenduan · 发表于 2017-3-3 14:49:03

参考这个
hbase hash散列后如何scan 查询？
http://www.aboutyun.com/forum.php?mod=viewthread&tid=21143

图文精华

关于HBase行键的问题

已有(9)人评论

活跃会员

热心会员

推广达人

宣传达人

突出贡献

优秀版主

论坛元老

最佳新人

推荐 /2