分享

HBase中MVCC的实现机制及应用介绍

howtodown 2014-11-11 00:15:31 发表于 介绍解说 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 6 10622
本帖最后由 howtodown 于 2014-11-11 00:19 编辑

问题导读
1.什么是MVCC
2.MVCC基本原理的基本原理是什么?
3.hbase中通过哪个方法使用MVCC进行写操作?







MVCC(Multi-Version Concurrent Control),即多版本并发控制协议,广泛使用于数据库系统。本文将介绍HBase中对于MVCC的实现及应用情况。


MVCC基本原理
在介绍MVCC概念之前,我们先来想一下数据库系统里的一个问题:假设有多个用户同时读写数据库里的一行记录,那么怎么保证数据的一致性呢?一个基本的解决方法是对这一行记录加上一把锁,将不同用户对同一行记录的读写操作完全串行化执行,由于同一时刻只有一个用户在操作,因此一致性不存在问题。但是,它存在明显的性能问题:读会阻塞写,写也会阻塞读,整个数据库系统的并发性能将大打折扣。


MVCC(Multi-Version Concurrent Control),即多版本并发控制协议,它的目标是在保证数据一致性的前提下,提供一种高并发的访问性能。在MVCC协议中,每个用户在连接数据库时看到的是一个具有一致性状态的镜像,每个事务在提交到数据库之前对其他用户均是不可见的。当事务需要更新数据时,不会直接覆盖以前的数据,而是生成一个新的版本的数据,因此一条数据会有多个版本存储,但是同一时刻只有最新的版本号是有效的。因此,读的时候就可以保证总是以当前时刻的版本的数据可以被读到,不论这条数据后来是否被修改或删除。

更多关于MVCC基本思想的介绍,参考Wikipedia

一个MVCC实现类
见org.apache.hadoop.hbase.regionserver.MultiVersionConsistencyControl,用于控制Memstore中读写的一致性,其中维护两个long型的变量:
1)memstoreRead:用于记录当前全局可读的readPoint,同时为了每个客户端读请求能够记录自己发起请求时刻的readPoint,还有一个ThreadLocal的perThreadReadPoint变量,以及相关的set和get方法;


2)memstoreWrite:用于记录当前全局最大的writePoint,根据它为下个事务生成新的writePoint。
MultiVersionConsistencyControl中关键的实现方法如下:


1)WriteEntry beginMemstoreInsert():开始一个更新操作,将memstoreWrite加1,创建writeQueue并插入到writeQueue,并返回WriteEntry对象;
2)void completeMemstoreInsert(WriteEntry e):完成当前更新操作,将WriteEntry对象标记为可读,具体分两步:
  • boolean advanceMemstore(WriteEntry e):从头开始遍历writeQueue,移除所有已完成的WriteEntry对象,最后将memstoreRead更新为最新已完成的memstoreWrite;
  • void waitForRead(WriteEntry e):阻塞当前线程,直到memstoreRead等于当前WriteEntry的memstoreWrite,至此表明当前WriteEntry之前的所有更新事务都已经完成。


MVCC使用场景
见org.apache.hadoop.hbase.regionserver.HRegion.java,每个Region包含一个Memstore,维护一个MultiVersionConsistencyControl对象。

写操作
见HRegion.java中的以下写操作的方法:
1)put
2)checkAndPut
3)delete
4)checkAndDelete
5)internalFlushcache
6)mutateRow
7)mutateRowsWithLocks
8)batchMutate
最终会调用到applyFamilyMapToMemstore方法使用MVCC进行写操作:
  1. /**
  2.    * Atomically apply the given map of family->edits to the memstore.
  3.    * This handles the consistency control on its own, but the caller
  4.    * should already have locked updatesLock.readLock(). This also does
  5.    * <b>not</b> check the families for validity.
  6.    *
  7.    * @param familyMap Map of kvs per family
  8.    * @param localizedWriteEntry The WriteEntry of the MVCC for this transaction.
  9.    *        If null, then this method internally creates a mvcc transaction.
  10.    * @return the additional memory usage of the memstore caused by the
  11.    * new entries.
  12.    */
  13.   private long applyFamilyMapToMemstore(Map<byte[], List<KeyValue>> familyMap,
  14.     MultiVersionConsistencyControl.WriteEntry localizedWriteEntry) {
  15.     long size = 0;
  16.     boolean freemvcc = false;
  17.     try {
  18.       if (localizedWriteEntry == null) {
  19.         localizedWriteEntry = mvcc.beginMemstoreInsert();
  20.         freemvcc = true;
  21.       }
  22.       for (Map.Entry<byte[], List<KeyValue>> e : familyMap.entrySet()) {
  23.         byte[] family = e.getKey();
  24.         List<KeyValue> edits = e.getValue();
  25.         Store store = getStore(family);
  26.         for (KeyValue kv: edits) {
  27.           kv.setMemstoreTS(localizedWriteEntry.getWriteNumber());
  28.           size += store.add(kv);
  29.         }
  30.       }
  31.     } finally {
  32.       if (freemvcc) {
  33.         mvcc.completeMemstoreInsert(localizedWriteEntry);
  34.       }
  35.     }
  36.      return size;
  37.    }
复制代码




读操作
HRegion.java中通过private ConcurrentHashMap<RegionScanner, Long> scannerReadPoints;维护各个查询请求的readPoint。

以get或scan请求为例,最终会通过getScanner方法需要构造RegionScannerImpl对象:

org.apache.hadoop.hbase.regionserver.HRegion.RegionScannerImpl
1)根据Scan对象构造时设置好readPoint,scan.getIsolationLevel()分为READ_UNCOMMITTED和READ_COMMITTED,只有当READ_COMMITTED时根据MultiVersionConsistencyControl.resetThreadReadPoint(mvcc);设置当前scanner线程的readPoint,并插入到scannerReadPoints维护起来。

2)根据scan需要读取的column family,创建StoreScanner(根据bloom filter、time range、ttl筛选需要的MemStoreScanner和StoreFileScanner),添加到scanners中,并最终根据scanners构造出一个KeyValueHeap。

下面看下RegionScannerImpl中的next方法是每次查询时需要调用的函数:
boolean org.apache.hadoop.hbase.regionserver.HRegion.RegionScannerImpl.next(List<KeyValue> outResults, int limit) throwsIOException
而上述方法会通过KeyValueHeap的next方法读取下一条数据:先定位到当前KeyValueScanner(即之前构造KeyValueHeap时传入的MemStoreScanner或StoreScanner),然后调用next方法。

StoreFileScanner和MemStoreScanner均为KeyValueScanner,通过其中的next()接口方法,分别调用到StoreFileScanner.java的skipKVsNewerThanReadpoint方法、Memstore.java中MemStoreScanner对象的getNext方法。

1)StoreFileScanner.java的skipKVsNewerThanReadpoint方法:
  1. protected boolean skipKVsNewerThanReadpoint() throws IOException {
  2.     long readPoint = MultiVersionConsistencyControl.getThreadReadPoint();
  3.     // We want to ignore all key-values that are newer than our current
  4.     // readPoint
  5.     while(enforceMVCC
  6.         && cur != null
  7.         && (cur.getMemstoreTS() > readPoint)) {
  8.       hfs.next();
  9.       cur = hfs.getKeyValue();
  10.     }
  11.     if (cur == null) {
  12.       close();
  13.       return false;
  14.     }
  15.     // For the optimisation in HBASE-4346, we set the KV's memstoreTS to
  16.     // 0, if it is older than all the scanners' read points. It is possible
  17.     // that a newer KV's memstoreTS was reset to 0. But, there is an
  18.     // older KV which was not reset to 0 (because it was
  19.     // not old enough during flush). Make sure that we set it correctly now,
  20.     // so that the comparision order does not change.
  21.     if (cur.getMemstoreTS() <= readPoint) {
  22.       cur.setMemstoreTS(0);
  23.     }
  24.     return true;
  25.   }
复制代码


2)  Memstore.java中MemStoreScanner对象的getNext方法:
  1. protected KeyValue getNext(Iterator<KeyValue> it) {
  2.       long readPoint = MultiVersionConsistencyControl.getThreadReadPoint();
  3.    
  4.       while (it.hasNext()) {
  5.         KeyValue v = it.next();
  6.         if (v.getMemstoreTS() <= readPoint) {
  7.           return v;
  8.         }
  9.       }
  10.       return null;
  11.     }
复制代码





已有(7)人评论

跳转到指定楼层
anyhuayong 发表于 2014-11-11 09:15:53
好资源,收藏了,楼主辛苦

点评

不错不错  发表于 2014-11-11 09:49
回复

使用道具 举报

韩克拉玛寒 发表于 2014-11-11 09:20:43
很不错的文章,感谢楼主的分享
回复

使用道具 举报

loreting 发表于 2014-11-11 16:10:26
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

hb1984 发表于 2014-11-19 18:22:02
谢谢楼主分享。        
回复

使用道具 举报

心碎滴鱼 发表于 2014-11-24 14:32:58
感谢楼主分享
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条