人脸验证算法Joint Bayesian详解及实现（Python版）

本帖最后由丫丫于 2015-10-13 13:42 编辑

问题导读

1.人脸识别有哪些方向？
2.如何判断两张图片是否为同一个人？
3.有哪些因素会限制效果？
4.如何使用Python实现？

研究人脸识别方向快一年多了，虽没有什么大的成果，不过总归还算有些许小收获。

在下不才，未能像师兄张雨石那般洋洋洒洒写下DeepID人脸识别算法之三代之类的深度好文。只好另辟蹊径，走走少有人走的路，哈哈！（注：本文乃大水文，大神请勿逗留）。

我们知道，人脸识别有两个大方向：

Face Verification，判断两张人脸是否为同一个人。
Face Identification，从一个人脸库中找到给定的这张人脸对应的身份。

本文要重点介绍的Joint Bayesian 就是用来实现第一个（face verification）功能的。本文主要是针对Bayesian Face Revisited: A Joint Formulation 这篇文章的笔记。这篇论文仅通过高维LBP跟Joint Bayesian这两个方法结合，就把LFW 数据集上的人脸验证准确率轻松刷到了92.4%. 香港中文大学团队的DeepID2将七个联合贝叶斯模型使用SVM进行融合，最终达到了99.15%的结果。

一个Naive的想法

如果这个任务交给你，你最开始会怎么想？如何判断两张图片是否为同一个人？

提取这两张图片的特征，然后得出两张图片的差异？ -
通过差异来判断，差异为何种情况时为同一个人，否则为不同人？

我们假装专业一点，用x1，x2 分别表示两张图片，Hi表示这两张图片为intra-personal（同一个人），用 He表示extra-personal（不同人）。用 △ 表示 x1-x2 （两者差异）。

假装我们能够写下如下公式（反正我肯定写不出来）：

这里S(△)就是关于差异△的函数，如果：

S(△) >=Thresold: 为同一个人；
S(△) < Thresold: 非同一个人；

如果你了解一点 MAP（Maximum a Posterior，最大后验假设），那么上面的复杂的式子就可以转化成近似求一个对数似然比（结果差别不大，但是运算速度大幅提高，最重要的是式子简单很多有没有。。。）：

问题转换为如下，如果：

如果P(△|Hi)很大，P(△|He)很小，ratio值很大，则判断为同一个人；
如果P(△|Hi)很小，P(△|He)很大，ratio值很小，则判断为不同人；
但是，若两者同时很小，或同时很大，这会造成一个分类错误，结果无法断定。这种情况如下图所示：

从上图中可以看到，2-D的数据通过差分x-y映射到1-D上。O附近的点交错在一起，使得在O附近的Class-1 和Class-2 无法区分开来。这就是我们这个Naive想法的缺陷了。

A Naive Bayesian

如果上面的想法能够再Naive一点，再理想化一点，我们假设(x1, x2)服从高斯分布，那么就有：

P(x1, x2|Hi) = N(0, ∑I),
p(x1, x2|He) = N(0, ∑E)

再用R来求验证x1, x2的相似性。其中 ∑I 和 ∑E 分别是同一个人和不同人的协方差矩阵。

这就是Naive Bayesian方法了，这样得到的结果会比传统的贝叶斯脸要好。

上面的这种方法是从统计数据中直接训练得到协方差矩阵∑I，∑E。有两个因素可能会限制效果：

我们假设人脸特征为d维的特征，而我们需要从更高的维度空间（2d）中计算出协方差矩阵，由于训练缺乏足够多的独立的训练数据，所以我们得到的可能是一种不可靠的统计结果。
由于数据集中训练样本不完全独立，因此∑E有可能不是(blockwise)块对角线矩阵。而上面的公式中要求x1,x2必须相互独立。

A joint formulation

看到下面这张图片，你有没有什么灵感？提示：左图为不同人的脸部特征分布情况，右图为同一个人的脸部特征分布情况:

从上图可以得出，一个人脸由两部分组成：identity 和 intra-personal variation。 identity 用来区分不同人，intra-personal variation 是同一个人在不同姿态下的差异。我们用 μ 来表示identity，用 ε 表示intra-personal variation（包括：光线，姿态，表情等变化），那么人脸x就可以用如下公式定义了：

上式中，这两个潜在变量 μ 和 ε 分布服从两个高斯分布：N(0, Sμ) 和 N(0, Sε)。简要来说，上面的表达式包括附加的一些假设可以作为一个人脸的先验知识。

Joint formulation with prior

有了上面的先验知识，就可以得到一个均值为0的高斯联合分布{x1，x2}。若 μ 和 ε 是相互独立的，那么我们就可以得到两张人脸特征的协方差如下：

1. 在 Hi的假设前提下
此时，μ1 和 μ2 是相同的，并且ε1 和 ε2 是独立的。
因此P(x1, x2|Hi)分布的协方差矩阵就可以按照如下计算：

2. 在 He的假设前提下
此时，μ 和ε 都是独立的。
因此P(x1, x2|He)分布的协方差矩阵就可以按照如下计算：

有了上面的两种情况下的联合概率，相应的对数似然比 r(x1,x2) 就可以在简单的代数变换之后得到（其实博主一点都不觉得简单，但是我们还是要假装很轻松的样子。。。。）：

注意：这式子(4)中，为了简单处理，常数项被省略。在这个对数似然比矩阵中，还有三个有趣的特性，读者有兴趣的可以再读一读原文附件的一些材料：
—-> 1. 矩阵 A 和 G 都是非负半正定矩阵
—-> 2. 如果 A = G，那么这个对数似然比就降为马氏距离
—-> 3. 特征在经过任何的满秩的线性变化之后，这个对数似然比矩阵都是不变的

Model Learning

上面的一大堆可能你并没有看懂推导过程的式子，主要在告诉我们一件事情：

如果两个潜在变量 μ (identity) 和 ε (intra-personal variance) 分布服从两个高斯分布：N(0, Sμ) 和 N(0, Sε)，那么，对数似然比r(x1,x2)就可以通过两个协方差矩阵 Sμ 和 Sε 计算得到。

所以，现在的任务就是训练模型来求这两个未知的 Sμ 和 Sε .

我们可以很简单地利用经典的 LDA (线性判别分析) 来求出这两个类内跟类间的协方差矩阵，实际上，使用这个LDA方法，你还是能够得到一个比较不错的结果了。但是，为了得到更高精度的准确率，我们的模型采用的是一个类 EM 算法来求解。这里就按照EM算法的两步走来介绍：

E-step (期望步骤)

假设每个人有m 张图片，那么x=[x1;…x;m], 相应的潜在变量就是 h=[μ ;ε1;…;εm]，h 与 x 的关系如下：

总结一下，首先通过已知的协方差矩阵Sμ 和 Sε 求解对应的F和G，然后由F，G，去求解对应的 μ 和 ε .

M-step (最大化步骤)

在这个步骤中，我们的目标是更新参数值Θ={Sμ, Sε}:

这里的 μ 和 ε 是E-step 阶段的结果。
不断重复E-step 跟M-step过程，直到Sμ, Sε收敛。

Initialization （初始化）

在代码实现中，μ 和 ε 是通过随机的正定矩阵初始化得到。例如，你可以从随机的一些数据中得到协方差矩阵当做初始值。

Verify（对数似然比的计算）

对数似然比ratio 的计算公式如下：

得到这个ratio之后，如果 ratio >= 阈值，则认为是同一个人；否则不是同一个人。