《自适应的快速人脸肤色转移》阅读报告

姓名：吴侃学号：14348134 邮箱：[email protected]

前言

我阅读的论文的标题为《自适应的快速人脸肤色转移》，这篇论文的作者为魏玮、马军福。这篇论文提出了一种能够自适应、并且快速的人脸肤色转移方法，即将源图像中的人脸肤色转移到目标图像的人脸上，使目标图像的人脸肤色和源图像中的肤色比较相近。我在阅读论文后，对论文提到的算法进行了复现，发现论文中的算法存在瑕疵，没有达到论文中那么理想的效果。为此，我对论文中的算法错误进行更正，提出了改进方法，我也提出了一种论文展望中的“同时处理多幅人脸图像”算法。阅读报告分为八个部分，分别是：论文内容、创新点、算法流程、与课本知识的联系、算法本质、算法复现、改进、感受。

一、论文内容

人脸肤色转移技术属于颜色迁移领域中的一个应用。颜色迁移的实质是“在不破坏目标图像纹理的条件下，将源图像的色彩信息传递给目标图像，使变换后的目标图像具有和源图像相似的色彩特性”。人脸肤色转移即让目标图像中的人脸肤色尽可能地和源图像中的人脸肤色相近，同时保留人脸的细节。

二、创新点

我把《自适应的快速人脸肤色转移》论文中的方法的创新点归为两点：有针对性、自适应。

有针对性

论文中提到了Reinhard等人提出的“彩色图像间颜色迁移”算法，这种算法利用颜色全局信息对整体图像进行颜色迁移。而在肤色迁移问题中，像人的头发、眼睛、嘴巴等颜色是不需要进行变换的，变换的部分只是人的皮肤颜色。在一些相片中，除了人之外还存在背景，使得整个图片的色彩信息变得丰富，但背景也是不需要处理的。本篇论文中的肤色迁移方法，首先选出了图片中的属于肤色的像素，再对这些肤色像素进行变换，避免了对非肤色的转换，针对性强。
自适应

论文中提到的检测肤色像素的方法具有自适应性，即对不同光照、不同肤色的人的相片，都能比较好地检测出属于肤色的像素。主要体现在作者将检测肤色分为了粗提取、细提取两个阶段。粗提取阶段，在YCbCr颜色空间上粗略地提取出人脸肤色像素点，这一个步骤对误识别为肤色有较大的容忍度；细提取阶段，在Lab颜色空间下，对“可能是肤色的像素点”进行a通道、b通道进行颜色频率统计，这里利用了作者发现的一个规律：“根据600份不同纯肤色数据统计得出，在纯肤色区域各分量对应直方图最大值点的下标为中心，左右两边的对应的面积之差不会超过两边界中最大高度的2倍”。作者根据这个规律设计了一个收敛算法，使用这个算法可以进一步检测出纯肤色区域，这也是细提取阶段的关键方法。论文中的自适应方法，启发了我思考不同光照环境下，基于颜色进行物体检测的问题，我可以先进行较广颜色范围内的粗提取，再利用颜色分布对粗提取的结果进行细提取。自适应方法和我现在做的空中机器人比赛，基于颜色使用逻辑回归方法检测地面机器人的工作很相关，我可以把自适应方法应用到我的比赛工作中。与此同时，我在比赛中用到的逻辑回归方法，在不同的光照环境下，都能的到较好的效果，我也可以应用逻辑回归方法来改进本篇文章论文的算法。

三、算法流程

论文中的算法分为4个步骤，分别为肤色区间初次聚类（粗提取）、肤色区间的精确聚类（细提取）、肤色转换、颜色矫正。

1. 肤色区间的初次聚类

过程：

将图像转换到YCbCr空间。如果输入像素的颜色落入$$Cr\in[133,173]$$且$$Cb\in[77,127]$$中，就认为该点属于肤色像素。用0,1矩阵分别标注出源图像和目标图像的某个像素是否被认为是肤色(注意这里是“被认为是肤色”，即被选出的像素不一定是肤色，而是有很大概率可能是肤色)。

理论依据：

作者使用了Chai D和Ngan K N在论文《Locating facial region of a head-and-shoulders colo rimage》提出的方法，这个方法是肤色检测方面著名且比较快速的方法，在我们做“人脸检测”项目中也尝试了这种方法。

2. 肤色区间的精确聚类

过程：

2.1 将图像转换到Lab颜色空间

引用：http://blog.csdn.net/carson2005/article/details/7200440 同RGB颜色空间相比，Lab是一种不常用的色彩空间。它是在1931年国际照明委员会（CIE）制定的颜色度量国际标准的基础上建立起来的。1976年，经修改后被正式命名为CIELab。它是一种设备无关的颜色系统，也是一种基于生理特征的颜色系统。这也就意味着，它是用数字化的方法来描述人的视觉感应。Lab颜色空间中的L分量用于表示像素的亮度，取值范围是[0,100],表示从纯黑到纯白；a表示从红色到绿色的范围，取值范围是[127,-128]；b表示从黄色到蓝色的范围，取值范围是[127,-128]。下图所示为Lab颜色空间的图示；

2.2 统计a, b通道颜色频率

分别对源图像和目标图像中可能是肤色的像素点，统计它们在a, b通道的颜色频率。分别存储为数组Sa[256], Sb[256], Ta[256], Tb[256].

比如: Sa[2]代表源图像被认为是肤色且a通道值为2的像素点个数，Tb[4]代表目标图像被认为是肤色且b通道值为4的像素点个数。

2.3 求a, b分量纯肤色收敛区间

需要求出源图像a、b分量纯肤色收敛区域$$[SaB_g, SaE_d]$$, $$[SbB_g, SbE_d]$$, 以及目标图像a、b分量纯肤色收敛区域$$[TaB_g, TaE_d]$$, $$[TbB_g, TbE_d]$$.

以求$$[SaB_g, SaE_d]$$收敛区域为例：（注：原文的算法描述有误，这里我重新描述这个算法）

a. 找出使Sa取得最大值的数组下标Si

b. 另$$t_1 = Si - 1, t_2 = Si + 1$$

c. 求$$t_1$$到Si的总像素个数$$S_1$$，　以及Si到$$t_2$$的总像素个数$$S_2$$

d. 若$$|S_1 - S_2| > 2 \times max(Sa[t_1], Sa[t_2])或Sa[t_1] = 0或Sa[t_2] = 0$$, 收敛区域确定为$$[t_1, t_2]$$, 否则：

$$t_1 -= 1, t_2 += 1$$, 若$$t_1$$和$$t_2$$都没越界，跳到步骤c.　否则，收敛区域为$$[max(0, t_1), min(255, t_2)]$$

代码实现：

def get_border(Sa):
    si = np.argmax(Sa)
    t1 = si - 1
    t2 = si + 1
    diff = 0
    while t1 >= 0 and t2 <= 255: 
        diff += (Sa[t1] - Sa[t2])
        if abs(diff) > 2 * max(Sa[t1], Sa[t2]) or Sa[t1] == 0 or Sa[t2] == 0:
            return [t1, t2]
        t1 -= 1
        t2 += 1
    t1 = max(0, t1)
    t2 = min(255, t2)
    return [t1, t2]

其他收敛区域同理可得。

理论依据：

作者发现纯肤色区域（去除人脸杂色，如嘴唇、眼睛、眉毛）后的a, b分量的数据分布呈对称的单峰分布，并且这种单峰走势陡峭。根据600份不同纯肤色数据统计得出，在纯肤色区域各分量对应直方图最大值点的下标为中心，左右两边的对应的面积之差不会超过两边界中最大高度的2倍。

求得的收敛区间，也就是对肤色在a或b通道上的分布估计，利用这个分布估计可以对肤色进行更细的筛选，这个收敛算法体现了整个肤色检测算法的自适应能力。

3. 肤色转换

过程：

3.1 求出收敛范围的均值

$$Sa_m = \frac{SaB_g + SaE_d}{2}$$ $$Sb_m = \frac{SbB_g + SbE_d}{2}$$ $$Ta_m = \frac{TaB_g + TaE_d}{2}$$ $$Tb_m = \frac{TbB_g + TbE_d}{2}$$

3.2 求出比例系数

$$Rsa_1 = \frac{Sa_m - SaB_g}{Ta_m - TaB_g}$$ $$Rsa_2 = \frac{Sa_m - SaE_d}{Ta_m - TaE_d}$$ $$Rsb_1 = \frac{Sb_m - SbB_g}{Tb_m - TbB_g}$$ $$Rsb_2 = \frac{Sb_m - SbE_d}{Tb_m - TbE_d}$$

3.3 颜色转换

对于Lab空间下的目标图像，选择$$a\in[TaB_g, TaE_d]$$或$$b\in[TbB_g, TbE_d]$$的像素进行颜色转换转换公式为：保持L分量不变，$$L' = L$$ if $$a < Ta_m, a' = Rsa_1 \times (a - Ta_m) + Sa_m$$ else $$a' = Rsa_2 \times (a - Ta_m) + Sa_m$$ end

if $$b < Tb_m, b' = Rsb_1 \times (b - Tb_m) + Sb_m$$ else $$b' = Rsb_2 \times (b - Tb_m) + Sb_m$$ end

理论依据：

论文中，其说到"求出各收敛范围的均值"，但是没有说到求哪一部分的均值，使用肤色像素平均还是区间左右两端的均值。我尝试了多种求平均的方法，最终确定使用区间左右两端的均值，得到的效果比较好。在颜色转换部分，作者使用了按比例变换颜色的方式。在我复现论文算法的过程中，我发现由于L分量保持不变，目标图像的肤色未必能和源图像很接近。

4. 颜色矫正

过程：

若a'在$$[SaB_g, SaE_d]$$外且远离2个单位以上，恢复原值a. 若a'在$$[SaB_g, SaE_d]$$外且远离2个单位以下，取最近的边界值. 若a'在$$[SaB_g, SaE_d]$$内，保持为a'. b'的矫正同理。

理论依据：

颜色矫正的目的是避免出现干扰的斑点，去除非肤色值的转换，仅留下肤色区域像素值的改变结果。 $$[SaB_g, SaE_d]$$是源图像的肤色a分量收敛区域, 矫正过程使用了这个收敛区域检查变换后的颜色是否在源图像的肤色区域内。但是矫正步骤和肤色转换过程产生了矛盾，因为肤色转换过程的结果必在源图像的收敛区域内。

四、与课本知识的联系

这篇论文涉及到了《数字图像处理》课本中提到的颜色空间、直方图和基于阈值的图像分割。

1. 颜色空间

RGB颜色空间和YCbCr颜色空间之间可以线性转换, YCbCr空间的优势是能够简单地限定Cb、Cr的取值范围，就可以粗略的检测出肤色区域; 而RGB颜色空间和Lab颜色空间之间是非线性转换，需要先通过线性变换从RGB转到XYZ空间，再通过非线性变换从XYZ空间转换到Lab空间。Lab空间的优势在于对于人脸肤色，a分量和b分量是独立的, 画出纯肤色的Lab颜色直方图后，可以发现一个尖峰，并且存在分布规律。

2. 直方图

直方图可以很好地体现各通道的颜色分布。绘制出Lab各分量的颜色直方图后，可以发现："直方图最大值点的下标为中心，左右两边的对应的面积之差不会超过两边界中最大高度的2倍”的规律。

3. 图像分割

在YCbCr颜色空间中，用$$Cr\in[133,173]$$且$$Cb\in[77,127]$$粗略检测肤色区域，这是一种基于阈值的图像分割方法，即根据阈值将肤色区域从图像中分割出来。

五、算法本质

我觉得本篇论文的本质是通过对颜色分量的线性组合粗略估计肤色区域，再根据非线性组合估计肤色的分布，最终根据比例转换颜色。

通过对颜色分量的线性组合粗略估计肤色区域 RGB和YCbCr颜色空间可以通过线性变换得到，在YCbCr空间下对分量进行范围限制，实质上是对RGB三个分量进行加权后进行限制。
根据非线性组合估计肤色的分布由于线性组合下估计肤色区域的方法是粗略的，这种方法对于多种肤色、不同环境下的图片，要么估计的范围过大，或者估计的范围过小。因此，使用非线性组合下的分量估计肤色的分布。Lab空间对于人脸肤色，a分量和b分量是独立的，可以分别处理a分量和b分量。当确定a分量出现次数最多的取值时，可认为这个值是当前照片最高频率的肤色值，再从这个值的两边扩展，估计出肤色的分布。最高频率的肤色值是基于统计的，具有很高的适应性；作者提出的区间收敛方法，根据了对大量纯肤色图片的分布规律。估计肤色的精确分布，是该篇论文的点睛之笔。

六、算法复现

我对算法进行了复现，发现实验结果和论文结果存在偏差，论文中存在几个不足及错误，我将它们改正后，得到了可以接受的效果。

论文的不足及错误：

收敛公式错误在论文的收敛算法描述中，应将$$max(t1,t2)$$更正$$max(Sa(t1), Sa(t2))$$
没有描述如何求收敛范围的均值我尝试了多种求均值的方法，最终发现取收敛空间两端的均值的效果较好，但这样会导致矫正部分不起任何作用，原因是此时转换后的颜色必在源图像的收敛范围内。
公式描述不清晰公式(12)和(13)的等式和不等式连在一起了。

而且我觉得论文应该描述是用哪一种规范进行颜色空间转换，因为不同标准下的颜色转换方法与系数是不一样的。在我的测试中，无论是对肤色的粗检测还是细检测，我得到的结果都和论文存在差别，我的算法复现中的处理后的图像，存在的空洞较多。我怀疑论文中的实现使用了开操作和闭操作，但论文没有提及这些操作。我的复现，对于肤色的变换没有论文中的效果明显。使用YCbCr粗略检测肤色也有可能失败。

复现结果：

Lab空间下的a、b分量分布, 其中红色点为a分量，蓝色点为b分量 .和*分别对应源图像和目标图像粗检测(左)和细检测(右) 源图像和目标图像的细检测肤色区域肤色迁移结果, 效果比较好：肤色检测出错：另一组肤色迁移结果：

七、改进

对论文复现后，我对论文有了基本的了解，我提出了几点改进方法。

Lab空间下的高频率肤色论文中通过取a、b分量最大值的下标作为肤色分布的中轴，我觉得这种方法会受到噪声的影响。改进方法是使用定长的滑动窗口，找出最大像素和窗口，再取这个窗口的中心作为肤色分布的中轴。滑动窗口的实现的时间复杂度是线性的。
平均值在我的算法复现中，$$Sa_m, Sb_m, Ta_m, Tb_m$$取其对应收敛区间两端点的均值，效果较好。
多幅人脸图像的肤色迁移检测出肤色区域后，找出这些区域的所有连通域。对于每一个连通域，可以假设其对应一个人，单独对这个连通域进行收敛区间的估计和肤色迁移，这样可以处理同一张相片中不同肤色的人的肤色迁移。
使用逻辑回归粗略检测人脸区域由于RGB和YCbCr颜色空间之间可以进行线性转换，为了更好地对肤色区域进行估计，可以将RGB三个分量作为输入特征，训练一个逻辑回归模型。使用逻辑回归模型检测人脸肤色区域时，算法的时间复杂度是线性的。

八、感受

在这次阅读论文的过程中，我觉得这篇肤色迁移的文章比较有趣，因此花了比较长的时间对论文进行复现。对于我来说，复现的难点在于颜色空间的转换，以及对算法的调整。我发现通过复现，将复现的结果和论文的结果进行对比，更能提高自己对论文的理解，同时也有资格质疑论文中的结果。在复现的过程中，我发现两个颜色空间的转换，有不同系数的转换方法，比如RGB转YCbCr, 不同的方法得到的是不同的YCbCr，需要注意转换是基于哪一个标准。这篇论文也给了我关于基于颜色的自适应检测方法的启发。

参考资料

Lab颜色空间 by ChenLee_1 http://blog.csdn.net/carson2005/article/details/7200440
RGB2Lab and Lab2RGB By Mark Ruzon from C code by Yossi Rubner, 23 September 1997.

附录

论文 Wei W，Ma J F．Adaptive fast face color transfer[J]．Joumal ofIlllage and Graphics，2016，21(2)：0129-0134．[魏玮，马军福．自适应的快速人脸肤色转移[J]．中国图象图形学报，2016，21(2)：0129．0134.]$${}$$[DOI：10．11834／jig．20160201]
我的算法复现代码地址 https://github.com/wkcn/Adaptive-Fast-Face-Color-Transfer

Adaptive-Fast-Face-Color-Transfer Adaptive-Fast-Face-Color-Transfer copied to clipboard

Metadata

《自适应的快速人脸肤色转移》阅读报告

前言

一、论文内容

二、创新点

三、算法流程

1. 肤色区间的初次聚类

过程：

理论依据：

2. 肤色区间的精确聚类

过程：

2.1 将图像转换到Lab颜色空间

2.2 统计a, b通道颜色频率

2.3 求a, b分量纯肤色收敛区间

a. 找出使Sa取得最大值的数组下标Si

b. 另$$t_1 = Si - 1, t_2 = Si + 1$$

c. 求$$t_1$$到Si的总像素个数$$S_1$$， 以及Si到$$t_2$$的总像素个数$$S_2$$

d. 若$$|S_1 - S_2| > 2 \times max(Sa[t_1], Sa[t_2])或Sa[t_1] = 0或Sa[t_2] = 0$$, 收敛区域确定为$$[t_1, t_2]$$, 否则：

理论依据：

3. 肤色转换

过程：

3.1 求出收敛范围的均值

3.2 求出比例系数

3.3 颜色转换

理论依据：

4. 颜色矫正

过程：

理论依据：

四、与课本知识的联系

1. 颜色空间

2. 直方图

3. 图像分割

五、算法本质

六、算法复现

论文的不足及错误：

复现结果：

七、改进

八、感受

参考资料

附录

← Metadata

Owner

Metadata

Adaptive-Fast-Face-Color-Transfer
Adaptive-Fast-Face-Color-Transfer copied to clipboard

c. 求$$t_1$$到Si的总像素个数$$S_1$$，　以及Si到$$t_2$$的总像素个数$$S_2$$