【论文笔记】深度人脸识别综述

文章目录
  1. 1. 概念和术语
  2. 2. 网络结构
    1. 2.1. 主流结构
    2. 2.2. 特殊结构
  3. 3. 损失函数
    1. 3.1. 基于欧几里德距离
      1. 3.1.1. contrastive loss
      2. 3.1.2. triplet loss
      3. 3.1.3. center loss
      4. 3.1.4. range loss
      5. 3.1.5. center-invariant loss
    2. 3.2. 基于角度/余弦间隔
      1. 3.2.1. L-Softmax loss
      2. 3.2.2. A-Softmax loss
      3. 3.2.3. AM-Softmax loss
      4. 3.2.4. CosFace
      5. 3.2.5. ArcFace
    3. 3.3. Softmax及其变种
      1. 3.3.1. L2-Softmax
      2. 3.3.2. Normface
      3. 3.3.3. CoCo loss
      4. 3.3.4. Ring loss
  4. 4. 参考文献

论文题目:《Deep Face Recognition: A Survey》

论文作者:Mei Wang, Weihong Deng

论文链接http://cn.arxiv.org/pdf/1804.06655.pdf


随着2012年AlexNet赢得了ImageNet挑战赛的冠军后,深度学习技术在各个领域都发挥着重要的作用,极大地提升了许多任务的SOTA。2014年,DeepFace1首次在著名的非受限环境人脸数据集——LFW上取得了与人类相媲美的准确率(DeepFace: 97.35% vs. Human: 97.53%)。因此,本文主要关注深度学习技术在人脸识别领域的应用与发展。

概念和术语

人脸系统一般包括三个部分:

  • 人脸检测(face detection):对于一幅图像,检测其中人脸的位置;

  • 人脸对齐(face alignment):根据人脸关键点,将人脸对齐到一个典型的角度;

  • 人脸识别(face recognition):包括人脸处理、人脸表示和人脸匹配部分。

人脸系统示意图

  • 训练集(training set):用于训练系统的人脸集;

  • 注册集(gallery set):提前注册在系统中用于比对的标准人脸集;

  • 测试集(probe set):用于测试的人脸集。

人脸识别任务主要包括:

  • 人脸认证(face identification):为1:N的问题。通过计算测试个体与注册集个体的相似度,判断出当前测试个体的身份。根据测试集中的个体是否出现在注册集中,可分为闭集(closed-set)开集(open-set)问题。

  • 人脸验证(face verification):为1:1的问题。对测试集和验证集中的个体进行两两比对,判断是否是同一个体。

网络结构

主流结构

在人脸识别问题中,主流的网络结构基本上都借鉴于物体分类问题,一直从AlexNet到SENet。

在2014年,DeepFace1首次使用九层的卷积神经网络,经过3D人脸对齐处理,在LFW上达到了97.35%的准确率。在2015年,FaceNet9在一个很大的私人数据集上训练GoogLeNet,采用triplet loss,得到99.63%的准确率。同年,VGGface10从互联网中收集了一个大的数据集,并在其上训练VGGNet,得到了98.95%的准确率。在2017年,SphereFace11使用64层的ResNet结构,采用angular softmax(A-softmax)loss,得到99.42%的准确率。在2017年末,VGGFace212作为一个新人脸的数据集被引入,同时使用SENet进行训练,在IJB-A和IJB-B上都取得SOTA。

主流网络结构的演变

  • AlexNet2:AlexNet包括五个卷积层和三个全连接层,并且集成了如ReLU、dropout、数据增强等技术;

  • VGGNet3:使用3×3卷积核,且每经过2×2的池化后特征图数量加倍,网络深度为16-19层;

  • GoogLeNet4:提出了inception module,对不同尺度的特征图进行混合;

  • ResNet5:通过学习残差表示,使得训练更深网络成为可能;

  • SENet6:提出了Squeeze-and-Excitation操作,通过显式建模channel之间的相互依赖性,自适应地重新校准channel间的特征响应。

主流网络结构示意图

特殊结构

  • Light CNN7

  • bilinear CNN8

损失函数

在一开始,人们使用和物体分类同样的基于交叉熵的softmax loss,后来发现其不适用于人脸特征的学习,于是开始探索更具有判别性的loss。

人脸损失函数的演变

不同方法在LFW数据集上的准确率

基于欧几里德距离


contrastive loss

相关文献:

  • 《Deep learning face representation by joint identification-verification》
  • 《Deepid3: Face recognition with very deep neural networks》

DeepID系列使用的loss。


triplet loss

相关文献:

  • 《Facenet: A unified embedding for face recognition and clustering》

triplet loss示意图


center loss

相关文献:

  • 《A Discriminative Feature Learning Approach for Deep Face Recognition》

center loss示意图


range loss

相关文献:

  • 《Range loss for deep face recognition with long-tail》

center-invariant loss

相关文献:

  • 《Deep face recognition with center invariant loss》

center invariant loss示意图


基于角度/余弦间隔


L-Softmax loss

相关文献:

  • 《Large-margin softmax loss for convolutional neural networks》

L-Softmax loss二分类示意图


A-Softmax loss

相关文献:

  • 《Sphereface: Deep hypersphere embedding for face recognition》

A-Softmax loss示意图


AM-Softmax loss

相关文献:

  • 《Additive margin softmax for face verification》

AM-Softmax loss示意图


CosFace

相关文献:

  • 《Cosface: Large margin cosine loss for deep face recognition》

CosFace示意图


ArcFace

相关文献:

  • 《Arcface: Additive angular margin loss for deep face recognition》

ArcFace示意图


Softmax及其变种


L2-Softmax

相关文献:

  • 《L2-constrained softmax loss for discriminative face verification》

Normface

相关文献:

  • 《NormFace: L2 Hypersphere Embedding for Face Verification》

CoCo loss

相关文献:

  • 《Rethinking feature discrimination and polymerization for large-scale recognition》

Ring loss

相关文献:

  • 《Ring loss: Convex feature normalization for face recognition》

Ring loss示意图

参考文献

1. Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, pages 1701–1708, 2014.
2. A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105, 2012.
3. K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
4. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, et al. Going deeper with convolutions. In CVPR, 2015.
5. K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
6. J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507, 2017.
7. X. Wu, R. He, Z. Sun, and T. Tan. A light cnn for deep face representation with noisy labels. arXiv preprint arXiv:1511.02683, 2015.
8. A. R. Chowdhury, T.-Y. Lin, S. Maji, and E. Learned-Miller. One-to-many face recognition with bilinear cnns. In WACV, pages 1–9. IEEE, 2016.
9. F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, pages 815–823, 2015.
10. O. M. Parkhi, A. Vedaldi, A. Zisserman, et al. Deep face recognition. In BMVC, volume 1, page 6, 2015.
11. W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, volume 1, 2017.
12. Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. arXiv preprint arXiv:1710.08092, 2017.
分享到 评论