論文標(biāo)題:
PoseFace: Pose-Invariant Features and Pose-Adaptive Lossfor Face Recognition
論文地址:
2107.11721 (arxiv.org)
這是一篇arxiv的文章,思路挺有意思,記錄一下
摘要
深度學(xué)習(xí)在人臉識(shí)別方法中取得了嚴(yán)重,然而不受約束的環(huán)境中有較大的姿勢(shì)變化時(shí)性能下降,為了解決這個(gè)問題,當(dāng)前的方法使用特定姿勢(shì)的附加模塊對(duì)人臉進(jìn)行建?;虺C正。忽略了特征信息應(yīng)該在不同姿勢(shì)之間保持一致的事實(shí),并且沒有意識(shí)到在訓(xùn)練期間的正面和側(cè)面圖像之間數(shù)據(jù)不平衡。作者提出了一個(gè)高效的 PoseFace 框架,利用面部標(biāo)志來解開姿勢(shì)不變特征,并利用姿態(tài)自適應(yīng)損失來自適應(yīng)地處理不平衡問題。在 Multi-PIE、CFP、CPLFW 和IJB 證明方法優(yōu)于最先進(jìn)的技術(shù)。
1、簡介
近年來卷積人臉識(shí)別技術(shù)取得了突破,然而在較大的姿態(tài)變化時(shí)人臉識(shí)別仍然是巨大的挑戰(zhàn),主要是由于:(a) 正臉和側(cè)臉在數(shù)據(jù)集中有嚴(yán)重的不平衡,這對(duì)以數(shù)據(jù)驅(qū)動(dòng)的深度模型來說,無法魯棒的捕捉人臉的特征信息,(b) 輪廓面本質(zhì)上對(duì)人臉識(shí)別來說很難, 人臉圖像主要由特征信息和姿勢(shì)信息。如何有效地解開它們?nèi)匀皇且粋€(gè)懸而未決的問題。
大姿態(tài)角的人臉識(shí)別,當(dāng)前方法大致可以分為兩類,一種是將輪廓臉矯正為正臉,另一種是學(xué)習(xí)大姿態(tài)的人臉特征。
為了解決上述問題,作者提出了新穎而有效的框架PoseFace解決大姿態(tài)人臉識(shí)別。
為了解決人臉姿態(tài)和人臉特征的解耦,(a)強(qiáng)制人臉特征和姿態(tài)映射到兩個(gè)線性正交空間(b)保證了姿態(tài)特征的純凈,避免特征信息和姿態(tài)信息的交叉
網(wǎng)絡(luò)第一部分設(shè)計(jì)了一個(gè)預(yù)訓(xùn)練的自動(dòng)編碼器用于人臉關(guān)鍵點(diǎn)和特征向量的建模,特征向量只和關(guān)鍵點(diǎn)有關(guān),被當(dāng)做姿態(tài)特征的偽標(biāo)簽。該方法簡單明了,能夠有效地提取姿態(tài)信息,避免特征信息的丟失。
網(wǎng)絡(luò)第二部分提出了姿態(tài)的自適應(yīng)損失,用于處理正臉和不同姿態(tài)之間的數(shù)據(jù)不平衡問題,我們將重點(diǎn)放在訓(xùn)練困難樣本上(即,大的姿勢(shì)面)防止大量的正臉簡單樣本主導(dǎo)訓(xùn)練。
這篇論文的主要貢獻(xiàn)如下:
1、提出了一個(gè)自分離的方法能夠?qū)⒆藨B(tài)和人臉特征分離到兩個(gè)正交的空間,以此獲得大姿態(tài)的人臉特征。
2、設(shè)計(jì)了一個(gè)姿態(tài)自適應(yīng)損失用于數(shù)據(jù)的不平衡問題
3、在人臉識(shí)別benchmark上達(dá)到了新的水平
2 相關(guān)工作
2.1姿態(tài)不變特征表示
姿態(tài)不變特征表示方法是對(duì)姿勢(shì)變化具有魯棒性的撲通特征??赡艿慕鉀Q方案是分而治之,即使用多姿態(tài)特定模型,以處理不同的姿態(tài)面。c-CNN引入了動(dòng)態(tài)激活kernel為不同的輸入形成各種網(wǎng)絡(luò)結(jié)構(gòu)。每一層中的kernel都被稀疏激活征表示。PAMs融合了從多個(gè)姿勢(shì)特定模型得到的分?jǐn)?shù)。p-CNN提出了一種多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),身份識(shí)別和姿勢(shì)是主要任務(wù),光照和表情估計(jì)是次要任務(wù)。這種多模型框架的效率問題限制了它們?cè)谠S多實(shí)際應(yīng)用中的使用。
2.2 人臉正面化
人臉正面化方法將人臉規(guī)格化為標(biāo)準(zhǔn)化校準(zhǔn)正面視圖,然后使用合成人臉進(jìn)行識(shí)別。最近,生成對(duì)抗網(wǎng)絡(luò)(GAN)得到了廣泛的應(yīng)用顯示了其在合成人臉方面的巨大潛力. TP-GAN和PIM通過同時(shí)感知全局結(jié)構(gòu)和局部信息實(shí)現(xiàn)歸一化。FNM是一種無監(jiān)督的人臉歸一化方法,該方法包括人臉專家網(wǎng)絡(luò)和人臉注意力識(shí)別器。在CAPG-GAN中信息不僅在過程中指導(dǎo)生成器,而且在推斷期間用作可控條件。盡管GAN取得了一些改進(jìn),但它仍存在一些問題,合成的人臉中存在虛幻紋理并且出現(xiàn)身份信息丟失,還有高計(jì)算成本。
與之前的工作相比,我們的PoseFace是一個(gè)簡潔明了的框架。通過正交約束將人臉特征和姿態(tài)特征分離。整個(gè)過程不需要配對(duì)輸入或額外標(biāo)簽,因此可以在公共數(shù)據(jù)集進(jìn)行訓(xùn)練。此外,訓(xùn)練速度和GPU內(nèi)存消耗都接近ArcFace。在推斷過程中PoseFace與ArcFace沒有區(qū)別,因?yàn)槎嘤嗟哪K只在身份識(shí)別中使用(圖2)。
3 本文方法
我們的方法基于以下兩個(gè)觀察:
觀察1:人臉包含特征識(shí)別信息和大量其他信息(光照,姿態(tài)、表情等),特征信息和其他信息應(yīng)該是不相關(guān)的
觀察2:姿態(tài)信息可以通過關(guān)鍵點(diǎn)進(jìn)行編碼,并且其他光照紋理等信息對(duì)于姿態(tài)估計(jì)不是必須的
我們提出的方案主要包括:一個(gè)關(guān)鍵點(diǎn)模塊、一個(gè)身份識(shí)別模塊和一個(gè)姿態(tài)模塊。關(guān)鍵點(diǎn)模塊經(jīng)過預(yù)訓(xùn)練并用作姿態(tài)特征提取。在訓(xùn)練中引入了正交約束和位姿損失。自適應(yīng)識(shí)別損失在ArcFace中增加姿態(tài)臉的權(quán)重。在測(cè)試期間,僅使用識(shí)別模塊,與ArcFace相同。
3.1 網(wǎng)絡(luò)細(xì)節(jié)
如圖2所示,人臉通過骨骼網(wǎng)絡(luò),然后是身份/姿勢(shì)模塊將主干特征轉(zhuǎn)換為身份/關(guān)鍵點(diǎn)子空間。這個(gè)轉(zhuǎn)換通過正交約束實(shí)現(xiàn)。將關(guān)鍵點(diǎn)作為輸入并生成偽標(biāo)簽對(duì)姿勢(shì)特征進(jìn)行分類,以監(jiān)督姿勢(shì)模塊的學(xué)習(xí)。
姿態(tài)模塊:通過一個(gè)線性層wp將骨干網(wǎng)絡(luò)的特征fb投影到姿態(tài)特征fp
識(shí)別模塊:將骨干網(wǎng)絡(luò)特征投影到識(shí)別特征空間
關(guān)鍵點(diǎn)模塊:為了找到姿勢(shì)特征之間的一對(duì)一映射,實(shí)現(xiàn)了一個(gè)自動(dòng)編碼器網(wǎng)絡(luò),如圖3所示。
預(yù)訓(xùn)練編碼器在landmark模塊中提取特征。根據(jù)觀察2,我們將提取的特征視為姿態(tài)并將其用作偽標(biāo)簽來訓(xùn)練姿勢(shì)模塊,考慮到熱圖的稀疏性,訓(xùn)練自動(dòng)編碼器采用加權(quán)L2損失,如公式(1)所示。
網(wǎng)絡(luò)輸入 許多關(guān)于姿態(tài)不變特征的工作是從同一張臉上取一對(duì)正面和大姿態(tài)人臉作為輸入。正面和姿態(tài)臉之間的差異特征作為懲罰以去除姿勢(shì)信息。作者的方法采用一個(gè)對(duì)齊的人臉圖像,即對(duì)應(yīng)的關(guān)聯(lián)點(diǎn)和角度作為一個(gè)輸入單元。角度根據(jù)面部關(guān)鍵點(diǎn)估算??梢酝ㄟ^設(shè)計(jì)的網(wǎng)絡(luò)端到端的學(xué)習(xí)姿態(tài)不變特征。
3.2 姿態(tài)自適應(yīng)ArcFace(PAA)損失
許多現(xiàn)有模型在識(shí)別大姿態(tài)人臉都會(huì)遇到大的性能下降問題。除了固有的難以識(shí)別之外,另一個(gè)原因是正面和姿態(tài)樣本的數(shù)量在許多訓(xùn)練數(shù)據(jù)集中是高度不平衡的。
受權(quán)重自適應(yīng)方法的啟發(fā),如focal loss[18]、Adacos[51]和Adaptiveface[20],我們基于面部角度修改了arcface的margin,如圖4所示
對(duì)于樣本i的margin,定義為mi=mb+ri·δm。這里是mb是基礎(chǔ)margin,Δm是附加margin。由比率r i控制[0, 1],其根據(jù)俯仰/偏航/側(cè)傾角度計(jì)算。大姿態(tài)將分配較大的比例。身份特征的分類損失公式為姿態(tài)自適應(yīng)ArcFace(PAA)損失:
3.3 姿態(tài)不變特征
在我們的實(shí)現(xiàn)中,身份特征Fi和姿態(tài)Fp被強(qiáng)制分布在兩個(gè)正交子空間。通過解開它們,確保生成身份特征必須是姿態(tài)不變的。
姿態(tài)特征約束 將訓(xùn)練好的關(guān)鍵點(diǎn)姿態(tài)模塊作為人臉姿態(tài)的偽標(biāo)簽,圖二中poseloss
正交約束 同過正交約束將基礎(chǔ)網(wǎng)絡(luò)特征分解到人臉特征和人臉姿態(tài)兩個(gè)正交空間上
PoseFace Loss 我們的問題可以通過如下等式描述
完整的 PoseFace loss 如下
4 實(shí)驗(yàn)
本節(jié)評(píng)估PoseFace方法在具有大姿態(tài)變化的各種人臉識(shí)別基準(zhǔn)上的效果。,在中4.1節(jié)描述了實(shí)施細(xì)節(jié),4.2節(jié)中的消融研究,4.3節(jié)中的基準(zhǔn)詳細(xì)結(jié)果,作為補(bǔ)充,本文對(duì)超參數(shù)λ1、λ2進(jìn)行了敏感性分析。
4.1 實(shí)施細(xì)節(jié)
我們使用人臉對(duì)齊網(wǎng)絡(luò)(FAN)生成68個(gè)關(guān)鍵點(diǎn),并通過關(guān)鍵點(diǎn)估計(jì)俯仰/偏航/側(cè)傾角度。實(shí)現(xiàn)中使用一個(gè)簡單的函數(shù)|偏航|/90以估計(jì)自適應(yīng)比ri。不考慮側(cè)傾和俯仰角。
4.2 消融實(shí)驗(yàn)
PAA和正交的作用 和基礎(chǔ)網(wǎng)絡(luò)arcface的對(duì)比結(jié)果如下表1
關(guān)鍵點(diǎn)模塊的作用
可視化
可以看到圖六中加入正交損失后,兩個(gè)特征的點(diǎn)積變小
4.3 benchmark 結(jié)果
5 結(jié)論
在本文中,我們提出了一個(gè)新的PoseFace框架以處理較大的姿勢(shì)變化。具體而言,我們利用來自身份特征的姿勢(shì)信息人臉標(biāo)志的正交約束計(jì)算姿態(tài)不變特征。我們進(jìn)一步提出一個(gè)針對(duì)困難樣本和稀有樣本的自適應(yīng)損失解決數(shù)據(jù)不平衡問題。在基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)令人信服,結(jié)果表明,該方法具有優(yōu)越性。作為一個(gè)通用框架,PoseFace可以通過arcface或者其他損失實(shí)現(xiàn)。此外,還提出了將自動(dòng)編碼器與正交編碼相結(jié)合的思想分離出正交空間,也可以應(yīng)用于其他領(lǐng)域建模無關(guān)的特征。
個(gè)人總結(jié)
1、比較有效的輔助訓(xùn)練方式,可以提高性能,而不影響推理性能
2、正交性損失有點(diǎn)意思,可以強(qiáng)制不相關(guān)特征分離進(jìn)行建模。