基於參數化模型的多視圖人臉重建方法

2024-04-13 08:00:05 2

1.本發明涉及人臉重建領域，具體涉及一種基於參數化模型的多視圖人臉重建方法。

背景技術：

2.三維人臉重建技術在人臉識別、人臉動畫、虛擬實境、3d遊戲和醫療等領域都起著關鍵作用。目前存在以下問題：
3.首先，人臉表情的多樣性。人臉具有豐富的表情信息，心理學家最初認為人類有六個基本表情，即由生氣、喜悅、震驚、悲傷、恐懼和厭惡組成。此外，還有複合的15種表情。人臉在不同表情下，人臉關鍵點和三維重建點位置也會相應發生變化。
4.第二，物體的遮擋。人們可能會佩戴首飾、眼鏡以及自身的毛髮的影響，遮擋部分五官和面部輪廓信息，這對恢復三維人臉形狀特徵帶來一定難度。
5.第三，人臉的大姿態。人臉的關鍵點標註會產生兩種不同形式：第一種是可見的人臉邊緣關鍵點，這種點的位置和語義信息會跟著姿態發生變化，並且所有的人臉關鍵點都是可見的。第二種是偽3d透視標籤，由於人臉自遮擋會存在部分的關鍵點是不可見的點，容易導致標記人臉信息存在一定誤差，且無法提取這部分的特徵，這樣三維人臉重建任務就變得富有挑戰。
6.第四，人臉周圍環境的幹擾。在自然環境下，人臉圖片的背景信息會對人臉信息產生影響，而且還可能受到光照不均勻導致人臉紋理信息會發生缺失，導致預測的三維點精度下降。
7.第五，目前三維人臉數據集不足，主要分為採用合成數據和使用弱監督或者無監督學習的方式。使用合成數據在一定程度上擴大了訓練集的數量，但合成人臉圖片和真實人臉圖片之間往往出現了很大差距，導致模型的泛化能力明顯減弱，因此在真實的人臉圖片上訓練效果較差。現在比較多的是弱監督或者無監督的方法進行訓練，通過人臉關鍵點或無標籤的二維人臉圖片回歸人臉參數。

技術實現要素：

8.有鑑於此，本發明的目的在於提供一種基於參數化模型的多視圖人臉重建方法，能夠恢復出更加逼真的人臉模型，有效提高了複雜場景下的人臉質量。
9.為實現上述目的，本發明採用如下技術方案：
10.一種基於參數化模型的多視圖人臉重建方法,包括以下步驟：
11.步驟s1：獲取同一個人的若干張不同視角二維人臉圖像並處理，然後採用人臉關鍵點檢測器dlib算法進行面部特徵點檢測和跟蹤；
12.步驟s2：根據不同視角二維人臉圖像中特徵點位置對分別對正臉、左側臉、右側臉的無遮擋區域進行mask裁圖；
13.步驟s3：將步驟s2得到的mask裁圖輸入到resnet網絡中，回歸出不同視角的人臉
形狀、表情、姿態、光照及相機參數；
14.步驟s4：將步驟s3得到的人臉形狀、表情、姿態、光照及相機參數擬合到參數化人臉模型，生成對應的三維人臉模型；
15.步驟s5：進行紋理採樣，再使用可微分渲染器生成渲染後的圖片；
16.步驟s6：將渲染圖片與原圖進行損失計算，反向傳播參數，優化三維人臉模型。
17.進一步的，所述步驟s1具體為：獲取同一個人的若干張三個不同視角二維人臉圖像並處理，所述不同視角包括正臉和左側臉、右側臉；並採用採用人臉關鍵點檢測器dlib算法進行68個面部特徵點檢測和跟蹤。
18.進一步的，所述步驟s3具體為：
19.步驟s31:將步驟s2得到的mask裁圖輸入到resnet網絡中，對輸入圖片採用通道數拼接方式送入網絡，共享網絡權重參數，輸出對應的3張特徵圖；
20.步驟s32:將3張特徵圖分別送入各自的全連接層輸出姿態、相機、光照係數；另一方面，把3張特徵圖進行拼接融合，再通過一個全連接層輸出同一個人的形狀、表情參數.
21.進一步的，所述參數化人臉模型是flame參數化模型，由標準的線性混合蒙皮和混合形狀兩部分構成。
22.進一步的，所述flame參數化模型採用的標準網格模型網格頂點數為n，網格頂點坐標採用函數m(β,θ,ψ)：r
|β|
×
|θ|
×
|ψ|
→r3n
來表示，其中β∈r
|β|
為形狀參數，θ∈r
|θ|
為姿態參數，ψ∈r
|ψ|
為表情參數，具體的，flame參數化模型寫成如下形式：
23.m(β,θ,ψ)＝w(t
p
(β,θ,ψ),j(β),θ,ω)；
24.其中w(t,j,θ,ω)表示標準的線性蒙皮函數，它將模板網絡t沿j∈r
3k
進行變換θ，並使用蒙皮權重ω對變換結果進行平滑；關節j的位置與β，也即頭部模型的形狀相關；模板網絡的表示形式為其中表示平均網格，後面三項分別表示形狀項，表情項，姿態項。
25.進一步的，所述flame參數化模型的姿態混合函數中還設有一個姿態係數，姿態係數能夠分解成旋轉矩陣和平移矩陣，方便之後求解相對姿態，在光度一致性損失計算時使用相對姿態；根據平均的人臉模型乘以旋轉矩陣，加上平移矩陣，生成對應姿態下的人臉模型。。
26.進一步的，所述步驟s5採用可微分渲染器，進行紋理渲染，具體為：
27.ir＝r(m,b,c)
28.其中，r表示渲染函數，由於較低的mesh解析度的限制。
29.進一步的，所述的損失計算包括：人臉關鍵點損失l
lmk
、眼睛閉合損失l
eye
、光度一致性損失l
photo
、人臉識別損失l
id
以及正則化損失l
reg
，具體如下：
30.人臉關鍵點損失l
lmk
：計算68個人臉關鍵點位置與flame模型表面上相對應點的距離：
[0031][0032]
眼睛閉合損失l
eye
：計算上下眼皮相對偏移量
[0033][0034]
上下眼皮關鍵點投影到flame表面mi和mj上相應坐標的偏移量；e是上下眼皮標誌對的集合；
[0035]
光度一致性損失l
photo
:
[0036][0037]
其中，表示正臉的左側mask區域，ma→b表示從a圖旋轉到b圖的mask區域，ib[u]表示b圖的紋理像素，ia→b[u]表示a圖旋轉到b圖的紋理像素，計算它們之間二範數的平方；
[0038]
人臉識別損失l
id
：對於重建出的人臉是否為同一個體時，採用vgg-face2數據集上進行預訓練的人臉識別網絡進行損失計算，比較渲染圖片和輸入圖片的特徵，計算兩張圖片的餘弦相似性
[0039][0040]
正則化損失l
reg
：
[0041]
l
reg
正則化：形狀表情和光照
[0042]
本發明與現有技術相比具有以下有益效果：
[0043]
1、本發明對於人臉大角度姿態產生的自遮擋問題，參數化模型與多視圖人臉圖像匹配時，把每幅圖像的模型參數與形變模型建立聯繫，為增強圖像之間的幾何約束性，採用光度一致性進行約束，獲取最終匹配後的三維人臉模型；
[0044]
2、本發明對於重建出的人臉是否為同一個體時，利用vgg-face2數據集預訓練的人臉識別網絡進行損失計算，比較渲染圖片和輸入圖片的特徵，計算兩張圖片的餘弦相似性，具有更強的模型魯棒性。
附圖說明
[0045]
圖1是本發明多視圖人臉重建流程圖
[0046]
圖2是本發明一實施例中人臉關鍵點示意圖；
[0047]
圖3是本發明一實施例中flame參數化模型。
具體實施方式
[0048]
下面結合附圖及實施例對本發明做進一步說明。
[0049]
請參照圖1，本發明提供一種基於參數化模型的多視圖人臉重建方法,包括以下步驟：
[0050]
步驟s1：獲取同一個人的若干張不同視角二維人臉圖像並處理，然後採用人臉關鍵點檢測器dlib算法進行面部特徵點檢測和跟蹤；
[0051]
步驟s2：根據不同視角二維人臉圖像中特徵點位置對分別對正臉、左側臉、右側臉的無遮擋區域進行mask裁圖；
[0052]
步驟s3：將步驟s2得到的mask裁圖輸入到resnet網絡中，回歸出不同視角的人臉形狀、表情、姿態、光照及相機參數；
[0053]
步驟s4：將步驟s3得到的人臉形狀、表情、姿態、光照及相機參數擬合到參數化人臉模型，生成對應的三維人臉模型；
[0054]
步驟s5：進行紋理採樣，再使用可微分渲染器生成渲染後的圖片；
[0055]
步驟s6：將渲染圖片與原圖進行損失計算，反向傳播參數，優化三維人臉模型。
[0056]
在本實施例中，多張二維人臉圖片是在同一環境下拍攝的多張rgb圖像，不同的環境條件下拍攝出的圖片，光照差別較大，重建出人臉紋理貼圖時顏色會發生異常。其中，對圖像數量沒有嚴格限制，但一般要求正臉和左側臉、右側臉三張圖像，因為這三張人臉圖像基本完整覆蓋了人臉區域。
[0057]
所述的68個人臉關鍵點能夠約束人臉的基本形狀，並且能夠定位人臉在圖片中的一個大致的位置信息；
[0058]
在本實施例中，resnet網絡使用的是resnet50的網絡結構，對輸入圖片採用通道數拼接方式送入網絡，共享網絡權重參數，輸出對應的3張特徵圖。將3張特徵圖分別送入各自的全連接層輸出姿態、相機、光照係數；另一方面，把3張特徵圖進行拼接融合，再通過一個全連接層輸出同一個人的形狀、表情參數。
[0059]
將生成的100個形狀參數、50個表情參數、50個紋理參數、6個姿態參數、3個相機參數和27個光照參數擬合到一個flame參數化模型上。
[0060]
在本實施例中，優選的，參數化人臉模型採用的是flame參數化模型，由標準的線性混合蒙皮和混合形狀兩部分構成，能夠對整個頭部區域包括臉部、後腦勺和頸部都進行了重建。flame模型採用的標準網格模型網格頂點數為n＝5023。flame模型的網格頂點坐標可用函數m(β,θ,ψ)：r
|β|
×
|θ|
×
|ψ|
→r3n
來表示，其中β∈r
|β|
為形狀參數，θ∈r
|θ|
為姿態參數，ψ∈r
|ψ|
為表情參數。
[0061]
flame參數化模型可以寫成如下形式：m(β,θ,ψ)＝w(t
p
(β,θ,ψ),j(β),θ,ω)，其中w(t,j,θ,ω)表示標準的線性蒙皮函數，它將模板網絡t沿j∈r
3k
進行變換θ，並使用蒙皮權重ω對變換結果進行平滑。關節j的位置與β，也即頭部模型的形狀相關。模板網絡的表示形式為其中表示平均網格，其他分別表示形狀項，表情項，姿態項。
[0062]
形狀項：其中β＝[β1,
…
,β
β
]
t
為形狀係數；s＝[s1,
…
,s
β
]∈r
3n
×
|β|
表示正交的形狀基，通過pca訓練得到。
[0063]
表情項：其中為表情係數，ψ＝[ψ1,
…
,ψ
β
]∈r
3n
×
|ψ|
表示正交的表情基，這個表情基也是通過訓練得到的。
[0064]
姿態項：r(θ):r
|θ|
→r9k
表示把姿態向量θ∈r
3k+3
展開為矩陣形式，去掉全局旋轉量，從而得到維度為9k的向量。姿態項的函數表示如公式所示：
其中rn(θ)和rn(θ
*
)分別表示r(θ)和r(θ
*
)的第n個元素。p＝[p1,
…
,p
9k
]∈r
3n
×
9k
。這裡的姿態係數包括全局旋轉、用於頭部繞頸部旋轉、下頜旋轉和用於每個眼球的旋轉。
[0065]
在flame模型的姿態混合函數中多增加一個姿態係數，這個姿態係數能夠分解成旋轉矩陣和平移矩陣，方便之後求解相對姿態，在光度一致性損失計算時使用相對姿態。根據平均的人臉模型乘以旋轉矩陣，加上平移矩陣，生成對應姿態下的人臉模型。
[0066]
在本實施例中，外觀模型：flame沒有外觀模型，因此將basel face模型的pca空間轉換為flame的uv空間。
[0067]
相機模型：通過相機模型可將三維人臉頂點投影到二維平面上。本發明採用的是正交投影矩陣：v＝sп(mi)+t，其中m表示頂點，п表示2*3的正交投影矩陣[[1,0,0],[0,1,0]]，s表示縮放因子，t表示平移向量。
[0068]
光照模型：主要用來計算人臉某點處的光強。本發明採用基於球面諧波：其中a表示反射率，n表示表面法向量，b表示陰影紋理。
[0069]
在本實施例中，紋理渲染，具體為：
[0070]
ir＝r(m,b,c)
[0071]
其中，r表示渲染函數，由於較低的mesh解析度的限制，flame模型的中頻細節容易丟失。
[0072]
所述的損失計算包括：人臉關鍵點損失(l
lmk
)、眼睛閉合損失(l
eye
)、光度一致性損失(l
photo
)、人臉識別損失(l
id
)以及正則化損失(l
reg
)。
[0073]
l
loss
＝l
lmk
+l
eye
+l
photo
+l
id
+l
reg
[0074]
人臉關鍵點損失l
lmk
：計算68個人臉關鍵點位置與flame模型表面上相對應點的距離。
[0075][0076]
眼睛閉合損失l
eye
：計算上下眼皮相對偏移量。
[0077]
上下眼皮關鍵點投影到flame表面mi和mj上相應坐標的偏移量。e是上下眼皮標誌對的集合。
[0078]
光度一致性損失l
photo
:對於人臉大角度姿態產生的自遮擋問題，參數化模型與多視圖人臉圖像匹配時，把每幅圖像的模型參數與形變模型建立聯繫，為增強圖像之間的幾何約束性，採用光度一致性進行約束，獲取最終匹配後的三維人臉模型。
[0079]
表示正臉的左側mask區域，ma→b表示從a圖旋轉到b圖的mask區域，ib[u]表示b圖的紋理像素，ia→b[u]表示a圖旋轉到b圖的紋理像素，計算它們之間二範數的平方。
[0080]
人臉識別損失l
id
：對於重建出的人臉是否為同一個體時，採用vgg-face2數據集上進行預訓練的人臉識別網絡進行損失計算，比較渲染圖片和輸入圖片的特徵，計算兩張圖片的餘弦相似性。
[0081][0082]
正則化損失l
reg
：防止形狀、表情、光照參數出現過擬合。
[0083]
l
reg
正則化：形狀表情和光照
[0084]
以上所述僅為本發明的較佳實施例，凡依本發明申請專利範圍所做的均等變化與修飾，皆應屬本發明的涵蓋範圍。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於參數化模型的多視圖人臉重建方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法