一種視頻幀插幀模型的處理方法、裝置以及處理設備
2023-11-10 23:49:40 1
1.本技術涉及視頻領域,具體涉及一種視頻幀插幀模型的處理方法、裝置以及處理設備。
背景技術:
2.隨著技術的發展,電視、平板或者手機等播放設備都能夠支持更高幀率的視頻,但受限於網絡傳輸、拍攝丟幀或者後期編輯等技術原因,線上視頻幀率與實際視頻幀率差距較大,用戶在觀看視頻時若處於實際視頻幀率較低的情況,用戶觀感上會容易出現卡頓感,而為抵消實際視頻幀率的卡頓感,在技術上,則裸使用視頻插幀技術來提升視頻的幀率,從而給用戶帶來絲滑流暢的視頻播放體驗。
3.所謂視頻插幀技術,又可稱為幀速率轉換技術,是通過在原始視頻的相鄰幀中增加一幀或多幀,縮短幀與幀之間的顯示時長跨度,從而提升視頻的流暢度,達到更好的視覺感官效果。
4.而在現有技術的研究過程中,本技術發明人發現,現有的視頻插幀技術存在插幀效果不穩定的情況,雖然幀率提高了,但是畫面內容上卻存在著異常,給用戶帶來突兀感,顯然插幀精度並不是很好。
技術實現要素:
5.本技術提供了一種視頻幀插幀模型的處理方法、裝置以及處理設備,用於對視頻幀插幀模型的訓練提供一種新穎的訓練架構,如此訓練得到的視頻幀插幀模型可以更為精確地實現對待插幀視頻的視頻幀插幀,顯著降低突兀感,可以獲得更佳的滑流暢的視頻播放體驗。
6.第一方面,本技術提供了一種視頻幀插幀模型的處理方法,方法包括:
7.獲取樣本集合,其中,樣本集合包括不同的樣本視頻,樣本集合還包括不同的樣本音頻,不同的樣本視頻與不同的樣本音頻一一對應,不同的樣本視頻根據圖像內容標註有對應的第一界標;
8.提取不同的樣本音頻的音頻特徵頻譜包絡mfcc;
9.將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm進行編碼,以結合第一界標預測第二界標;
10.提取第一界標與第二界標之間的差異,得到界標差異特徵;
11.以不同的樣本視頻中的相鄰奇數視頻幀為基礎,結合對應的視頻特徵以及對應的界標差異特徵,訓練神經網絡模型預測相鄰奇數視頻幀之間的中間幀,完成模型訓練後得到視頻幀插幀模型,其中,視頻幀插幀模型用於在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀,以實現預設幀數的視頻插幀效果。
12.第二方面,本技術提供了一種視頻幀插幀模型的處理裝置,裝置包括:
13.獲取單元,用於獲取樣本集合,其中,樣本集合包括不同的樣本視頻,樣本集合還
包括不同的樣本音頻,不同的樣本視頻與不同的樣本音頻一一對應,不同的樣本視頻根據圖像內容標註有對應的第一界標;
14.提取單元,用於提取不同的樣本音頻的音頻特徵頻譜包絡mfcc;
15.預測單元,用於將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm進行編碼,以結合第一界標預測第二界標;
16.提取單元,還用於提取第一界標與第二界標之間的差異,得到界標差異特徵;
17.訓練單元,用於以不同的樣本視頻中的相鄰奇數視頻幀為基礎,結合對應的視頻特徵以及對應的界標差異特徵,訓練神經網絡模型預測相鄰奇數視頻幀之間的中間幀,完成模型訓練後得到視頻幀插幀模型,其中,視頻幀插幀模型用於在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀,以實現預設幀數的視頻插幀效果。
18.第三方面,本技術提供了一種處理設備,包括處理器和存儲器,存儲器中存儲有電腦程式,處理器調用存儲器中的電腦程式時執行本技術第一方面或者本技術第一方面任一種可能的實現方式提供的方法。
19.第四方面,本技術提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有多條指令,指令適於處理器進行加載,以執行本技術第一方面或者本技術第一方面任一種可能的實現方式提供的方法。
20.從以上內容可得出,本技術具有以下的有益效果:
21.針對於視頻幀插幀需求,本技術在訓練視頻幀查詢模型的過程中,除了關注了現有技術關注的畫面特徵(視頻特徵),還關注了音頻特徵,通過將音頻特徵映射到界標上,可以更好地輔助視頻幀的界標預測,從而在該新穎的訓練架構下,訓練得到的視頻幀插幀模型可以更為精確地實現對待插幀視頻的視頻幀插幀,顯著降低突兀感,可以獲得更佳的滑流暢的視頻播放體驗。
附圖說明
22.為了更清楚地說明本技術實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本技術的一些實施例,對於本領域技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
23.圖1為本技術視頻幀插幀模型的處理方法的一種流程示意圖;
24.圖2為本技術模型訓練架構的一種架構示意圖;
25.圖3為本技術視頻幀插幀模型的處理裝置的一種結構示意圖;
26.圖4為本技術處理設備的一種結構示意圖。
具體實施方式
27.下面將結合本技術實施例中的附圖,對本技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本技術一部分實施例,而不是全部的實施例。基於本技術中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本技術保護的範圍。
28.本技術的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別
類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的實施例能夠以除了在這裡圖示或描述的內容以外的順序實施。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或模塊的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或模塊,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或模塊。在本技術中出現的對步驟進行的命名或者編號,並不意味著必須按照命名或者編號所指示的時間/邏輯先後順序執行方法流程中的步驟,已經命名或者編號的流程步驟可以根據要實現的技術目的變更執行次序,只要能達到相同或者相類似的技術效果即可。
29.本技術中所出現的模塊的劃分,是一種邏輯上的劃分,實際應用中實現時可以有另外的劃分方式,例如多個模塊可以結合成或集成在另一個系統中,或一些特徵可以忽略,或不執行,另外,所顯示的或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,模塊之間的間接耦合或通信連接可以是電性或其他類似的形式,本技術中均不作限定。並且,作為分離部件說明的模塊或子模塊可以是也可以不是物理上的分離,可以是也可以不是物理模塊,或者可以分布到多個電路模塊中,可以根據實際的需要選擇其中的部分或全部模塊來實現本技術方案的目的。
30.在介紹本技術提供的視頻幀插幀模型的處理方法之前,首先介紹本技術所涉及的背景內容。
31.本技術提供的視頻幀插幀模型的處理方法、裝置以及計算機可讀存儲介質,可應用於處理設備,用於對視頻幀插幀模型的訓練提供一種新穎的訓練架構,如此訓練得到的視頻幀插幀模型可以更為精確地實現對待插幀視頻的視頻幀插幀,顯著降低突兀感,可以獲得更佳的滑流暢的視頻播放體驗。
32.本技術提及的視頻幀插幀模型的處理方法,其執行主體可以為視頻幀插幀模型的處理裝置,或者集成了該視頻幀插幀模型的處理裝置的伺服器、物理主機或者用戶設備(user equipment,ue)等不同類型的處理設備。其中,視頻幀插幀模型的處理裝置可以採用硬體或者軟體的方式實現,ue具體可以為智慧型手機、平板電腦、筆記本電腦、桌上型電腦或者個人數字助理(personal digital assistant,pda)等終端設備,處理設備可以通過設備集群的方式設置。
33.在實際應用中,處理設備具體可以為技術支持方後臺的設備,如此可以在後臺進行模型的配置,並向相關的用戶或者視頻應用的運營方提供模型的支持,當然,在處理設備直接涉及到模型的應用即基於訓練好的視頻幀插幀模型來進行視頻播放時,處理設備本身就可以是物理主機或者ue等用戶側的設備,直接在本地進行模型的訓練及其應用。
34.下面,開始介紹本技術提供的視頻幀插幀模型的處理方法。
35.首先,參閱圖1,圖1示出了本技術視頻幀插幀模型的處理方法的一種流程示意圖,本技術提供的視頻幀插幀模型的處理方法,具體可包括如下步驟s101至步驟s105:
36.步驟s101,獲取樣本集合,其中,樣本集合包括不同的樣本視頻,樣本集合還包括不同的樣本音頻,不同的樣本視頻與不同的樣本音頻一一對應,不同的樣本視頻根據圖像內容標註有對應的第一界標;
37.可以理解,對於視頻幀插幀模型的訓練,是從配置用於訓練模型的樣本集合開始的。
38.該樣本集合,也可稱為樣本集,與現有技術類似的,樣本集合中包括了不同的樣本視頻,對應視頻幀插幀模型的處理對象,此外,需要注意的是,本技術是額外考慮結合音頻來進行視頻幀的插幀處理,因此,樣本集合中還包括了不同的樣本音頻,對於該樣本音頻,顯然,是與樣本視頻配套設置的。
39.樣本音頻可以是從樣本視頻中的音頻內容提取得到,也可以是直接在樣本視頻的外部配置得到,配置樣本音頻的目的是在樣本視頻為模型的訓練提供視頻特徵(畫面特徵)的基礎上,繼續為模型的訓練提供音頻特徵的指導。
40.與現有技術類似的,樣本視頻根據圖像內容標註有對應的界標,此處記為第一界標。
41.對於該第一界標,可以理解,為視頻中不同對象的連續畫面內容的分界標識,容易理解,視頻幀插幀處理需要考慮畫面的連續性還有流暢性,因此插入的中間幀在畫面內容上需要和相鄰的視頻幀相適配,因此就需要界標進行插幀範圍的界定。在界標的指導下,在合適的兩視頻幀中間插入既可以保持畫面的連續性、流暢性,又可以擴充幀數的中間幀。
42.其中,該第一界標既可以是如現有技術進行配置的,如人工配置,也可以是在獲取到樣本視頻時就已經完成配置了,具體是隨樣本視頻的不同獲取途經調整的。
43.而作為一種適於實用的實現方式,考慮到本技術是在視頻特徵的基礎上,結合音頻特徵的指導來完成視頻幀的插入,而音頻特徵尤其與畫面中的人物有關,因此,第一界標具體則可以通過視頻中的人臉圖像特徵進行配置。
44.在該場景中,界標具體可以為人臉圖像上的68個關鍵點,其為2維坐標,反映在人臉圖片中的位置,包括人臉輪廓、眼睛、鼻子和嘴巴中的關鍵點(如眼角,嘴角等)
45.可以理解,對於視頻,尤其是演講類視頻,音頻信息本身,與人物的面部表情以及唇部信息具有較高的關聯性,因此可以考慮從人臉圖像特徵進行第一界標的配置,且人臉圖像特徵具有較高的辨識度,從而可以更好地將音頻信息映射到界標上,將界標與視頻幀融合,提升視頻插幀的性能。
46.作為一個實例,樣本集合的獲取處理可以包括以下處理內容:
47.說話人數據集(樣本音頻)採用voxceleb2從樣本視頻中提取得到,該數據集的視頻幀率為25fps,解析度為224
×
224;
48.根據視頻幀率(25fps)將1s視頻拆分為25張圖片;
49.使用人臉界標提取器,提取人臉界標;
50.將得到數據集(包括視頻和音頻),80%作為訓練數據集用於神經網絡模型的訓練,20%作為測試數據集用於神經網絡模型的測試。
51.在訓練的過程中為了提高模型的精度和準確性,還可以對樣本數據進行數據增強的操作,包括將視頻幀隨機裁剪、縮放、鏡像或者旋轉等。
52.對應的,後面的數據處理,則是需要考慮如何提取出樣本音頻的音頻特徵,來幫助視頻幀插幀模型的訓練。
53.步驟s102,提取不同的樣本音頻的音頻特徵頻譜包絡mfcc;
54.在獲取了樣本集合後,則可以針對其中的樣本音頻,提取其音頻特徵頻譜包絡mfcc,mfcc即梅爾倒譜係數(mel-scalefrequency cepstral coefficients)特徵,其可以理解為是基於人耳聽覺特性提出來的特徵,它與hz頻率成非線性對應關係,mfcc利用它們
之間的這種關係,計算得到的hz頻譜特徵,為後面的音頻特徵處理提供數據依據。
55.作為又一個實例,在實際操作中,具體可以基於滑動窗提取mfcc的音頻特徵,其中滑動窗大小為25ms,步長為10ms,基於4個連續滑動窗提取的音頻特徵對應一個視頻幀,其中提取的音頻特徵為前13維的mfcc。
56.步驟s103,將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm進行編碼,以結合第一界標預測第二界標;
57.在獲得了樣本音頻的音頻特徵頻譜包絡mfcc後,則可以通過雙向長短時記憶網絡blstm進行界標的預測,可以理解,此處所進行界標預測是從音頻維度出發,輔以前面樣本視頻配置的界標來進行的。
58.blstm,即雙向長短時記憶網絡(bidirectional long short term memory),長短時記憶網絡lstm非常適合用於對時序數據的建模,適用於捕捉上下文信息,而雙向長短時記憶網絡blstm由前向lstm與後向lstm組合而成,將輸入數據分為前向和後向兩個部分,這樣不僅可以對歷史信息建模處理,還可以對未來信息建模處理,對於上下文信息的捕捉效果更甚,如此可以在音頻特徵的基礎上,很好地完成界標的預測。
59.具體的,對於雙向長短時記憶網絡blstm的界標預測,作為又一種適於實用的實現方式,可以配置為:
60.將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm,以提取包含上下文信息的音頻特徵;
61.將包含上下文信息的音頻特徵與第一界標進行拼接,得到音頻界標拼接結果;
62.將音頻界標拼接結果送入多層感知器mlp中,以預測第二界標,其中,第二界標以預測的中間幀及其兩個相鄰幀的三個界標為單位進行配置。
63.容易看出,雙向長短時記憶網絡blstm是先將輸入的音頻特徵頻譜包絡mfcc提取其包含了上下文信息的音頻特徵,再與前面樣本視頻已配置的第一界標進行拼接,再通過多層感知器mlp進行界標的具體預測處理。
64.其中,需要注意的是,通過多層感知器mlp對於界標的預測所得到的是三個界標,即每一組預測結果,包括了第一幀視頻幀界標、中間幀視頻幀界標以及第三幀視頻幀界標,三者構成一個連續的視頻幀段。
65.在該設置下,從人臉圖像上提取界標為例,因為本技術認為人臉和聲音存在關聯關係,而人臉有較高的複雜性,包含背景、頭髮等與聲音無關的部分,因此使用音頻來完成界標的預測可以提高預測的準確性以及減少計算量,輸入人臉界標相當於告訴網絡原始的人臉的一些基本信息,通過多層感知器mlp將人臉界標與音頻特徵進行融合,預測得到與音頻相符的界標。
66.步驟s104,提取第一界標與第二界標之間的差異,得到界標差異特徵;
67.可以理解,第二界標,為從音頻維度出發,在已知的、樣本視頻配置的第一界標的參考下預測的,相對於第一界標而言,兩者會存在差異,而這就可以用來輔助訓練視頻幀插幀模型對於音頻特徵指導插入幀的預測效果。
68.因此,在獲得了第一界標和第二界標的情況下,可以分析兩者的差異,得到界標差異特徵,為後面的模型訓練提供精確的數據指導。
69.其中,應當理解,上面的處理,都是基於對應的,或者說基於指向同一對象同一時
間點的音視頻為處理單位進行處理的。
70.作為又一種適於實用的實現方式,界標差異特徵的提取處理,具體可以包括:
71.通過卷積處理,提取第一界標以及第二界標的界標特徵;
72.將第一界標的界標特徵與第二界標的界標特徵進行拼接,得到界標特徵拼接結果;
73.對界標特徵拼接結果使用反卷積以及sigmoid激活函數進行處理,得到界標差異特徵。
74.容易看出,對於界標的差異的識別,先從兩種界標的界標特徵開始處理,再通過拼接提供處理依據,再通過反卷積以及sigmoid激活函數來完成差異特徵的具體生成。
75.在得到第二界標之後,為了得到中間幀需要考慮其與其他幀的差異,而界標的差異值一定程度上反映了該差異,如界標是68個關鍵點的2維坐標,其大小與圖片大小不一致,因此使用反卷積進行處理,使用sigmoid激活函數可以將數據進行歸一化,使其範圍在0~1之間,反映了特徵的權重,促進更高的處理精度。
76.步驟s105,以不同的樣本視頻中的相鄰奇數視頻幀為基礎,結合對應的視頻特徵以及對應的界標差異特徵,訓練神經網絡模型預測相鄰奇數視頻幀之間的中間幀,完成模型訓練後得到視頻幀插幀模型,其中,視頻幀插幀模型用於在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀,以實現預設幀數的視頻插幀效果。
77.在完成訓練模型用的輸入數據,即樣本視頻和界標差異特徵的配置後,則可以投入具體視頻幀插幀模型的訓練處理。
78.具體的,對於視頻幀插幀模型的訓練,其在每次的訓練環節中,可以理解為,以樣本視頻中的相鄰奇數視頻幀為處理對象,預測相鄰奇數視頻幀之間可以插入的中間幀為目標,在相鄰奇數視頻幀本身的視頻特徵的基礎上,用界標差異特徵作為參考,來完成一次中間幀的預測處理。
79.其中,不同的視頻幀可以通過數字標號來進行先後順序的標識,如第一個視頻幀可以用「0」進行標識,後面第三個視頻幀、第五個視頻幀
…
第n+1個視頻幀,則可以用「2」、「4
」…「
n」進行標識;又如第一個視頻幀可以用「1」進行標識,後面第三個視頻幀、後面第三個視頻幀、第五個視頻幀
…
第n+1個視頻幀,則可以用「3」、「5
」…「
n+1」進行標識。
80.視頻幀插幀模型具體採用的神經網絡模型的類型是可以隨實際需要調整的,例如卷積神經網絡(convolutional neural networks,cnn)、循環神經網絡(recurrent neural network,rnn)、深度信念網絡(deep belief network,dbn)、生成對抗網絡(generative adversarial nets,gan)等類型的具體神經網絡模型;類似的,其訓練中所採用的損失函數也是可以隨實際需要配置的。
81.其中,作為又一種適於實用的實現方式,模型的輸入環節,還可涉及到編碼處理,具體來說,神經網絡模型輸入不同的樣本視頻中的相鄰奇數視頻幀的過程中,可以包括:
82.將相鄰奇數視頻幀按照通道拼接,得到視頻幀拼接結果;
83.使用unet結構的圖片編碼器對視頻幀拼接結果進行編碼。
84.其中,該輸入環節的編碼處理,既可以是由模型的輸入層進行處理,也可以是在模型外進行處理,通過編碼處理來獲得便於模型識別及其處理的數據形式。
85.在該設置中,具體使用了unet圖片編碼器對圖片進行處理,其每一層使用卷積進
行處理,淺層卷積關注紋理等局部特徵,深層網絡關注全局特徵,將不同層的特徵進行融合,使網絡在淺層特徵和深層特徵間自由選擇,促進更高的處理精度。
86.類似的,前面涉及到blstm的應用,在前面階段也可以涉及到編碼處理。
87.作為又一種適於實用的實現方式,對於視頻幀插幀模型的訓練過程中涉及的損失函數,容易理解,中間幀的預測結果是以圖片的形式存在的,對應的,損失函數可以包括圖片損失函數,具體為:
[0088][0089]
其中,i
t
為真實的中間幀圖片,為預測的中間幀圖片。
[0090]
該圖片損失函數,容易理解,用於約束模型最終生成的中間幀的準確性,如此通過訓練網絡不斷縮小兩者之間的差異,優化中間幀的預測效果。
[0091]
此外,本技術針對具體涉及的界標,還可為其配置相對應的損失函數,具體的,視頻幀插幀模型在訓練過程中採用的損失函數可以包括界標損失函數,具體為:
[0092][0093]
其中,p
i,t
為已知界標,為預測的界標,n為界標點的總數,n=68,t為根據音頻預測界標的總數,t=3(對應上面提及的一組界標預測結果包括三個預測的界標)。
[0094]
該界標損失函數,容易理解,用於約束通過音頻生成界標的準確性,如此通過訓練網絡不斷縮小兩者之間的差異,優化中間幀的預測效果。
[0095]
可以看出,在此處界標損失函數的設置下,本技術所涉及的模型訓練範疇,還可以涉及到前面預測界標所依賴的相關網絡的訓練,如此為後面的視頻幀插幀模型的訓練提供更為精確的訓練環境。
[0096]
此外,在模型訓練過程中,還可以採用其他類型的、現有的損失函數,具體可以隨實際需要調整。
[0097]
而在配置了兩種或者兩種以上的損失函數的情況下,則可以通過不同權重的設置,來量化出最終採用的損失函數計算結果,用來反向優化相關的模型採納數,以提高最終中間幀的預測效果。
[0098]
而神經網絡模型的基礎訓練過程,作為又一種適於實用的實現方式,則可以包括:
[0099]
將相鄰奇數視頻幀、相鄰奇數視頻幀對應的視頻特徵以及相鄰奇數視頻幀對應的界標差異特徵按照通道進行拼接,並利用三個不同的子網絡估計卷積核以及偏移量;
[0100]
基於卷積核以及偏移量,對相鄰奇數視頻幀使用可變形卷積,其中,可變形卷積是指卷積核在每一個元素上額外增加一個參數方向參數(即偏移量),這樣卷積核就在採樣像素點不變的情況下,卷積範圍擴大;
[0101]
使用另一個子網絡,並使用sigmoid激活函數得到權重;
[0102]
根據權重,將兩個預測的中間幀進行結合,得到最終預測的相鄰奇數視頻幀的中間幀,表示如下:
[0103][0104]
其中,i
t
為最終預測的相鄰奇數視頻幀的中間幀,為根據相鄰奇數視頻幀中第一
個視頻幀預測得到的中間幀,為根據相鄰奇數視頻幀中第二個視頻幀預測得到的中間幀,v為權重。
[0105]
需要理解,直接通過網絡預測卷積核,對圖片進行卷積時,採樣的是像素點周圍方形區域的像素點,方形區域的像素點並與一定與目標像素點有較高的相關性,且方形區域範圍較小,對於位置變化比較大的區域不能估計其位置,因此本技術添加了子網絡估計偏移量,以找到與目標像素點更加相關的像素點,使用可變形卷積進行處理在採樣像素點數量不變的情況下,可以有效擴大範圍,促進更高的處理精度。
[0106]
此外,在模型的訓練過程中,還可在前期階段設置到對模型的基礎參數設置,如預先設置訓練迭代次數(一種完成訓練要求)、lstm層數或者隱藏層維度等,作為一個實例,訓練迭代次數為50次,lstm層數為2,隱藏層維度為256。
[0107]
而對於模型本身輸出的中間幀的預測結果,還可以評估中間幀本身的圖片質量,例如可以採用峰值信噪比(peak signal to noise ratio,psnr),峰值信噪比psnr表示信號最大可能功率和影響它的表示精度的破壞性噪聲功率的比值,常用對數分貝單位來表示,峰值信噪比psnr的值越大說明預測圖片的質量越好,峰值信噪比psnr具體可以使用以下公式計算:
[0108][0109]
其中,mse為真實圖像與預測圖像之間的均方誤差。
[0110]
又例如,可以採用使用結構相似性(structural similarity,ssim)評價訓練模型輸出的圖像與原圖像之間的結構相似性,結構相似性ssim可以量化兩幅圖像的相似度,具體可以從圖像組成的角度將結構信息定義為獨立於亮度、對比度的、反映場景中物體結構的屬性,並將失真建模為亮度、對比度和結構三個不同因素的組合,結構相似性ssim的範圍為0到1,值越大即表示預測圖片的質量越好,當兩張圖像一模一樣時,結構相似性ssim的值等於1,結構相似性ssim具體可以使用以下公式計算:
[0111][0112]
其中,x、y分別為兩圖像的像素值,,μ
x
為x的平均值,μy為y的平均值,σ
x
為x的方差,σy為y的方差,σ
xy
為x和y的協方差,c1=(k1l)2,c1=(k1l)2為用來維持穩定的常數,l為像素值的動態範圍,k1=0.01,k1=0.03。
[0113]
可以理解,以上的評估參數,除了可以評估模型預測的中間幀的圖片質量,也是可以作為具體的損失函數類型投入到模型訓練過程中的。
[0114]
為方便理解本技術的模型訓練架構,還可以結合圖2示出的本技術模型訓練架構的一種架構示意圖,來理解以上包括示例性實施例的整體方案內容。
[0115]
而達到訓練次數、訓練時長、預測精度等預設的訓練要求後,則可以完成模型的訓練,此時的視頻幀插幀模型則可以投入實際使用、實際應用。
[0116]
對應的,本技術方法還可以包括:
[0117]
獲取待插幀視頻;
[0118]
將待插幀視頻輸入視頻幀插幀模型,以使得視頻幀插幀模型在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀;
[0119]
獲取待插幀視頻插入中間幀後的目標視頻。
[0120]
其中,需要理解的是,在實際應用中,視頻幀插幀模型是可以不用輸入待插幀視頻對應的音頻的,視頻幀插幀模型可以直接從待插幀視頻中提取對應音頻。
[0121]
對於以上的方案內容,可以看出,針對於視頻幀插幀需求,本技術在訓練視頻幀查詢模型的過程中,除了關注了現有技術關注的畫面特徵(視頻特徵),還關注了音頻特徵,通過將音頻特徵映射到界標上,可以更好地輔助視頻幀的界標預測,從而在該新穎的訓練架構下,訓練得到的視頻幀插幀模型可以更為精確地實現對待插幀視頻的視頻幀插幀,顯著降低突兀感,可以獲得更佳的滑流暢的視頻播放體驗。
[0122]
以上是本技術提供的視頻幀插幀模型的處理方法的介紹,為便於更好的實施本技術提供的視頻幀插幀模型的處理方法,本技術還從功能模塊角度提供了一種視頻幀插幀模型的處理裝置。
[0123]
參閱圖3,圖3為本技術視頻幀插幀模型的處理裝置的一種結構示意圖,在本技術中,視頻幀插幀模型的處理裝置300具體可包括如下結構:
[0124]
獲取單元301,用於獲取樣本集合,其中,樣本集合包括不同的樣本視頻,樣本集合還包括不同的樣本音頻,不同的樣本視頻與不同的樣本音頻一一對應,不同的樣本視頻根據圖像內容標註有對應的第一界標;
[0125]
提取單元302,用於提取不同的樣本音頻的音頻特徵頻譜包絡mfcc;
[0126]
預測單元303,用於將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm進行編碼,以結合第一界標預測第二界標;
[0127]
提取單元302,還用於提取第一界標與第二界標之間的差異,得到界標差異特徵;
[0128]
訓練單元304,用於以不同的樣本視頻中的相鄰奇數視頻幀為基礎,結合對應的視頻特徵以及對應的界標差異特徵,訓練神經網絡模型預測相鄰奇數視頻幀之間的中間幀,完成模型訓練後得到視頻幀插幀模型,其中,視頻幀插幀模型用於在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀,以實現預設幀數的視頻插幀效果。
[0129]
在一種示例性的實現方式中,第一界標具體通過視頻中的人臉圖像特徵進行配置。
[0130]
在又一種示例性的實現方式中,預測單元303,具體用於:
[0131]
將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm,以提取包含上下文信息的音頻特徵;
[0132]
將包含上下文信息的音頻特徵與第一界標進行拼接,得到音頻界標拼接結果;
[0133]
將音頻界標拼接結果送入多層感知器mlp中,以預測第二界標,其中,第二界標以預測的中間幀及其兩個相鄰幀的三個界標為單位進行配置。
[0134]
在又一種示例性的實現方式中,提取單元302,具體用於:
[0135]
通過卷積處理,提取第一界標以及第二界標的界標特徵;
[0136]
將第一界標的界標特徵與第二界標的界標特徵進行拼接,得到界標特徵拼接結果;
[0137]
對界標特徵拼接結果使用反卷積以及sigmoid激活函數進行處理,得到界標差異特徵。
[0138]
在又一種示例性的實現方式中,視頻幀插幀模型在訓練過程中採用的損失函數包
括圖片損失函數,具體為:
[0139][0140]
其中,i
t
為真實的中間幀圖片,為預測的中間幀圖片;
[0141]
視頻幀插幀模型在訓練過程中採用的損失函數還包括界標損失函數,具體為:
[0142][0143]
其中,p
i,t
為已知界標,為預測的界標,n為界標點的總數,n=68,t為根據音頻預測界標的總數,t=3。
[0144]
在又一種示例性的實現方式中,神經網絡模型的訓練過程,包括:
[0145]
將相鄰奇數視頻幀、相鄰奇數視頻幀對應的視頻特徵以及相鄰奇數視頻幀對應的界標差異特徵按照通道進行拼接,並利用三個不同的子網絡估計卷積核以及偏移量;
[0146]
基於卷積核以及偏移量,對相鄰奇數視頻幀使用可變形卷積,其中,可變形卷積是指卷積核在每一個元素上額外增加一個參數方向參數;
[0147]
使用另一個子網絡,並使用sigmoid激活函數得到權重;
[0148]
根據權重,將兩個預測的中間幀進行結合,得到最終預測的相鄰奇數視頻幀的中間幀,表示如下:
[0149][0150]
其中,i
t
為最終預測的相鄰奇數視頻幀的中間幀,為根據相鄰奇數視頻幀中第一個視頻幀預測得到的中間幀,為根據相鄰奇數視頻幀中第二個視頻幀預測得到的中間幀,v為權重。
[0151]
在又一種示例性的實現方式中,神經網絡模型輸入不同的樣本視頻中的相鄰奇數視頻幀的過程中,包括:
[0152]
將相鄰奇數視頻幀按照通道拼接,得到視頻幀拼接結果;
[0153]
使用unet結構的圖片編碼器對視頻幀拼接結果進行編碼。
[0154]
本技術還從硬體結構角度提供了一種處理設備,參閱圖4,圖4示出了本技術處理設備的一種結構示意圖,具體的,本技術處理設備可包括處理器401、存儲器402以及輸入輸出設備403,處理器401用於執行存儲器402中存儲的電腦程式時實現如圖1對應實施例中視頻幀插幀模型的處理方法的各步驟;或者,處理器401用於執行存儲器402中存儲的電腦程式時實現如圖3對應實施例中各單元的功能,存儲器402用於存儲處理器401執行上述圖1對應實施例中視頻幀插幀模型的處理方法所需的電腦程式。
[0155]
示例性的,電腦程式可以被分割成一個或多個模塊/單元,一個或者多個模塊/單元被存儲在存儲器402中,並由處理器401執行,以完成本技術。一個或多個模塊/單元可以是能夠完成特定功能的一系列電腦程式指令段,該指令段用於描述電腦程式在計算機裝置中的執行過程。
[0156]
處理設備可包括,但不僅限於處理器401、存儲器402、輸入輸出設備403。本領域技術人員可以理解,示意僅僅是處理設備的示例,並不構成對處理設備的限定,可以包括比圖
示更多或更少的部件,或者組合某些部件,或者不同的部件,例如處理設備還可以包括網絡接入設備、總線等,處理器401、存儲器402、輸入輸出設備403等通過總線相連。
[0157]
處理器401可以是中央處理單元(central processing unit,cpu),還可以是其他通用處理器、數位訊號處理器(digital signal processor,dsp)、專用集成電路(application specific integrated circuit,asic)、現場可編程門陣列(field-programmable gate array,fpga)或者其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等,處理器是處理設備的控制中心,利用各種接口和線路連接整個設備的各個部分。
[0158]
存儲器402可用於存儲電腦程式和/或模塊,處理器401通過運行或執行存儲在存儲器402內的電腦程式和/或模塊,以及調用存儲在存儲器402內的數據,實現計算機裝置的各種功能。存儲器402可主要包括存儲程序區和存儲數據區,其中,存儲程序區可存儲作業系統、至少一個功能所需的應用程式等;存儲數據區可存儲根據處理設備的使用所創建的數據等。此外,存儲器可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如硬碟、內存、插接式硬碟,智能存儲卡(smart media card,smc),安全數字(secure digital,sd)卡,快閃記憶體卡(flash card)、至少一個磁碟存儲器件、快閃記憶體器件、或其他易失性固態存儲器件。
[0159]
處理器401用於執行存儲器402中存儲的電腦程式時,具體可實現以下功能:
[0160]
獲取樣本集合,其中,樣本集合包括不同的樣本視頻,樣本集合還包括不同的樣本音頻,不同的樣本視頻與不同的樣本音頻一一對應,不同的樣本視頻根據圖像內容標註有對應的第一界標;
[0161]
提取不同的樣本音頻的音頻特徵頻譜包絡mfcc;
[0162]
將音頻特徵頻譜包絡mfcc送入雙向長短時記憶網絡blstm進行編碼,以結合第一界標預測第二界標;
[0163]
提取第一界標與第二界標之間的差異,得到界標差異特徵;
[0164]
以不同的樣本視頻中的相鄰奇數視頻幀為基礎,結合對應的視頻特徵以及對應的界標差異特徵,訓練神經網絡模型預測相鄰奇數視頻幀之間的中間幀,完成模型訓練後得到視頻幀插幀模型,視頻幀插幀模型用於在輸入的待插幀視頻的基礎上結合對應音頻來預測待插幀視頻中的中間幀,以實現預設幀數的視頻插幀效果。
[0165]
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的視頻幀插幀模型的處理裝置、處理設備及其相應單元的具體工作過程,可以參考如圖1對應實施例中視頻幀插幀模型的處理方法的說明,具體在此不再贅述。
[0166]
本領域普通技術人員可以理解,上述實施例的各種方法中的全部或部分步驟可以通過指令來完成,或通過指令控制相關的硬體來完成,該指令可以存儲於一計算機可讀存儲介質中,並由處理器進行加載和執行。
[0167]
為此,本技術提供一種計算機可讀存儲介質,其中存儲有多條指令,該指令能夠被處理器進行加載,以執行本技術如圖1對應實施例中視頻幀插幀模型的處理方法的步驟,具體操作可參考如圖1對應實施例中視頻幀插幀模型的處理方法的說明,在此不再贅述。
[0168]
其中,該計算機可讀存儲介質可以包括:只讀存儲器(read only memory,rom)、隨機存取記憶體(random access memory,ram)、磁碟或光碟等。
[0169]
由於該計算機可讀存儲介質中所存儲的指令,可以執行本技術如圖1對應實施例中視頻幀插幀模型的處理方法的步驟,因此,可以實現本技術如圖1對應實施例中視頻幀插幀模型的處理方法所能實現的有益效果,詳見前面的說明,在此不再贅述。
[0170]
以上對本技術提供的視頻幀插幀模型的處理方法、裝置、處理設備以及計算機可讀存儲介質進行了詳細介紹,本文中應用了具體個例對本技術的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本技術的方法及其核心思想;同時,對於本領域的技術人員,依據本技術的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本技術的限制。