基於比較的視頻字幕錯別字詞糾錯的方法及裝置與流程
2023-09-20 09:13:45 1

本發明涉及智能電視技術領域,尤其涉及一種基於比較的視頻字幕錯別字詞糾錯的方法及裝置。
背景技術:
隨著科技的發展,人們觀看視頻的方法不在僅局限於有線電視的方法,越來越多的數位電視被使用。數位電視不僅可以播放廣電網中的電視節目,而且還可以播放網際網路視頻媒體。
現有的網際網路視頻媒體往往通過字幕爬蟲的方式來獲取在線字幕,而在網際網路上各字幕文件的質量參差不齊,往往會存在錯別字詞的現象,導致用戶體驗一般。
技術實現要素:
本發明的實施例提供一種基於比較的視頻字幕錯別字詞糾錯的方法及裝置,用以降低字幕中出現錯別字的現象,提高用戶體驗。
為達到上述目的,本發明的實施例採用如下技術方案:
本發明實施例提供了一種基於比較的視頻字幕錯別字詞糾錯的方法,包括:獲取n個字幕文件,並在所述n個字幕文件中確定出應用字幕文件及備用字幕文件;所述n為大於2的整數;所述應用字幕文件是播放裝置待使用的字幕文件;將所述n個字幕文件中的每個字幕文件劃分為至少一個字幕數組;其中,所述字幕數組中包含有字幕條目及所述字幕條目對應的播放時間;根據所述備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗;在檢驗出所述至少一個字幕數組中存在錯別字詞時,糾正所述錯別字詞。
進一步的,根據所述備用字幕文件的至少一個字幕數組,依次對應用字幕文件的字幕數組進行字幕檢驗,在檢驗出所述應用字幕文件的字幕數組中存在錯別字詞時,糾正所述錯別字詞包括:將第i個字幕數組中的字幕條目與所有備用字幕文件中的所有字幕數組的字幕條目進行字符串匹配,確定所有備用字幕文件中的所有字幕數組的字幕條目中是否存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同;i為大於0,不大於應用字幕文件劃分的字幕數組的總個數的整數;若不存在,則在所述各個備用字幕文件中確定出各個校驗字幕數組;所述校驗字幕數組中的字幕條目對應的播放時間與所述第i個字幕條目對應的播放時間間隔不超過預設閾值;將所述各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目;若存在相似字幕條目,且相似字幕條目的數量達到預設相似閾值,則確定所述第i個字幕數組中的字幕條目存在錯別字詞;在檢驗出所述第i個字幕數組中存在錯別字詞時,糾正所述錯別字詞;更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,所述將所述各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目包括:在所述各個校驗字幕數組中的字幕條目中,確定出待比較的兩個校驗字幕數組中的字幕條目;將所述待比較的兩個校驗字幕數組中的字幕條目進行字符串比較;若所述待比較的兩個校驗字幕數組中的字幕條目不同,則進行二進位比較,確定字符串不同的部分與待比較的字幕條目間的比例是否超過預設比例閾值;若未超過預設比例閾值,則確定所述待比較的兩個校驗字幕數組中的字幕條目為相似字幕條目。
進一步的,還包括:若存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同,則確定所述第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,還包括:若不存在相似字幕條目,則確定所述第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,本發明實施例提供了一種基於比較的視頻字幕錯別字詞糾錯的裝置,包括:獲取單元,用於獲取n個字幕文件,並在所述n個字幕文件中確定出應用字幕文件及備用字幕文件;所述n為大於2的整數;所述應用字幕文件是播放裝置待使用的字幕文件;劃分單元,用於將所述n個字幕文件中的每個字幕文件劃分為至少一個字幕數組;其中,所述字幕數組中包含有字幕條目及所述字幕條目對應的播放時間;處理單元,用於根據所述備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗;在檢驗出所述至少一個字幕數組中存在錯別字詞時,糾正所述錯別字詞。
進一步的,所述處理單元,具體用於將第i個字幕數組中的字幕條目與所有備用字幕文件中的所有字幕數組的字幕條目進行字符串匹配,確定所有備用字幕文件中的所有字幕數組的字幕條目中是否存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同;i為大於0,不大於應用字幕文件劃分的字幕數組的總個數的整數;若不存在,則在所述各個備用字幕文件中確定出各個校驗字幕數組;所述校驗字幕數組中的字幕條目對應的播放時間與所述第i個字幕條目對應的播放時間間隔不超過預設閾值;將所述各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目;若存在相似字幕條目,且相似字幕條目的數量達到預設相似閾值,則確定所述第i個字幕數組中的字幕條目存在錯別字詞;在檢驗出所述第i個字幕數組中存在錯別字詞時,糾正所述錯別字詞;更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,所述處理單元,具體用於在所述各個校驗字幕數組中的字幕條目中,確定出待比較的兩個校驗字幕數組中的字幕條目;將所述待比較的兩個校驗字幕數組中的字幕條目進行字符串比較;若所述待比較的兩個校驗字幕數組中的字幕條目不同,則進行二進位比較,確定字符串不同的部分與待比較的字幕條目間的比例是否超過預設比例閾值;若未超過預設比例閾值,則確定所述待比較的兩個校驗字幕數組中的字幕條目為相似字幕條目。
進一步的,所述處理單元,還用於若存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同,則確定所述第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,所述處理單元,還用於若不存在相似字幕條目,則確定所述第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
本發明實施例提供了一種基於比較的視頻字幕錯別字詞糾錯的方法及裝置,包括:獲取n個字幕文件,並在所述n個字幕文件中確定出應用字幕文件及備用字幕文件;所述n為大於2的整數;將所述n個字幕文件中的每個字幕文件劃分為至少一個字幕數組;其中,所述字幕數組中包含有字幕條目及所述字幕條目對應的播放時間;根據所述備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗;在檢驗出所述至少一個字幕數組中存在錯別字詞時,糾正所述錯別字詞。這樣,基於比較的視頻字幕錯別字詞糾錯的裝置可以根據備用字幕文件,識別出應用字幕文件中的錯別字詞,進而進行糾正,從而可以降低字幕中出現錯別字的現象,提高用戶體驗。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例提供的一種基於比較的視頻字幕錯別字詞糾錯的方法的流程示意圖;
圖2為本發明實施例提供的一種基於比較的視頻字幕錯別字詞糾錯的裝置結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明實施例提供了一種基於比較的視頻字幕錯別字詞糾錯的方法,如圖1所示,包括:
步驟101、獲取n個字幕文件,並在n個字幕文件中確定出應用字幕文件及備用字幕文件。
其中,n為大於2的整數。應用字幕文件是播放裝置待使用的字幕文件。
具體的,播放裝置播放一個視頻時,使用現有的字幕爬蟲系統從網際網路上搜索到n(n>2)個字幕文件,基於比較的視頻字幕錯別字詞糾錯的裝置可以在此n個字幕文件中將播放裝置即將使用的字幕文件確定為應用字幕文件,其他n-1個字幕文件確定為備用字幕文件。
步驟102、將n個字幕文件中的每個字幕文件劃分為至少一個字幕數組。
其中,字幕數組中包含有字幕條目及字幕條目對應的播放時間。
具體的,解析獲取的n個字幕文件,將每個字幕文件均劃分為多個包含了字幕條目及每個字幕條目對應的播放時間的字符串的數組,即為字幕數組。
需要說明的是,在字幕文件中包含了待播放的視頻對應的完整的字幕及每個字幕對應的播放時間。上述的字幕條目由至少一個字幕組成。
通過將n個字幕文件劃分為至少一個字幕數組,可以將不同格式的字幕文件統一為相同數據格式的字幕數組,以便於後續的比較。
步驟103、根據備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗,在檢驗出應用字幕文件的字幕數組中存在錯別字詞時,糾正錯別字詞。
具體的,在將n個字幕文件劃分為至少一個字幕數組後,可以對應用字幕文件中的字幕數組逐一進行校驗。並在檢驗出應用字幕文件的字幕數組中存在錯別字詞時,糾正所述錯別字詞。
此時,根據備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗包括:將第i個字幕數組中的字幕條目與所有備用字幕文件中的所有字幕數組的字幕條目進行字符串匹配,確定所有備用字幕文件中的所有字幕數組的字幕條目中是否存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同。
其中,i為大於0,不大於應用字幕文件劃分的字幕數組的總個數的整數。
若不存在,則在各個備用字幕文件中確定出各個校驗字幕數組;
其中,校驗字幕數組中的字幕條目對應的播放時間與第i個字幕條目對應的播放時間間隔不超過預設閾值。
將各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目。
若存在相似字幕條目,且相似字幕條目的數量達到預設相似閾值,則確定第i個字幕數組中的字幕條目存在錯別字詞。
在檢驗出第i個字幕數組中存在錯別字詞時,糾正錯別字詞。
更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
即為,遍歷應用字幕文件中的字幕數組,順序提取一個字幕數組,即為第i個字幕數組,將第i個字幕數組中的字幕條目,與所有備用字幕文件的所有字幕數組的字幕條目進行字符串的比較,確定n-1個備用字幕文件中的全部幕數組中是否存在至少兩個字幕數組中的字幕條目與第i個字幕數組中的字幕條目相同。例如,第i個字幕數組中的字幕條目的內容為「中國人不是東牙病夫」。將該字幕條目與n-1個備用字幕文件中的所有字幕數組的所有字幕條目進行字符串精確匹配,確定所有備用字幕文件中是否存在至少兩個字幕條目與第i個字幕條目相同。
如果在所有備用字幕文件中不在至少兩個字幕條目與第i個字幕條目相同,則需要進行比對方法,此時解析第i個字幕數組,獲取第i個字幕數組中的字幕條目對應的播放時間。根據此播放時間,將各個備用字幕文件中對應的播放時間與此播放時間的時間間隔不超過預設閾值的字幕數組確定為校驗字幕數組。將各個校驗字幕數組間進行比較,確定在校驗字幕數組中是否存在相似字幕條目。如果存在相似字幕條目,且相似字幕條目的數量達到有預設相似閾值,則說明第i個字幕數組中的字幕條目存在錯別字,此時可以根據相似字幕條目,對第i個字幕數組中的字幕條目進行逐一字符的糾正,從而可以糾正錯別字詞。如上例所述,如果在所有的校驗字幕數組中存在多個相同的字幕條目,如「中國人不是東亞病夫」,則確定是應用字幕文件中存在錯別字詞,需予以糾正。其糾正後的應用字幕文件將顯示為「中國人不是東亞病夫」。
在將第i個字幕數組中的字幕條目進行糾正完成後,可以繼續對應用字幕文件中的下一個字幕數組進行校驗,此時可以將i個的取值更新,即為將i加1,重新執行上述過程,校驗應用字幕文件中的下一個字幕數組,直至將應用字幕文件中的全部字幕數組校驗完成。
需要說明的是,預設閾值及預設相似閾值是根據實際需要預先設置。
進一步的,上述將各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目包括:
在各個校驗字幕數組中的字幕條目中,確定出待比較的兩個校驗字幕數組中的字幕條目;將待比較的兩個校驗字幕數組中的字幕條目進行字符串比較;若待比較的兩個校驗字幕數組中的字幕條目不同,則進行二進位比較,確定字符串不同的部分與待比較的字幕條目間的比例是否超過預設比例閾值;若未超過預設比例閾值,則確定待比較的兩個校驗字幕數組中的字幕條目為相似字幕條目。
也就是說,確定兩個即將進行進行比較的校驗字幕數組,即為待比較的校驗字幕數組,可以記為s1和s2。對s1和s2做字符串比較,若s1和s2不同,則進行二進位比對,分析兩個字符串不同的部分,若不同的部分佔整句話的比例不超過預設比例閾值,則認為兩句話的關係為相似字幕條目。
進一步的,若s1和s2完全相同則返回「完全相同」,判定結束。若s1和s2不同的部分佔整句話的比例超過預設比例閾值,則認為s1和s2不是相似字幕條目。
需要說明的是,二進位比對為現有且公知的技術在此不再贅述。預設比例閾值是根據實際需求預先設置的,可以是20%,還可以是其他比例數值,例如30%,本發明對此不作限制。
進一步的,在上述步驟103中確定所有備用字幕文件中的所有字幕數組的字幕條目中是否存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同時,具有存在在至少兩個字幕條目與第i個字幕數組中的字幕條目相同的現象,此時上述還包括:
若存在至少兩個字幕條目與第i個字幕數組中的字幕條目相同,則確定第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
也就是說,在備用文件字幕中存在與第i個字幕數組的字幕條目相同的至少兩個字幕條目,可以確定第i個字幕數組的字幕條目的內容沒有錯別字詞,此時可以繼續對應用字幕文件中的下一個字幕數組進行校驗,此時可以將i個的取值更新,即為將i加1,重新執行上述過程,校驗應用字幕文件中的下一個字幕數組,直至將應用字幕文件中的全部字幕數組校驗完成。
進一步的,在上述步驟103中將所述各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目時,具有不存在相似字幕條目的可能,此時上述還包括:
若不存在相似字幕條目,則確定第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
具體的,如果不存在相似字幕條目,或是存在多個不相同的相似字幕條目,則可以認為第i個字幕數組中的字幕條目是翻譯差異或是帶有字幕工作者特色的字幕條目,可以確定第i個字幕數組的字幕條目的內容沒有錯別字詞,此時可以繼續對應用字幕文件中的下一個字幕數組進行校驗,此時可以將i個的取值更新,即為將i加1,重新執行上述過程,校驗應用字幕文件中的下一個字幕數組,直至將應用字幕文件中的全部字幕數組校驗完成。
這樣,基於比較的視頻字幕錯別字詞糾錯的裝置可以根據備用字幕文件,識別出應用字幕文件中的錯別字詞,進而進行糾正,從而可以降低字幕中出現錯別字的現象,提高用戶體驗。
本發明實施例提供了一種基於比較的視頻字幕錯別字詞糾錯的裝置,如圖2所示,包括:
獲取單元201,用於獲取n個字幕文件,並在n個字幕文件中確定出應用字幕文件及備用字幕文件。
其中,n為大於2的整數。應用字幕文件是播放裝置待使用的字幕文件。
劃分單元202,用於將n個字幕文件中的每個字幕文件劃分為至少一個字幕數組。
其中,字幕數組中包含有字幕條目及所述字幕條目對應的播放時間。
處理單元203,用於根據備用字幕文件的至少一個字幕數組,依次對應用字幕文件的至少一個字幕數組進行字幕檢驗;在檢驗出至少一個字幕數組中存在錯別字詞時,糾正錯別字詞。
具體的,處理單元203,具體用於將第i個字幕數組中的字幕條目與所有備用字幕文件中的所有字幕數組的字幕條目進行字符串匹配,確定所有備用字幕文件中的所有字幕數組的字幕條目中是否存在至少兩個字幕條目與所述第i個字幕數組中的字幕條目相同。
其中,i為大於0,不大於應用字幕文件劃分的字幕數組的總個數的整數。
若不存在,則在各個備用字幕文件中確定出各個校驗字幕數組。
其中,校驗字幕數組中的字幕條目對應的播放時間與所述第i個字幕條目對應的播放時間間隔不超過預設閾值。
將各個校驗字幕數組中的字幕條目進行比較,確定是否存在相似字幕條目。
若存在相似字幕條目,且相似字幕條目的數量達到預設相似閾值,則確定第i個字幕數組中的字幕條目存在錯別字詞。
在檢驗出第i個字幕數組中存在錯別字詞時,糾正所述錯別字詞。
更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,處理單元203,具體用於在各個校驗字幕數組中的字幕條目中,確定出待比較的兩個校驗字幕數組中的字幕條目。
將待比較的兩個校驗字幕數組中的字幕條目進行字符串比較。
若待比較的兩個校驗字幕數組中的字幕條目不同,則進行二進位比較,確定字符串不同的部分與待比較的字幕條目間的比例是否超過預設比例閾值。
若未超過預設比例閾值,則確定待比較的兩個校驗字幕數組中的字幕條目為相似字幕條目。
進一步的,處理單元203,還用於若存在至少兩個字幕條目與第i個字幕數組中的字幕條目相同,則確定第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
進一步的,處理單元203,還用於若不存在相似字幕條目,則確定第i個字幕數組中的字幕條目沒有錯別字,更新i的取值,繼續檢驗應用字幕文件的下一個字幕數組。
這樣,基於比較的視頻字幕錯別字詞糾錯的裝置可以根據備用字幕文件,識別出應用字幕文件中的錯別字詞,進而進行糾正,從而可以降低字幕中出現錯別字的現象,提高用戶體驗。
最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。