數據檔案系統中基於語義單元的自動索引和搜索方法及設備的製作方法

2023-05-21 10:02:31 5

專利名稱：數據檔案系統中基於語義單元的自動索引和搜索方法及設備的製作方法
技術領域：
本發明一般地涉及數據檔案系統，更具體地涉及這種系統中使用的改進型索引和搜索方法及設備。
幾份專利和專利申請涉及聲頻數據的聲頻索引和搜索，例如，1997年7月15日頒發給Ellozy等的美國專利號5，649，060；1998年8月11日頒發給Orsolini等的美國專利號5，794，249；以及用序列號09/108，544(代理人文檔號YO998-120)標記的題目為「用於自動索引和搜索的聲頻-視頻檔案及方法」於1998年7月1日提交的美國專利申請，它們的公開供本文參考。這些專利和專利申請中採用的方法都利用詞作為索引和搜索的基本單元。在這些方法中，典型地通過詞對聲頻數據轉錄(通過自動或人工語音識別)、打時間戳記和加索引。
在基於詞的系統中，在能夠開始搜索之前，必須根據已知的詞準備一個詞彙表和一個語言模型。這樣，通過定義，總是存在著系統不知道的詞。遺憾的是，只有利用產生良好語言模型計分的詞，即已知的詞，搜索機制才會工作。
在試圖建立能夠利用系統不知道的條目進行搜索的系統中，已經提出基於音素的索引方法。這種方法包括生成詞的聲轉錄和通過聲的音素對語音段編索引。然而，由於同一詞可以存在不同的音素轉換並且音素識別精度可能是低的例如低於詞識別精度，這些基於音素的索引方法不是很有效的。
在運行於語音和正文中「詞」單元可能具有雙重含義的語言如中文下或者具有很多詞形的語言如斯拉夫語言下的系統中，這些困難甚至更加明顯。
對於大多數歐洲語言，在印刷文本中以及在計算機文本文件中存在詞的邊界。這些邊界是按詞之間的空格呈現的。但是，對於大多數亞洲語言，包括例如中文、日文、朝鮮文、泰文和越南文，在印刷形式下以及計算機文本文件中都不存在這樣的詞邊界。從而，不能對這些語言施加基於詞的索引和搜索方法。用於這些語言的基於音素的索引和搜索方法具有和上面提到的相類似的問題。
從而，需要用來索引和搜索聲頻數據等的方法和設備，其使這些以及其它缺點和限制為最小和/或消除這些以及其它缺點和限制，並且還可用於數量更多的語言。
本發明採用基於最小語義單元的方法和/設備對聲頻數據等提供改進的索引和搜索。請理解「最小語義單元」定義為語言中所知的其有語義含義的小單元，最好是最小單元。可使用的語義單元的例子是音節或詞素。本發明的方法可用於現有方法難以適應的語言例如亞洲語言中。
應理解「詞素」是語言中常見的和有含義的最小語義單元。它可能是詞的一部分或是一個詞，例如在詞「friendliness」中有三個單元即「friend-、「li」和「ness」。在西方語言中，自由詞素和約束(bound)詞素是不同的。自由詞素可以是一個可獨立使用的詞，例如「friend」。而約束詞素本身不能使用，例如「li」和「ness」。詞素可以是單個音節，一組音節，或附著在一個音節上的一個輔音，例如「man’s shirt」中的「s」。在大多數東亞語言中，由於在印刷文本中或在計算機文件中不存在詞邊界，自由詞素和約束詞素的差別是不明顯的。在這些語言中，和詞相比詞素是語言的更為適當的單元。
另外，應理解，「音節」是一組音素，它由元音或連續音單獨或與輔音或數個輔音組合組成，其代表一個完整的發音或一個發音的複合體，並且還構成詞組成的單元。它可看成是和胸搏動以及和發聲頂點是等同的。若以元音結束音節是開音節，或若以輔音結束則音節是閉音節。在上面的例子，「friend」、「li」和「ness」是三個音節，其中「li」是開音節，而「friend」和「ness」是閉音節。
在許多亞洲語言中存在稱為詞素的語義單元。例如，在許多東亞語言，例如中文、泰文、越南文，中，除一些例外外，幾乎所有詞素都是單音節的。這樣，在這些語言中，詞素和音節的概念是可互換的。
此外，在中文中，每個音節是由一個稱為漢字的字符表示的。字節的數量和漢字的數量是有限的。在現代標準中文口語即普通話中，不同音節的總數量是1，400。在現代標準書面中文中，在中國大陸經常使用的字符的數量是6700個，在臺灣省為13，000個。
從而，在本發明的廣義上，提供用於聲頻數據等的索引和搜索的方法和設備，它們基於最小語義單元，例如音節和/或詞素。以這種方式，用於索引和搜索聲頻數據等的本發明方法最小化和/或消除與現有索引和搜索系統(例如基於詞的系統)相關的缺點和限制。此外，本發明的用於索引和搜索聲頻數據等的發明方法可和更多數量的語言一起使用。
從而，在本發明的用於中文的一種示範實施例中，可設置一個基於字符或漢字的搜尋引擎。在大的文本語料庫上建立的統計語言模型用來執行語音識別。用一個字符或一串字符構成搜索後信息(要搜索的數據)。該搜索機制用文本和目標進行比較。
在本發明的用於中文的另一個示範實施例中，設置一個基於音素音節的搜尋引擎。從大的文本語料庫通過字到音素音節的轉換建立一個基於音素音節的統計語言模型。該語言模型的大小要小得多。用一個音素音節或一串音素音節構成搜索後的信息。
觀察到中文中音節承載著語義信息，我們按如下一般化基於音節的聲頻索引。本發明採用典型地比詞要小並具有唯一聲表達的語義單元。語義單元允許建立代表語義信息的語言模型並且改進基於由語義單元組成的詞彙表的自動語音識別(ASR)的解碼準確性。如所提及，這種用於轉錄聲頻數據、索引和搜索的單元的例子是音節(例如中文中)或詞素(例如斯拉夫語中)。由於字節單元是清晰的並且一種語言中可能的音節的數量是有限的，這種方法可普遍應用於大多數語言。對於這些語言，把單元音節作為搜索的基本構件是更有效的。該方法還解決上面提到的未知的詞的問題，因為採用該方法的系統知道所有的可應用於其所應用的語言中的音節。
例如，支持本發明方法的語言可包括但不限於
a)中文。在標準方言(基於北京方言的官話或普通話)，所允許的聲音節的總數量小於1800個。講話的平均音節率是每秒4-5個音節。
b)朝鮮文。聲音上許可的音節數少於2400個。書面系統完全基於聲音節。講話的平均音節速率是每秒4-5個音節。
c)日文。只有105個許可的聲音節。講話的平均音節速率是每秒6-7個音節。
d)越南文。存在3000個不同的音節。書面系統完全基於聲音節。講話的平均音節速率是每秒4-5個音節。
類似地，具有非常大量的詞形式的語言(例如斯拉夫語中數百萬個詞形式)具有數量相對少的詞素(例如俄語中50，000詞素)。對於這些語言，自動語音識別系統回送聲音節串或詞素串。利用基於聲音節或者詞素的語言模型這可得到實現。要搜索的詞首先譯成音節串。接著對照解碼聲音節資料庫匹配這些音節串。
應理解本發明的方法比起基於詞或基於詞標記的方法更直接和更快。由於音節和詞素數量有限，數據壓縮也更加有效。
從與附圖一起閱讀的下述對本發明的示範實施例的詳細說明中本發明的這些以及其它目的、特性和優點將會變得清晰。
圖1是依據本發明的一個實施例的用於通過音節索引和搜索聲頻記錄的一種設備的方塊圖。
圖2提供依據本發明的一個實施例的搜索查詢和介質的一些例子。
圖3是依據本發明的一個實施例的產生音節語言模型的方塊圖。
圖4A是依據本發明的一個實施例的基於音節的聲頻索引方法的流程圖；圖4B是依據本發明的一個實施例的基於音節的聲頻搜索方法的流程圖；以及圖5是依據本發明的一個實施例的聲頻索引和搜索系統的硬體實現的方塊圖。
下面在示範性基於音節的索引和搜索實現下解釋本發明。然而，應理解，本發明不受限於這種特定的實現。相反，本發明利用語義單元更廣泛地應用於對聲頻數據的索引和搜索，而音節僅是語義單元的一個例子。例如，本發明在任何如下的實施中發現有益的應用，即其中向用戶提供基於聲頻的數據的索引和搜索能力，從而不必擔心在他的查詢向系統輸入不知道的詞。本發明特別上面提到的例如亞洲語言和斯拉夫語言那樣的語言。但是，本發明不限定於和任何特定的語言一起使用。
現參照圖1，圖中示出依據本發明的一個實施例的通過音節對聲頻記錄進行索引和搜索的設備。該設備100按下述方式運行。通過聲記錄器102記錄聲數據。在數據存儲器104中存儲聲頻數據。聲頻數據還被音節語音識別器106處理。在C.J.Chen等的「A ContinuousSpeaker-Independent Putonghua Dictation System」，3rdInternationalConference on Signal Processing Proceeding，pp.821-824中說明一種可由本發明採用的語音識別器的一個例子，該論文的公開從而作為本文的參考。標準語音識別系統，例如上面引用的Chen等人的文章中說明的系統，可修改成利用基於音節的語言模型108提供音節語音識別器的功能，該語言模型108的生成在後面解釋。在給出依據本發明的基於音節的語言模型下以及在這種模型通常要比標準語音識別系統中的基於詞的語言模型簡單的事實下，一般的業內人士理解如何修改標準的語音識別系統以按利用基於音節的語言模型108的音節語音識別器106運行。
應理解在本發明的一個實施例中，音節可以是基於音素的。音素音節反映音節的不同發音。在中文中，在該國的不同地區音素音節不同(儘管文字表達不和地理位置相關)。在本發明的另一個實施例中，音素音節由反映音素以及語調信息的「調素」構成，參見上面引用的Chen等的文章。調素是聲調語言中的語調音素。
以類似於標準語音識別系統利用基於詞的語言模型的方式，音節語音識別器106利用基於音節的語言模型108產生由音節串110構成的解碼文本(即，轉錄)。如後面解釋那樣在單元112對音節文本加以時間戳記，並把音節文本和音節索引一起存儲到音節索引存儲單元114中。音節索引存儲單元114含有和解碼音節數據相關的索引，例如時間戳記。如後面的例子中所解釋的那樣，利用這些時間戳記來響應搜索查詢以在聲頻數據存儲器104中檢索對應的聲頻數據。
例如，在一種優選實施例中，單元114中存儲的索引包含可在數據存儲器104中找到用於某音節的數據的地址。可以理解在由聲記錄器102記錄聲頻數據期間某些音節會出現數次。在單元104中存儲來自記錄器的該數據。單元104中的某索引指向單元104中何處存儲特定的音節。一種簡單的指示何處存儲音節的方法是指示說出該音節的時間。從而，索引可和一組說出該音節的時間相關。這是通過由單元112對音節打上時間戳記實現的。存儲地址上的時間轉換允許檢索單元104中存儲和該音節有關的數據的所有單元。
作為一個簡單例子，假定音節語音識別器106解碼的某句子包含一串與聲頻(存儲在單元104中)句子對齊的音節，這串音節表示成S1、S2、S3、S4、S1、S4、S1、S2、S7、S8、S7。這些音節打上的時間戳記是t1-t2、t3-t4、t5-t6、…、tm-tn。假定聲頻句子用聲頻段表示aud1、aud2、aud3、aud4、aud5、aud6、aud7、aud8、aud9、aud10、aud11。從而，單元114中存儲的索引數據可以為如下S1aud1，aud5，aud6；S2aud2，aud8；S3aud3；S4aud4，aud6；S7aud9，aud11；S8aud10。這意味著音節S1存儲在數據存儲器104中存儲的該聲頻句子的第一、第五和第六個位置(段)上。從而，為了放和S1對應的各段，可轉到數據存儲器104中由該索引指示的各對應單元上。
應理解，儘管時間戳記是對解碼數據編索引的一種方便方法，還可採用任何其它可使用的編索引技術。上面的處理概括地由依據本發明的該特定實施例的數據編索引處理構成。
音節索引存儲單元114和基於音節的搜索部件116連接。該搜索部件可採用任何常規的搜索方法。音節搜索部件116通過輸入部件122接收來自用戶124的輸入查詢118。輸入部件例如可以是下述中的一種鍵盤、自動語音識別(ASR)系統、自動手寫識別(AHR)系統等。在提交給搜索部件之前，該音節查詢可先由查詢處理模塊120處理，如後面解釋那樣。搜索部件116利用音節查詢118確定數據存儲器104中的聲頻段。這可通過使各聲頻段和文本數據對齊來實現。例如，通過時間參數化聲頻數據，再把句中的各音節匹配到聲頻數據中的各時間區段中。上面對編索引操作給出了一個這樣的例子。聲頻數據和文本數據對準的技術是由識別器106實現的。當該識別器解碼語音時，它把各文本部分(例如各音節)和對應的聲頻數據段相聯起來。
這樣，通過確定索引存儲器114中和查詢中的音節對應的索引，可把用戶查詢中的該音節和聲頻存儲器104中存儲的一個或多個聲頻段相關聯或匹配。即，若用戶查詢包含音節S1，則根據上面解釋的索引操作確定聲頻段aud1、aud5、aud6。一旦確定這些聲頻數據段，通過回放/輸出部件126把它們向用戶回放。從而部件126可包括一個回放揚聲器。用戶查詢118可包含幫助定位該搜索的其它信息。
上面的模式是通過音節進行聲頻索引/搜索的簡化例子。即，取決於應用，可實施其它特性，即，還可根據與生成該聲頻數據的人即說話人的各屬性對聲頻數據編索引。這可在索引器和存儲單元128中實現。也就是說，可從聲頻數據中提取和說話人相關的各屬性例如姓名、性別、年齡，並用於索引和存儲所提供的聲頻數據。這些屬性可由人說出(例如，「我的姓名是……」)並由語音識別器解碼，或者通過常規說話人識別技術確定。備擇地，可以用說話人的姓名標記聲頻數據，以增強該系統的聲頻搜索部分。在用序列號09/294，214(代理人文檔號YO998-398)標識的於1999年4月16日歸檔的標題為「用於索引和查詢聲頻檔案的系統和方法」的美國專利申請中討論了用說話人姓名標記聲頻數據，該申請的公開作為本文的參考。
從而，例如，用戶可把某特定音節查詢限制成檢索會議中的某些發言人。如上面所述，還可把所存儲的聲頻數據和提供有關說話人的附加信息的說話人的生物統計(例如，用戶的社會狀態、年齡、性別等)關聯起來，如在用序列號09/371，400(代理人文檔號YO999-227)標識的於1999年8月10日歸檔的標題為「會話數據挖掘」的美國專利中所說明的那樣，該申請的公開作為本文的參考。
還可以用提供一些其它信息的標誌標記所存儲的聲頻數據。這些信息可包括何時生成該聲頻數據。生成它的場所等的信息。該聲頻數據還可以和與該聲頻數據同時記錄的並存儲在數據存儲單元104中的視頻數據關聯。這允許用戶對他在輸入部件122處輸入的聲頻相關查視添加視頻相關查詢。在這種情況下，搜索部件還可實現視頻圖象識別檢索技術。
可理解，根據圖1的設備100可在索引機和存儲單元128中實現這些附加索引特性(例如，說話人生物統計、視頻數據等)中的一個或多個。在聲頻數據和視頻數據都被編索引和存儲的情況下，分層的索引存儲和搜索技術上面提及的用序列號09/108，544(代理人文檔號YO998-120)標識的、於1998年7月1日提交的標題為「用於自動索引和搜索的聲頻/視頻檔案及方法」的美國專利申請中所說明的那樣。在該分層的搜索中，音節變為分層金字塔中的一層。如後面解釋的那樣，圖2描述設備100可實現的這些附加的索引和搜索特性中的一些。
可以以與上面的解釋不同的各種方式向用戶呈現用戶查詢搜索的結果。例如，根據包括著顯示器的回放輸入部件126，用戶可以首先觀看印出的解碼(音節)輸出數據，在觀看整個解碼輸出後用戶可簡單地通過點擊(利用輸入部件122的一部分的滑鼠)文本輸出的相應部分決定他希望回放哪一部分的聲頻數據。在另一個實施例中，用戶還可觀看根據查詢請求通過搜索部件114找到的和聲頻數據相關的視頻數據。
在本發明的另一個實施例中，從用戶查詢所指示的音節開始回放聲頻數據，直到用戶停止聲頻的回放(通過輸入部件)或者直到聲頻段的特定持續時間(如在用戶查詢中規定)期滿。
而且，用戶查詢可由一組詞而不是一組音素音節組成。在這種情況下，利用文本-音素音節變換把詞轉換成一串音節。可按任何常規方式生成這種變換。這種文本-音節變換可採用一個和每個音節、一組可能的音素音節關聯的表。可由查詢處理模塊120實現該變換/表。在搜索模式下，若提供其它數據(例如，產生聲頻數據的地理位置)可以限制與輸入的文本音節相關的音素音節的數量。
用戶查詢還可包括相當長的文本語料庫而不是幾個詞或音節。用戶可具有說出的語音正文(例如，若他自己念出某要記錄成聲頻數據的正文)。在這種情況下，該文本語料庫可變換成一串(音素)音節，並可使用搜索部件114中實現的專用搜索機制以找到和一長串音節匹配的聲頻數據。在前面提及的美國專利5，649，060中說明這種機構。它允許甚至在ASR質量相對低時使聲頻數據和大段基準正文匹配。它利用該大段正文的時間戳記以使基準原本中的少量部分和所存儲的解碼輸出的一些部分匹配。
音素音節編索引使用的方法還可以和其它把詞分割成更小的單元，例如斯拉夫語的詞素，的技術一起使用。
現參照圖2，其中描述依據本發明的搜索查詢和介質的例子。用於搜索202的介質可包含聲頻數據204和視頻數據206二者。該介質分割成用於編索引的多個單元208。可理解可在查詢處理模塊120中完成這種分割。在框210中描述聲頻單元的例子。這種單元可包括文本部分(例如短語、段落、章節、詩、故事)、詞、音節、音素音節、詞素、字符和其它語義單元(例如，斯拉夫語中的詞根)。視頻數據可分割成視頻部分212。這也可在查詢處理模塊120中完成，參見上面引用的用序列號09/108，544(代理人文檔號YO998-120)標識的標題為「用於自動索引和搜索的聲頻/視頻檔案及方法」的美國專利申請。
搜索部件116(和圖1中的相同)響應接收到查詢單元208可使用框214中描述的一個或多個特性以輔助或產生搜索(ⅰ)分層索引(例如指向音節的音素音節、指向詞的音節以及可指向短語的詞)；(ⅱ)用於限制搜索的標誌(例如，位置，說話人姓名，時間階段等)；(ⅲ)幫助索引聲頻數據並把它和文本數據對齊的時間戳記；以及(ⅳ)從一串單元(例如音節)訓練的語言單元模型，以提高把聲頻數據變換成一串單元(例如，音節)的準確性。
搜索系統116還可使用應用到查詢118上的自動邊界標記系統。這用於把用戶輸入分割成詞。回想在一些語言中不利用空格把字符分割成詞。這允許通過詞(不僅僅通過音節)進行搜索。通過單元126向用戶回放找到的聲頻部分(例如，和一串音節或一串詞對應的聲頻)，從而用戶可決定哪部分聲頻是需要的。
如所述，音節可指向別的層次中的數據(例如如圖2的框214中說明那樣)。例如，聲頻可伴有視頻，從而可和聲頻一起向用戶示出該視頻數據(例如，通過單元126)。
可以用逆譜(即表達聲頻的一種有效壓縮形式)表達聲頻數據。可把逆譜轉換成可向用戶播出的聲頻數據。從逆譜中得到的聲頻數據的質量可能是相對低的，但可能適用於某些應用，例如，只是表達所存儲短語的內容。由於和完整聲頻相比逆頻要求較少的存儲容量，從而搜索和回放可被更快地實現。逆頻可指向高質量的聲頻，若用戶需要高質量的輸出可使用該高質量的聲頻。在上面引用的用序列號09/108，544(代理人文檔號YO998-120)標識的標題為「用於自動索引和搜索的聲頻/視頻檔案及方法」的美國專利申請中更詳細地說明這樣的接口。
在另一個實施例中，可以用速記版本(即不是解碼器輸出)表達文本輸出。速記術類似於編碼器，然而可由速記員生成文本數據並且可比解碼器輸出更為準確。若可得到速記員輸出，可通過單元126向用戶124呈現速記員輸出。從而，用戶可指向該速記員輸出中的各個不同的位置，並按聲頻回放所對準的速記員數據。
參照圖3，圖中示出依據本發明的一種實施例的生成音節語言模型的方法的方塊圖。此為可由圖1的話音識別器106使用的音節語言模型108。文本語料庫300用於生成許多音節串302(例如，通過把字符串變換成音節的表)。音節串產生音節計數304。為了生成音素音節306的語言模型，必須知道音節是如何發音的。由於相同的音節可以具有不同的發音，這種數據不能直接從大段文本中提取。因此，需要轉錄和文本300對應的聲頻數據308(框310)。可以手工地或者利用把音素音節對齊到說出的音節串的自動語音識別生成轉錄310。作為轉錄310的一部分生成的音素音節312和音節314接著被用來導出給定某音節下某音素音節的概率分布(框316)。利用音節計數304以及音素音節314的條件分布構建音素音節的語言模型。在給出音節計數304以及音素音節的條件分布下，業內人士理解如何構建音素音節的語言模型306。例如，該過程類似於構建用於類的語言模型(例如，Frederick Jelinek,「Statistical Methods for Speech Recognition」,TheMIT Press,Cambbridge,1998，該書的公開作為本文的參考)或用於詞素的語言模型(例如，1998年11月10日頒發的標題為「用於屈折型語言的統計語言模型」的美國專利號No.5，835，888，該專利的公開作為本文的參考)。
參照圖4A，其示出依據本發明的一種實施例的基於音節的聲頻編索引方法的流程圖。在步驟400，記錄要編索引並要存儲的聲頻數據。在步驟420，把該聲頻數據解碼成由音節(或詞素串構成的譯本。在步驟404，通過對音節(或詞素)打上時間戳記對音節編索引。最後，在步驟406，根據時間戳記索引存儲各音節(或各詞素)。
現參照圖4B的依據本發明的一種實施例的基於音節的聲頻搜索方法的流程圖。應理解，圖4B的搜索方法最好和根據圖4A的編索引方法編索引的數據一起使用。在步驟408，用戶輸入查詢以檢索某些部分的已存儲聲數據。在步驟410處理該查詢。如上面所解釋，這可能包括利用文本-音素音節變換把用戶輸入的詞轉換成音節串。用戶也可能直接輸入音節而不是詞。在步驟412，利用這些音節從存儲器中檢索所希望的聲頻數據段。最後，在步驟414，向用戶回放各聲頻段。
現參照圖5，其中示出用於實現圖1中所示的設備100的一個、多個或所有構件的示範性硬體體系結構。在該實施例中，可通過處理器500、存儲器502和I/O部件504實現設備100。請理解本文中使用的術語「處理器」的意圖是包括任何處理部件，例如包括CPU(中央處理機)的部件。例如，該處理器可能是技術上周知的數位訊號處理器。術語「處理器」還表示一個或多個獨立的處理器。本文中使用的術語「存儲器」的意圖是包括和處理器或CPU關聯的存儲器，例如，RAM、ROM、固定存儲器部件(例如硬碟機)、可拆存儲器部件(例如軟盤)、快速存儲器等。另外，本文中使用的術語「輸入/輸出部件」或「I/O部件」的意圖是一般性地包括用於向處理單元輸入數據和其它信號的一個或多個輸入部件，例如拾音器、鍵盤、滑鼠等，和/或包括用於提供與處理單元相關的結果的一個或多個輸出部件，例如顯示器、揚聲器等。例如，顯示器或揚聲器可向用戶提供系統檢索出的回放信息。相應地，可在一個或多個相關的存儲器部件(例如，ROM、固定或可拆存儲器)中存儲包含著用於實現本文所說明的本發明的方法的計算機軟體，並且當準備好供使用時，可把它部分地或全部地裝入(例如RAM中)並由CPU執行。在任何情況下，可以以各種形式的硬體、軟體或它們的組合實現各圖中示出的各構件，例如，一個或多個帶有關聯存儲器的數位訊號處理器、專用應用集成電路、功能電路、一個或多個適當的帶有關聯存儲器的編程的通用數字計算機等。在給出本文所提供的本發明的原理下，業內人士能設想本發明的各構件的其它實現方式。
雖然本文參照

了本發明的示範實施例，應理解本發明不受限於這樣明確的實施例，在不背離本發明的範圍或精神下業內人士可進行各種其它改變和修改。
權利要求
1．一種用於處理和某特定語言關聯的基於聲頻的數據，該方法包括步驟存儲該基於聲頻的數據；生成該基於聲頻的數據的文本表示，該文本表示以和該基於聲頻的數據對應的一個或多個語義單元為形式；以及對該一個或多個語義單元編索引並存儲該一個或多個編索引的語義單元，以在響應用戶查詢搜索所存儲的基於聲頻的數據時使用。
2．權利要求1的方法，其中語義單元是音節。
3．權利要求2的方法，其中音節是基於音素的音節。
4．權利要求1的方法，其中語義單元是詞素。
5．權利要求1的方法，其中生成步驟包括根據語音識別系統解碼該基於聲頻的數據。
6．權利要求5的方法，其中語音識別系統採用基於語義單元的語言模型。
7．權利要求1的方法，其中編索引步驟包括對該一個或多個語義單元打上時間戳記。
8．權利要求1的方法，其中搜索步驟包括處理用戶請求以生成一個或多個表示該用戶試圖檢索的信息的語義單元；搜索該一個或多個編過索引的語義單元以找到與用戶查詢相關聯的一個或多個語義單元的實質性的匹配；以及利用和用戶查詢關聯的一個或多個語義單元匹配的一個或多個編過索引的語義單元，檢索一個或多個基於聲頻的數據段。
9．權利要求8的方法，其中搜索步驟還包括向用戶展示檢索的數據。
10．權利要求1的方法，其中該特定語言是以亞洲為基的語言。
11．權利要求10的方法，其中該特定語言是中文。
12．權利要求11的方法，其中語義單元是漢字。
13．權利要求1的方法，其中該特定語言是以斯拉夫為基的語言。
14．權利要求1的方法，其中根據說話人的屬性對該一個或多個語義單元編索引。
15．權利要求1的方法，其中至少根據何時產生該基於聲頻的數據和何處產生該基於聲頻的數據中之一對該一個或多個語義單元編索引。
16．權利要求1的方法，還包括存儲和該基於聲頻的數據相關的基於視頻的數據，以在響應用戶查詢搜索所存儲的基於聲頻的數據和基於視頻的數據時使用。
17．權利要求16的方法，其中搜索步驟還包括分層搜索例程。
18．權利要求1的方法，其中生成步驟包括速記式記錄基於聲頻的數據以生成文本表示。
19．一種用於處理和某特定語言相關的基於聲頻的數據的設備，該設備包括至少一個處理器，並運行成(ⅰ)存儲該基於聲頻的數據；(ⅱ)生成該基於聲頻的數據的文本表示，該文本表示以和該基於聲頻的數據對應的一個或多個語義單元為形式；以及(ⅲ)對該一個或多個語義單元編索引並存儲該一個或多個編索引的語義單元，以在響應用戶查詢搜索所存儲的基於聲頻的數據時使用。
20．一種用於處理與某特定語言相關的基於聲頻的數據的基於聲頻數據的索引和檢索系統，該系統包括存儲器，用於存儲基於聲頻的數據；一個基於語義單元的語音識別系統，用於生成基於聲頻的數據的文本表示，該文本表示以和該基於聲頻的數據對應的一個或多個語義單元為形式；一個索引和存儲模塊，其運行上和基於語義單元的語音識別系統及存儲器連接，用於對該一個或多個語義單元編索引並存儲該一個或多個編索引的語義單元；以及一個搜尋引擎，其運行上與索引和存儲模塊以及存儲器連接，用於搜索與用戶查詢相關的一個或多個語義單元相匹配的一個或多個編過索引的語義單元，並且用於根據該一個或多個編過索引的語義單元檢索被存儲的基於聲頻的數據。
全文摘要
用於處理與某特定語言相關的基於聲頻的數據的基於聲頻數據的索引和檢索系統,包括:(i)存儲器,用於存儲基於聲頻的數據;(ii)基於語義單元的語音識別系統,用於生成基於聲頻的數據的文本表示;(iii)索引和存儲模塊,用於對語義單元編索引並存儲該一個或多個編索引的語義單元;以及;(iv)搜尋引擎,用於搜索與用戶查詢相關的語義單元相匹配的編過索引的語義單元,並且用於根據編過索引的語義單元檢索被存儲的基於聲頻的數據。
文檔編號G10L15/00GK1296257SQ0013389
公開日2001年5月23日申請日期2000年11月9日優先權日1999年11月10日
發明者陳成鈞, 迪米特裡·肯奈斯基申請人:國際商業機器公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

數據檔案系統中基於語義單元的自動索引和搜索方法及設備的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法