新四季網

基於語言模型的信息檢索和語音識別的製作方法

2023-07-23 08:37:31

專利名稱:基於語言模型的信息檢索和語音識別的製作方法
技術領域:
本發明是關於語音識別和信息檢索的,更具體地講,本發明是關於一種利用信息檢索技術來匹配某種語言模型的語音識別系統以及一種利用語音識別語言模型來檢索相關的文檔的信息檢索技術的。
一般地講,信息檢索是一個從大量的信息存儲中查找和檢索與用戶有關的信息的過程。在執行信息檢索的過程中,檢索出用戶需要的所有信息是重要的(即完整性是重要的),同時限制檢索出的與用戶無關的信息也是重要的(即選擇性也是重要的)。這些方面通常根據查全率(完整性)和精確率(選擇性)來定義。在許多信息檢索系統中,非常有必要在查全率和精確率兩方面都獲得良好的性能。
在目前的一些檢索系統中,能夠被查詢和檢索的信息是非常大的。例如,一些信息檢索系統被設置為在網際網路、數字視頻盤和其它通用的計算機資料庫中搜索信息。例如這些信息檢索系統通常被做成網際網路搜尋引擎和庫目錄搜尋引擎。
許多信息檢索技術是眾所周知的。例如當用戶需要文檔類或與現有文檔的某個集合相似的信息時,在這些技術中,一個用戶輸入查詢通常被表示成要麼是一個明確的由用戶生成的查詢,要麼是一個隱含的查詢。然後,典型的信息檢索系統在龐大的數據存儲中在單詞級或在術語級上搜索文檔。這些文檔中的每一個都被指定了一個關聯(或相似)度,信息檢索系統向用戶提供被搜索的文檔的一定子集,通常該子集具有一個超過某給定的門限的相關度。
目前一些著名的信息檢索技術或方法包括全文本掃描、籤名文件的使用、轉換、矢量建模和聚類以及tf*idf(術語頻率*反相文檔頻率)。在全文本掃描中,布爾函數被用在一個查詢中以確定被搜索的某個文檔是否包含某些詞串,在這種掃描技術中,通常是搜索文檔的每個詞以查看它是否滿足搜索串(也就是該查詢),然後,當發現詞串不匹配時,將搜索串向右邊移動一個位置。該系統已經被適配,可以使用對這個查詢進行預處理的其它方法,例如當發現詞串不匹配時,將搜索串向右邊移動多個位置。
籤名文件的使用涉及到從被檢索的文檔中去除常用的詞,並把不常用的詞變為詞幹。每個被搜索的文檔都產生一個位串(即一個籤名)。各種文檔的這些籤名被順序地存儲在與這些文檔本身相分離的一個文件中。
轉換技術涉及到構造一關鍵詞列表以表示每個文檔。這些關鍵詞存儲在一個索引文件中。對於每個關鍵詞都包含有一個代表合格文檔的指針列表。然後,該查詢會沿著索引進行,並用指針來識別相關的和合格的文檔。
矢量建模和聚類涉及到把相類似的文檔劃分成被稱為簇的組(這種技術也能夠應用於術語而不是文檔中)。為了生成一個簇,把常用的詞去除並把剩餘的詞變成詞幹(這包括前綴和後綴的去除)以形成索引。同義詞一般也被放在一個概念類中,該概念類中的術語可以用頻率、特殊性、相關度等來加權。索引被用來將這些文檔表示為t-維空間中的一個點。然後,這些點被用一個相似性矩陣劃分為多個組,此矩陣通常是通過迭代過程生成的。為了搜索簇,一個查詢被表示為一個t-維矢量並與簇中心進行比較。一個簇至查詢相似性函數被生成並被用來提出相關的文檔。被提出(或被檢索)的那些文檔通常是那些具有超過某一預定義的門限值的相似性值的文檔。
為了獲得更好的性能,在一些信息檢索技術中,語義信息被用來捕獲更多關於信息存儲中每個文檔的信息。在這種系統中,自然語言處理被用來將查詢的語義內容與被檢索的文檔的語義內容進行匹配。語句或詞組被用作對所檢索的文檔進行索引的術語。隱含的語義索引涉及到構成一個術語/文檔矩陣,在該矩陣中,一個指定文檔中的術語出現的頻率被標記在矩陣中。小的奇異值通常被移去而剩餘的術語的頻率矢量則被映射。查詢也被生成術語的頻率矢量,而且根據包含這些文檔的術語頻率矢量的矩陣被映射。為了獲得餘弦相似性測度,這些文檔使用歸一化線性產品進行分類。
使用語義信息的另一類信息檢索技術是神經網絡。實際上,對應於辭典中的每一個概念,構造一個辭典隱含層中的一個節點。然後,利用遍歷激活方法傳遞搜索。
術語頻率*反相文檔頻率(tf*idf)是被用來確定文檔的相關度的另一種技術。首先,在一個查詢中所使用的術語根據該文檔來測量以確定在該文檔中那個術語的頻率。可以肯定,當文檔中的術語的頻率增加時,與該文檔和該術語相關聯的程度也增大。同樣可以肯定,當術語出現在其中的文檔數量增加時,用來區分各文檔的術語的有效性降低了。因此,指定術語的頻率也根據整個數據存儲來測量以確定在所有的文檔中該術語的頻率級。這兩種測量方法被用來確定在被檢索的數據存儲中任意給定的文檔的相關度。
當檢索可訪問的資料庫變得越來越多,以及當這些資料庫變得越來越大時,與信息檢索有關的問題也變得越來越多。換句話說,在檢索過程中,利用較大的和數量較多的資料庫通常難以獲得可接受的超過查全率和精確度的性能。
為了生成一個發言意義上的副本,語音識別系統使用被包含在講稿中的聲音和詞語(或語言)信息的合成體。在語音識別系統中,一個識別器使用的語言信息統稱為一個語言模型。
目前許多語音識別系統使用具有統計特性的語言模型。這些語言模型通常使用已知的技術並依據被提供給語言模型生成器的大量的文本訓練數據來生成。例如,一個N-gram語言模型可以利用已知的例如,Katz技術或二項式後分布補償技術。在使用這些技術的過程中,語言模型估算出詞w(n)服從詞序列w1,w2,…w(n-1)的概率。這些概率值共同組成N-gram語言模型。
有許多已知的方法能夠用來從提供給語言模型生成器的大量文本集合中估算出這些概率值,對本發明來說,使用確切的方法進行操作並不重要。重要的是該語言模型通過允許識別器利用語言中有關的詞序列的似然性、容許性或有意義性等信息,在提高識別過程的精確度和速度上起著重要的作用。此外,捕獲了更多的有關語言的信息的語言模型會產生更快和更精確的語音識別系統。
通常,為了特定的目的,被用來訓練語言模型的龐大的訓練文本集合被專門收集起來並提供給該語言模型生成器。因此,語言模型通常被生成來滿足某些廣泛的使用類別。一些使用類別可以是常用的英語語言、辦公通信和體育等。
然而,任何一個具體的用戶的興趣,以及由此被這個具體的用戶使用的語言通常可以是比這些廣泛的語言模型種類更具體的語言。因此,由這種語言模型生成的概率估算值不可能精確地模擬被該用戶使用的實際語言。而且,由於用戶的興趣種類幾乎是不受限制的,因此,很難為每個用戶生成非常具體的語言模型。
一些現有系統已經試圖根據應用的需要來對該語言模型進行適配來解決此問題。在適配期間,由該語言模型分配給詞序列的概率估算值被調整來更緊密地反映用戶的實際語言。被用於適配的文本數據是由用戶指定的。例如,這種文本數據可以由被此用戶指定的文本或者被該用戶在文檔中所生成的文本、被該用戶從文檔中所讀取的文本、或被該用戶在文檔中所存儲的文本構成。然而,為了精確地適配一個語言模型,必須饋送大量的數據。而該用戶所指定的可以使用的數據通常是很少的,不能快速地對該語言模型進行適配,或者不能生成一個有意義的、用戶指定的語言模型。
一種用在能對第一類較小的數據存儲和第二類、較大的數據存儲進行訪問的語音識別系統中的語言模型。該語言模型依據在第一類數據存儲中所包含的信息,通過對信息檢索查詢進行公式化以及對第二類數據存儲執行查詢來適配。從第二類數據存儲中所檢索到的信息被用來適配該語言模型或生成該語言模型。
在一個首選實施例中,通常較小的第一類存儲被認為是目前正在被語音識別系統的用戶所使用的比較有代表性的語言。而通常較大的第二類存儲,從百比分的角度看,很可能代表了用戶較少使用的語言。
此外,語言模型被用來從第二類數據存儲中檢索信息。語言模型依據第一類數據存儲中的信息和依據第二類數據存儲中的信息來建造。在給定第一種語言模型和第二種語言模型的情況下,可以確定在第二類數據存儲中的文檔的複雜度(perplexity)。文檔的相關度依據第一複雜度和第二複雜度來確定。具有超過門限級的相關度的文檔被檢索出來。
在一個實施例中,第一類數據存儲代表由用戶提出的查詢或請求,而第二類數據存儲代表被檢索的庫。


圖1是一個用於實現本發明的一個系統的示例環境的方框圖。
圖2是關於本發明的一個系統的更加詳細的方框圖。
圖3是一個說明一種用於本發明的一個首選實施例中的文檔檢索技術的流程圖。
圖4是一個說明一種用於本發明的另一個首選實施例中的適配語言模型的技術的流程圖。
圖1及與其相關的討論是要對一種適當的計算環境提供一種簡便的、一般的描述,在這個計算環境中本發明得以被實現。儘管未被要求,但是本發明將至少部分地使用計算機可執行的指令例如,被個人計算機所執行的程序模塊,的常用上下文來描述。通常,程序模塊包括用來執行指定的任務或實現指定的抽象數據類型等的常用程序、對象、元素或數據結構等。而且,了解本領域的那些人應知道本發明可以用其它的計算機系統配置來實現,包括手持設備、多處理器系統、基於微處理器的或可編程的用戶電子設備、網絡PC、小型計算機、大型計算機等等。本發明也可以在分布式計算環境中實現,在該環境中,任務由與通信網絡相連接的遠程處理設備來執行。在分布式計算環境中,程序模塊既可以存儲在本地存儲器存儲設備中,又可以存儲在遠程存儲器存儲設備中。
參照圖1,用來實現本發明的一個示範性系統包括一個用於一般用途的計算設備,該計算設備以傳統的個人計算機20的形式來表示,計算機20包括處理單元21(可以包含一個或多個處理器)、系統存儲器21和把包含系統存儲器在內的各種系統元件耦合到處理單元21中的系統總線23。系統總線23可以是包含存儲器總線或存儲控制器、外圍設備總線和使用任意種類的總線結構的本地總線等幾種總線結構的任意一種類型。系統存儲器包括只讀存儲器(ROM)24、一個隨機存取存儲器(RAM)25。例如在啟動過程中,一個包含了在個人計算機20中的兩元件間幫助傳遞信息的基本例行程序的基本輸入/輸出26(BIOS)存儲在ROM 24中。個人計算機20還包括一個讀寫硬碟(未給出)的硬碟驅動器27、一個對可裝卸式磁碟29進行讀寫的磁碟驅動器28、以及一個對可裝卸式光碟31例如CD ROM或其它光媒介等進行讀、寫的光碟驅動器30。硬碟驅動器27、磁碟驅動器28和光碟驅動器30分別地通過硬碟驅動器接口32、磁碟驅動器接口33和光碟驅動器接口34與系統總線23相連。這些驅動器及與其相關的計算機可讀媒介為個人計算機20提供了計算機可讀指令、數據結構、程序模塊和其他數據的非易失性存儲。
儘管在這裡所描述的示範性環境使用的是一個硬碟、一個可裝卸式磁碟29和一個可裝卸光碟31,但是能夠存儲被計算機所詢問的數據的其它類型的計算機可讀媒介,如盒式磁帶、快速存儲卡、數字視頻盤、伯努裡式磁帶盒,隨機存取存儲器(RAM)、只讀存儲器(ROM)等等,也可以使用在示範性操作環境中,這一點應該被精通本領域的人認同。
一些程序模塊可以存儲在包含作業系統35、一個或多個應用程式36、其他程序模塊37和程序數據38的硬碟、磁碟29、光碟31、ROM24或RAM 25中。用戶可以通過輸入設備如鍵盤40和點擊設備42而向個人計算機20輸入命令和信息。其它的輸入設備(未繪出)可能還包括麥克風、操縱杆、遊戲盒、衛星電視天線、掃描儀等等。這些輸入設備和其它輸入設備通常通過與系統總線相連的串行接口46與處理單元21相連,但是可以通過其他接口如並行口、遊戲口或通用串行總線(USB)相連。監視器47或其他類型的顯示設備也被通過一個接口,如視頻適配器48與系統總線23相連。除了監視器47以外,個人計算機典型地可以包括其他的外圍輸出設備(未繪出),如揚聲器和印表機。
個人計算機20利用與一個或多個遠程計算機如遠程計算機49的邏接連接可以在網絡環境中運行。儘管在圖1中僅繪出了一個存儲器存儲設備50,但是遠程計算機49可以是另一臺個人計算機、或一臺伺服器、一個路由器、一臺網絡PC、一臺同類設備或其他網絡節點等,通常包含了上述所描述的與個人計算機20有關的大部分元件或所有元件。圖1中給出的邏輯連接包括區域網(LAN)51和廣域網(WAN)52。這些聯網環境在辦公室、企業級計算機網絡內聯網和Internet中是常見的。
當在LAN聯網環境中使用時,個人計算機10通過網絡接口或適配器53與區域網51相連。當在WAN聯網環境中使用時,個人計算機20通常包括一個數據機54或用來建立與廣域網52如Internet通信的其它設備。數據機54可以是內置的或外置的,它通過串行接口46與系統總線23相連。在一個網絡環境中,被描述的與個人計算機20有關的程序模塊或者其中的各部分可以被存儲在遠程存儲器存儲設備中。應該承認圖中描繪的網絡連接是示範性的,可以使用其它的設備在兩個計算機之間建立一個通信鏈路。
按照本發明的一個方面,圖2是一個描繪了語音識別信息檢索(SR/IR)系統的方框圖。SR/IR系統60包括麥克風62、模-數(A/D)轉換器64、用戶輸入設備66、SRIR處理器模塊68、語言模型(LM)存儲模塊70、主題數據存儲器72、普通數據存儲器74和用戶輸出設備76。
應該注意,整個系統60或系統60的部分能夠在圖1中所描繪的環境下被實現。例如,麥克風62通過一個合適的接口和A/D轉換器64最好能夠提供給個人計算機20作為一個輸入設備。用戶輸入設備66最好能夠被作為鍵盤40、滑鼠42或其它任何合適的輸入設備來加以實現。語言模型存儲模塊70最好存儲在圖1中所描繪的任何合適的存儲器設備中,或者根據圖1所描述的任意一種數據輸入機制被提供給SR/IR模塊68。SR/IR模塊68最好是計算機20中的一個硬體模塊(如一個與CPU 21分開的或在CPU 21中被實現的專用的語音識別或信息檢索處理器),或者是一個被存儲在圖1中所描繪的任意一個信息存儲設備中的並且能夠被CPU 21或任何其它的合適的處理處訪問的軟體模塊。
主題數據存儲72最好也被存儲在圖1中所描繪的任意一個合適的存儲器設備中,或者是能夠被圖1所描繪的系統所訪問。而且,對計算機20而言,主題數據存儲器72不必非得是本地的,但是必須能夠只被計算機20所訪問。例如,主題數據存儲器72可以被部分地或全部地存儲在存儲器50中。一個被創建的指定文檔以及被用戶已建立的其它文檔存儲在主題數據存儲器72中。當然,應該承認,主題數據存儲器72中所包含的數據能夠按照任意一種標準來安排,如主題、文檔類型(例如,信件、備忘錄、電子郵件傳輸、傳真等等)、或任何其它合適的標準。
普通數據存儲74最好是一個較大的資料庫,比主題數據存儲器72大些,並且是能夠被圖1中所描繪的系統所訪問。例如,普通數據存儲可以是通過廣域網52或區域網51來訪問的任何資料庫或資料庫的集合。
此外,輸出設備76在一個首選實施例中可以被實施為監視器47或者印表機,或者任何其它合適的輸出設備來實現。
在任何情況下,為了描述本發明,系統60描繪了一個適合於實現語音識別和信息檢索兩者的系統。然而,應該注意,為了配合下面所描述的有關本發明的各種特徵和各個方面,系統60可以被配置成只用來實現語音識別或者是信息檢索。
適配語言模塊現在描述語系統60用來音識別。在識別語音的過程中,系統60利用聲音信息以一種已知的方式被訓練。系統60利用這種信息去後面去識別通過麥克風62輸入到系統60中的發言。簡而言之,語音按照被用戶提供給麥克風62的聲音信號的形式被輸入到系統60中。麥克風62把聲音信號轉換成模擬電子信號,該模擬電子信號被提供給A/D轉換器64。A/D轉換器64把模擬語音信號轉換成數位訊號序列,該數位訊號序列被提供給SR/IR模塊68。
在一個首選實施例中,SR/IR模塊68包含一個樣本抽取模塊,該樣本抽取模塊是一個對數位訊號執行頻譜分析和對頻譜的每個頻段的幅度值進行計算的傳統的數組處理器。樣本抽取模塊把這些數位訊號分成包含許多數字樣本的幀,這些數字樣本被轉換成一個包含許多頻段的概率值的輸出概率分布的序列。這些輸出概率分布按照已知的方法被處理以獲得可能的代表了由麥克風62所接收到的語音的語音單元(如音素、詞或詞序列)。
在一個首選實施例中,SR/IR模塊68識別出N個可能代表了所給出的N個最大概率的詞或詞序列的詞假設。然後,SR/IR模塊68訪問LM存儲模塊70。在LM存儲模塊70中存儲的語言模型被用來估算某個詞w(n)跟從詞序列w1,w2,…(w(n-1))的概率。然後,為了獲得該語言表達的最大概率的詞或詞序列,這些概率被用來在這N個最大的假設中執行挑選。這個最大概率的假設在用戶輸出設備76中輸出。
存儲在LM存儲模塊70中的語言模型可以初始地由SR/IR模塊68建立,或者利用一種數據輸入機制如圖1中所描述的那些(例如利用一個軟盤)被加載到LM存儲模塊70中。在由SR/IR模塊68建立語言模塊的這些實施例中,一個龐大的訓練文本集被提供給SR/IR模塊68。利用那個訓練文本集,SR/IR模塊68按照一種已知的方法建立語言模型並將其存儲在LM存儲模塊70中。
此外,應該注意到,多個語言模型能夠存儲在LM存儲模塊70中。例如,一些與主題有關的語言模型能夠被存儲在LM存儲模塊70中,並依據用戶的輸入被SR/IR模塊68所檢索,以便利用語音識別系統建立指定文檔的主題。
在任何情況下,希望為了獲得一個被用戶使用的精確地模擬實際語言的更快和更精確的模型,存儲在LM存儲模塊70中的這個指定的語言模型或多個模型應該根據系統60中用戶實際所使用的詞被進行適配。
根據本發明的一個方面,圖3描述了一種用來實現對存儲在LM存儲模塊70中的語言模型進行適配的技術。語言模型首先被系統60所接收。該語言模型既可以主題有關的、或用戶有關的、或應用有關的,也可以簡單地是一個通用的語言模型。正如前面所討論的,語言模型既能夠由系統60建立並被存儲在LM存儲模塊70中,也能夠簡單地通過一種合適的輸入機制加載到LM存儲模塊70中。接收語言模型的步驟由圖3中的方框78所描述。
為了適配語言模型,系統60最好使用存儲在主題數據存儲器72中的信息作為用來適配存儲在模塊70中的語言模型的文本集的一個部分。主題數據存儲器72最好包括一個當前正在使用的文檔,本用戶所使用的其它文檔,或者本用戶讀取、存儲、或本用戶用作識別與當前任務有關的其它文檔。
通常,這種用戶有關或當前主題有關或任務有關的數據量是不足以快速地對存儲在模塊70中的語言模型進行適配,或者不足以生成一個更好的用戶/任務有關的語言模型。因此,系統60利用存儲在主題數據存儲器72中的用戶/任務有關的信息來生成一個基於普通數據存儲74的查詢。而普通數據存儲74可能包含可以通過網際網路(例如,通過WAN52)來訪問的一個或多個資料庫、一個資料館資料庫或者可以通過系統60(如通過LAN 51)來訪問的另一個合適的大型資料庫。基於普通數據存儲74的查詢由圖3中的方框80所描述。
用來生成和執行普通數據存儲74中的查詢這種指定的信息檢索技術就本發明的這個特徵來說,並不是關鍵的技術。而且,任何合適的查詢建造技術和信息檢索技術都能夠使用。只應該注意到,按照本發明的這種技術,執行適配同返回更多相關的文檔的信息檢索技術一同執行會更好。
另外,由信息檢索查詢識別出的這些文檔能被檢索到。這由方框82所描述。在一個首選實施例中,按照圖3中所描繪的虛線84,處理過程簡單地延續到方框86中。在那個首選實施例中,作為基於普通數據存儲74所執行的查詢的結果,存儲在模塊70中的主題語言模型根據存儲在主題數據存儲72中的信息,以及從普通數據存儲74中檢索到的信息進行調整或適配。因此,由語言模型生成的概率估算值被按照包含了主題數據存儲72中的信息和從普通數據存儲74中檢索到的信息這兩者的文本集來進行調整。這就為適配存儲在模塊70中的語言模型提供了一個比簡單地使用存儲在主題數據存儲72中的信息大得多的文本集。由於適配文本集比較大,因此,由語言模型上生成的概率能夠被更好地估算,而且由此生成的語言模型產生一種更好的(即更快和更確切)模擬用戶實際使用的機制。這個適配過程由方框86所描述。
對語言模型進行適配的方法能夠採用某些方法中的任意一種。在一個首選實施例中,只有一個被普通數據存儲74中的查詢所檢索到的文檔的子集用於適配存儲在模塊70中的語言模型。而且,由普通數據存儲器74中的查詢所檢索到的這些文檔能夠與那些已經包含在主題數據存儲72中的文檔進行加權。被檢索到的這些文檔最好少與那些在數據存儲器72中所存儲的文檔進行加權。因此,被檢索到的文檔對模塊70中所存儲的語言模型產生的影響比已被存儲的文檔(或可能與用戶相關的已知的文檔)對模塊70中所存儲的語言模型產生的影響要小。
另外,能夠使用另外一種方法對語言模型進行適配。查詢的結果能夠被用來建立一個與模塊70中所存儲的語言模型組合在一起的語言模型。這種組合方法能夠利用任何已知的平滑技術,如插入、刪除後插入或任何其它合適的技術來被實現。在本實施例中,刪除後插入技術被用來適配模塊70中所存儲的主題語言模型,從普通數據存儲器74中所檢索到的文檔和主題數據存儲72器中所存儲的文檔被按如下進行加權λPr+(1-λ)Pt其中Pr是一個由語言模型根據被檢索到的文檔生成的概率值;Pt是一個由語言模型根據主題數據存儲72中所存儲的文檔所生成的概率值;以及λ是一個刪除後插入型參數,一個最好由實驗方法來確定其數值的參數。如果能確保信息檢索技術是非常精確的,那麼λ會取較大的數值(如0.8或0.9)。然而,當不能確保信息檢索技術是非常精確時,λ可能取一個較小的數值(如0.4或0.5)。然而,λ的任何取值如0.1~0.9可能都是合適的。
在另外一個實施例中,λ的數值隨著查詢數量的增加而遞增。換句話說,當已被執行的查詢數有所增加時,由於主題數據存儲器72中所存儲的信息的數量可能是較大的,因此對語言模型進行適配的文本集可能會變得要麼較大,要麼較精確。因此,由信息檢索技術檢索到的文檔可能會比那些初始就被檢索到的文檔具有更大的相關度。因而,λ的數值能夠隨著查詢的數量的增加而遞增。
此外,還應注意到,有幾種語言模型能夠由所檢索到的數據來建立。例如一種語言模型能夠利用相關度最好的100個文檔來建立,而另外一種語言模型能夠利用相關度最好的200個文檔來建立,如此等等。然後,利用所檢索到的文檔建立的多個語言模型能夠與來自主題數據存儲72中的利用來自通用語言模型中的已知的相關的數據生成的語言模型組合起來。使用刪除後內插技術的語言模型組合能夠被表示為∑λiPi這裡,Pi是由第i個語言模型生成的概率,而0<=λi<=1是用於第i個語言模型的插入權值且∑λi=1。
一旦對語言模型進行適配,那麼已被適配或調整的語言模型被用於語音識別中。這由方框88所描述。
按照本發明的首選的一個方面,系統60被配置為自動地和按間隔地重新生成一個主題有關的查詢,並依據普通數據存儲器74中所存儲的信息管理此查詢。例如,在這個首選實施例中,模塊70中所存儲的語言模型在執行過程中(如當用戶正在使用系統60時)被適配。因此,當系統60剛被加電時,它可以被配置成首先執行查詢和對語言模型進行適配,然後每次建立一個新的文檔時也如此執行。然而,最理想的情況是,系統60被配置成甚至當一個文檔正在被建立時,也生成一個新的查詢和間隔地對該語言模型進行適配。因此,系統60能夠被配置成,要麼根據每個預定義的詞數或每個預定義的時間間隔,要麼根據其它任何標準來重複執行該查詢。
無論什麼標準,都用來設置一個查詢門限。因此,由系統60決定查詢門限是否已經被達到。如果達到,系統60產生另一個查詢並按照方框80所描述的在普通數據存儲中執行該查詢。如果查詢門限還沒有達到,系統60按照正常情況簡單地繼續執行語音識別。這個過程由圖3中的方框90和92所描述。
根據本發明的其它首選特徵,也可以使用其它的信息對模塊70中所存儲的語言模型進行適配。這些特徵由圖3中的方框94、96和98來描述。例如,在一個首選實施例中,當該查詢已經由普通數據存儲器74中的信息執行完後,由該查詢返回的每個文檔的相關度就被確定。此時,這些文檔按照相關度進行排序。這由方框94所描述。然後,被返回的一個文檔子集(相關度超過關聯門限值的那些文檔)被用來適配語言模型。此外,按照方框96所描述的,被返回的這些文檔能夠根據相關度進行加權。然後,這些文檔按照所加的權重被用來對模塊70中所存儲的語言模型進行適配。
在本發明的另一個首選實施例中,也可以使用其它信息對該語言模型進行調整,例如,系統60可以被配置來識別指定的應用,然後用戶利用它來準備一個文檔。例如,如果用戶是在執行字處理應用中,那麼該用戶可以產生一個比該用戶是在進行E-mail應用中更加正式的文檔。系統60能夠被配置來識別這種應用,並且也可以在利用普通數據存儲器72中所包含的信息生成查詢的過程中使用該信息,以便查找到較正式的文檔(即有較正式的詞模式和詞序列的文檔),或者直接地對由該查詢所檢索到的較正規的文檔而不是所檢索到的不太正規的文檔進行更大的加權。另外,如果該用戶不再使用備忘錄模式,並由此正在生成一個內部備忘錄,那麼系統60能夠被配置來在利用普通數據存儲器74中所存儲的信息生成查詢的過程中,只對來自主題數據存儲器中的相類似的備忘錄文件進行檢索。
按照本發明,也可以使用許多其它的參數。例如,在上班期間,用戶可能想描述較為正規的文檔,例如公司信件和備忘錄文件,而在白天或晚上較晚的時候,用戶可能想生成不很正規的文檔,例如個人信件。因此,根據被用戶正在建立的文檔的時間,利用對來自主題數據存儲器72中的、被建立在大致相同的時間上的文檔進行檢索,系統60能夠被配置來生成該查詢。系統60也能夠被配置來簡單地對根據查詢所檢索到的相類似的文檔進行比其它文檔更大的加權。
也應該注意到,有時可以不考慮該用戶是否正在使用系統60的語音識別特性就對存儲在模塊70中的語言模型進行修正。只要系統60被加電,它就可以被配置成能夠重複依託被存儲在普通數據存儲器74中的信息所進行的查詢並能按照任何給定的準則對存儲在模塊70中的語言模型進行修正。
由此可見,本發明的語言模型修正特性可以被用來快速而有效地擴大用戶指定的、可用的用於生成或提高存於模塊70中的語言模型的數據的量。此用戶指定的可用數據首先被用做一個對一個大信息存儲器所進行的查詢,以便識別出與用戶指定的文檔相類似的文本或文檔。由此,用於生成或修正用戶指定的、存於模塊70中的語言模型的文本集合就是一個比實際需要大得多的集合,而語言模型所提供的概率也可被更好地估計出來。另外也應當注意到,創建或修正語言模型所使用的具體的方式,以及執行信息檢索所使用的具體技術對於本發明的這些方面來講都不是關鍵的,任何合適的技術都可以使用。
使用語言模型提高信息的檢索圖4是一個流程圖,它描述了一種技術,系統60能利用此技術,提高信息的檢索。正如上面所述,在截止到某一單詞的單詞序列被給定(即單詞的歷史H被給定)的情況下,n元統計語言模型對該單詞的概率進行估計。n元統計模型只認為在歷史H中的前面n-1個詞會對下一個詞的概率產生影響。例如,bi-gram(或2元)語言模型認為只是前一個詞會對後一個詞產生影響。因此,在n元語言模型中,詞出現的概率可被表示為如下方程式1P(w/H)=P(w/w1,w2,…w(n-1))其中,w是感興趣的詞;w1是詞序列中的詞w前面的第一個詞;w2是詞w前面的第二個詞;以及w(n+1)是詞w前面的位於第n-1個位置的詞。
此外,詞序列的概率依據被給定了歷史的每個詞的概率乘積來確定。因而,詞序列w1…wm的概率可被表示為如下
方程式2P(w1...wm)=i=1N(P(wi/Hi))]]>當討論語言模型時,詞序列的複雜度的概念也是已知的。複雜度是表示語言模型的平均分支係數的一個統計量。換句話說,複雜度是一個在給定的感興趣的詞或詞序列的情況下,被語言模型預測到的可能詞的平均數的統計量。因而,在給定其歷史的情況下,詞序列w1…wm的複雜度能被表示為如下方程式3Perp=exp-1MlogP(wi/Hi)]]>=exp-1M(i=1Mlog(Pwi/Hi))]]>此外,對於一個已給定的語言模型LM,詞序列X的複雜度可表示如下方程式4Perp(x/LM)=exp-1Mi=1Mlog(P(x/LM))]]>因此,在給定語言模型的情況下,詞序列的複雜度近似等於在給定詞序列和它的歷史的情況下,被該語言模型所預測到的詞的平均數。這個數值會隨著所使用的指定的語言模型的預測能力而變化。建造語言模型所使用的特定方法以及所使用的指定的語言模型對本發明而言不是關鍵的部分。
由於本發明涉及到語言模型,為了提高被系統60執行的信息檢索的正確度,本發明的一個方面利用了複雜度的概念。為了實現此功能,系統60首先接收或創建一個通用語言模型,如圖4中方框100所示。於是,系統60能夠用語言模型生成器來配置。在這種情況下,最好給語言模型生成器提供一個訓練數據的龐大的文本集,依據此龐大的文本集,在任何已知的和合適的條件下,語言模型生成器能產生一個通用的語言模型。訓練數據最好是在普通數據存儲74中所存儲的信息(或信息的子集)。此時,該語言模型被存儲在模塊70中。然而,此外,也能夠給系統60提供一個直接地裝載到模塊70中的、傳統的、商業上可使用的通用語言模型。在另一種方法中,系統60從另一個龐大的文本數據集中而不是從普通數據存儲74中的數據中生成通用的語言模型。在首選的實施例中,系統60既可以生成一個三元語言模型,也可以被提供一個三元語言模型。
然後,系統60接收或創建一個與用戶所感興趣的指定的主題相關的主題語言模型。其次,系統60能夠被提供一個商業上可用的主題語言模型,或者能夠生成和訓練一個它自己的主題語言模型。
為了生成一個主題語言模型,用戶最好給系統60提供與指定的感興趣的主題相關的訓練數據。例如,用戶可能有幾篇文章,而且可能希望從普通數據存儲74中所存儲的信息中檢索出其它的類似的文章。也就是說,用戶能夠簡單地提出一個搜索查詢或對系統提出請求。利用相關的文章,系統60也可以生成主題語言模型,也就是說,使用那些相關的文章的一部分文本表示一種利用在普通數據存儲74中所存儲的信息的查詢,而依據此查詢所檢索到的信息與用戶所提供的信息組合在一起被用來生成該主題語言模型。在另一個首選實施例中,當用來生成主題語言模型的訓練數據不足夠多時,先使用這些不足的數據生成主題語言模型,然後與通用語言模型組合在一起獲得新的主題語言模型。組合技術對本發明而言不是關鍵的部分,該技術能夠使用平滑技術例如插入、刪除後插入或者其它任意合適的技術來實現。接收或創建主題語言模型的過程由圖4中方框102所描述。
在通用語言模型和主題語言模型被系統60生成或接收之後,系統60負責給被認為是處於信息檢索過程中的普通數據存儲74中的每個文檔(或文檔的一部分)分配一個相似度。為了實現此目的,系統60首先從普通數據存儲74中選取一個文檔。這由方框104所描述。
其次,對於通用語言模型,系統60確定該文檔的複雜度,這由方框106所描述。它可以表示如下
方程式5Perp(doci/GLM)其中,GLM代表通用語言模型;而doci代表被選取的文檔。
然後,針對主題語言模型,系統60確定該文檔的複雜度,這由方框108所描述。它可以表示如下方程式6Perp(doci/TLM)其中,TLM代表主題語言模型。
然後,依據方框106和108中所確定的複雜度,針對被選取的文檔,系統60確定相關度。相關度最好用兩者的複雜度的比值來表示,如下所示方程式7Perp(doci/GLM)Perp(doci/TLM)]]>回想一下,一個文檔(如一個詞序列)的複雜度,在給定的一個指定語言模型的情況下,表示在給定該文檔的情況下該語言模型可能預測到的詞的近似的平均數。因此,如果複雜度的數值偏高,那麼,根據文檔中所使用的術語,用來生成該語言模型的訓練數據還沒有將該語言模型訓練好。因而,在訓練中的文檔不可能與被用來生成該語言型的訓練數據相關聯。然而,如果該文檔的複雜度低,那麼,根據文檔中所出現的術語,用來生成該語言模型的訓練數據可能已經將該語言模型訓練好了,而且,該文檔可能與被用來生成該語言模型的訓練數據相關聯。
因此,在一個首選實施例中,相似度僅能利用主題語言模型來返回。然而,在一個較好的首選實施例中,能夠利用主題語言模型和通用語言模型兩者。其原因為不管訓練中的文檔是否是關聯的文檔,但該文檔中的一些語言結構可能會或多或少地出現一些。希望即使利用主題語言模型的複雜度所獲得的原始相關度偏高,但信息檢索系統會不加區別地對待那些相似的文檔。如果情況是這樣,而且在感興趣的文檔中所使用的語言結構相當少,那麼,由通用語言模型所返回的複雜度值也將是高的。利用通用語言模型和主題語言模型所確定的複雜度比值,系統實際返回一個由基線(通用語言模型)所確定的數值,而該數據要比主題語言模型中直接利用文檔的複雜度所返回的原始數值更有意義。因而,將相關度表示為兩個複雜度的比值可以確保會產生更加精確的相關度。
類似地,不論所感興趣的主題如何,如果在所感興趣的文檔中使用的語言結構是相當普遍的,那麼,由主題語言模型所返回的複雜度數值將是相當低的。儘管該文檔可能與其它文檔不是非常相關的。但是,由通用語言模型所返回的複雜度數值也可能將是非常低的。因此,將相關度表示為兩個複雜度的比值可以確保信息檢索技術會對相關度較高的文檔進行檢索。
依據複雜度確定所選取的文檔的相關度的步驟由方框110所描述。作為兩個複雜度的比值,關聯因子的表達式可以擴展如下方程式8relevancy=exp-1Mi=1Mlog(PG(wi/Hi))exp-1Mi=1Mlog(P(wi/Hi))]]>=exp-1M(i=1MlogPG(wi/Hi)-i=1MlogP(wi/Hi))]]>其中,Pt=對於主題語言模型而言,在給定詞序列的歷史的條件下該詞序列的概率值;以及PG=對於通用語言模型而言,在給定詞序列的歷史的條件下該詞序列的概率值。
一旦相關度已經確定,系統60便判斷該相關度是否滿足相關度門限值。相關度門限值可以通過用戶輸入進行預定義或依據由系統60所檢索到的文檔的數量,或者依據其它的標準進行適配。系統60僅僅判斷該文檔是否具有足夠高的相關度以便將其提供給用戶。這由方框112所描述。
如果該文檔不能滿足相關度門限值,那麼,該文檔被提供給用戶,同時繼續執行方框116的操作。然而,如果該文檔能滿足相關度門限值,那麼,對於該文檔進行檢索並且該文檔或者被存儲在主題數據存儲72中,或由輸出設備76提供給用戶。這由方框114所描述。
然後,系統60判斷是否需要檢查在普通數據存儲74中的其它的文檔。如果需要檢查其它的文檔,那麼處理返回到方框104中,在該方框中選取另一個文檔並確定該文檔的相關度。如果設有更多的文檔需要被檢查,那麼,繼續執行方框118中的處理。這由方框116所描述。
一旦所有的文檔(或者文檔的一個子集)已經檢查完了,系統60便能夠或者將這些文檔提供給用戶並將其存儲起來,或者按照相關度將文檔進行排序。在按照相關度對文檔進行排序的實施例中,系統60按照為每個文檔所確定的相關度直接地將這些文檔進行排序。然後,系統60能夠或者把按照相關度已被排序了的文檔提供給用戶,或者依據此排序直接地提供一個被檢索的文檔的子集。這由方框118所描述。
可以看到,利用這種技術,通用語言模型僅需要依據存儲在普通數據存儲74中的信息或者依據該信息的一些有代表性的樣本被生成一次。另外,當普通數據存儲74中的信息的內容發生變化時,可以間隔地適配通用語言模型。針對由用戶所提供的每個查詢,主題語言模型最好被生成一次。
本發明的一個方面是提供了一種技術,該技術利用信息檢索來提高和適配語音識別過程中所使用的一個或多個語言模型。為了尋找相似的文檔以擴大用來創建或適配語言模型的訓練數據,系統利用已經由用戶所生成的文本的已有的歷史來直接地創建和適配語言模型,並按照普通數據存儲直接地傳輸一個主題有關的查詢。這就提供了一個比過去所使用的粗略的、預先設定好的、與主題有關的語言模型要精確得多的語言模型。基於數據量龐大的數據存儲中的查詢最好也被周期地或間隔地重複執行,以便按照遞增的精確度獲得動態地被適配的語言模型。
本發明的另一個方面是利用語言模型來提高信息檢索技術。系統最好獲得一個通用語言模型和一個主題語言模型(要麼利用上面所描述的技術,要麼利用其它的已知技術)。然後,系統依據由所獲得的語言模型返回的複雜度數值,計算出被檢索到的文檔的相關度。由於語言模型是與上下文相關的模型,因此,為確定文檔的相關度,系統不僅要考慮詞本身,而且要考慮這些詞所出現的上下文。這不僅提高了信息檢索技術的查全率而且也提高了信息檢索技術的精確度,從而對被檢索的文檔中出現的相關信息提供了更加精確的似然(或概率)估算,並由此給信息檢索系統提供了更好的性能。
儘管本發明已結合著首選實施例進行了詳細的描述,精通本領域的人會知道,在不背離本發明的實質和範圍的情況下對本發明在形式和細節上進行適配是可能的。
權利要求
1.一種對用於語音識別系統中的語言模型進行適配的方法,該語音識別系統可以訪問第一類數據存儲器和第二類數據存儲器,其中第二類數據存儲器比第一類數據存儲器的數據量要大,該方法包括依據在第一類數據存儲器中所包含的信息將信息檢索查詢公式化;依據該被公式化的查詢,對第二類數據存儲器執行查詢;依據該查詢從第二類數據存儲器中檢索信息;以及依據被檢索到的信息和第一類數據存儲器中的信息,對該語言模型進行適配。
2.權利要求1的方法還包括當用戶正在使用語音識別系統時,重複執行公式化、查詢、檢索和適配的步驟。
3.權利要求2中的方法,其中當用戶正在使用該語音識別系統時,進行公式化、查詢、檢索和適配的步驟能間隔地執行。
4.權利要求1的方法,其中對一個信息檢索查詢進行公式化的方法包括依據以前被用戶創建的文檔和被存儲在第一類數據存儲器中的文檔來對信息檢索查詢進行公式化。
5.權利要求1的方法,其中對一個信息檢索查詢進行公式化的步驟包括依據在被用戶準備的文檔中所包含的信息來對信息檢索查詢進行公式化。
6.權利要求1的方法,其中對一個信息檢索查詢進行公式化的步驟包括依據與被用戶準備的一類文檔相關的信息來對信息檢索查詢進行公式化。
7.權利要求6的方法,其中對一個信息檢索查詢進行公式化的步驟包括依據一個正在被用戶用來準備該文檔的模板來對信息檢索查詢進行公式化。
8.權利要求6的方法,其中對一個信息檢索查詢進行公式化的步驟包括依據一個正在被用戶用來準備該文檔的應用程式來對信息檢索查詢進行公式化。
9.權利要求6的方法,其中對一個信息檢索查詢進行公式化的步驟包括依據用戶正在準備該文檔的一天中的一段時間來對信息檢索查詢進行公式化。
10.權利要求1的方法,其中對信息執行檢索的步驟包括從第二類信息存儲器中檢索出大量的文檔;以及確定與每一個所被檢索到的文檔相關的相關度。
11.權利要求10的方法,其中對語言模型進行適配的步驟包括依據被檢索到的具有能滿足門限值的相關度的相關的文檔來對語言模型進行適配。
12.權利要求11的方法,其中對語言模型進行適配的步驟包括給每個相關的文檔分配一個權重;以及按照被分配給每個相關的文檔的權重,依據這些相關的文檔來對語言模型進行適配。
13.權利要求1的方法,其中從第二類數據存儲器中檢索信息的步驟包括從第二類數據存儲器中檢索出大量的文檔以及還包括給從第二類數據存儲器中被檢索到的文檔分配比在第一類數據存儲器中的信息較低的權重;以及其中對語言模型進行適配的步驟包括依據在第一類數據存儲器中的信息和被檢索到的、按照在第一類數據存儲器中的信息被加權的文檔來對語言模型進行適配。
14.權利要求1的方法,其中語言模型包括詞序列的概率估算值,以及其中對語言模型的適配的步驟包括依據在第一類數據存儲器中的信息和從第二類數據存儲器中所檢索的信息,對概率估算值進行調整。
15.權利要求12的方法,其中給從第二類數據存儲器中檢索到的文檔分配權重的步驟包括當第二類數據存儲器被查詢的次數增加時,給從第二類數據存儲器中檢索到的文檔分配一個遞增的權重,並至少直至該遞增的權重達到某個權重門限值為止。
16.權利要求1的方法,其中對第二類數據存儲器進行查詢的步驟包括通過全局計算機網絡查詢信息。
17.權利要求1的方法,其中執行適配的步驟包括依據從第一個查詢中所檢索到的信息和在第一類數據存儲器中的信息來構造第一種語言模型。
18.權利要求17的方法,其中執行適配的步驟還包括依據從一個後續的查詢中所檢索到的信息來構造第二種語言模型;以及將第一種語言模型和第二種語言模型組合起來。
19.一種從與第一類數據存儲器中所存儲的信息相關的第二類數據存儲器中檢索信息的方法,其中第二類數據存儲器比第一類數據存儲器中的數據量要大,該方法包括依據在第一類數據存儲器中所存儲的信息來提供第一種語言模型;提供第二種語言模型;在給定第一種語言模型的情況下,確定在第二類數據存儲器中的一個文檔的第一複雜度;在給定第二種語言模型的情況下,確定該文檔的第二複雜度;依據第一複雜度和第二複雜度,確定該文檔的相關度;以及依據此相關度,有選擇地對該文檔進行檢索。
20.權利要求18的方法還包括針對在第二類數據存儲器中的多個文檔,重複執行確定第一複雜度和確定第二複雜度以及確定相關度的步驟;以及從具有能滿足門限級的相關度的多個文檔中檢索出相關的文檔。
21.權利要求19的方法,其中提供第二種語言模型的步驟包括依據在第二類數據存儲器中所存儲的信息來提供第二種語言模型。
22.權利要求19的方法,其中確定相關度的步驟包括確定第一複雜度和第二複雜度,彼此的比值;以及依據該比值,確定相關度。
23.權利要求20的方法,其中對相關的文檔進行檢索的步驟包括按照給每個文檔所確定的相關度,將文檔進行排序。
24.一種從與第一類數據存儲器中所存儲的信息相關的第二類數據存儲器中檢索信息的方法,其中第二類數據存儲器比第一類數據存儲器中的數據量要大,該方法包括依據在第一類數據存儲器中的信息來提供第一種與上下文相關的語言模型;依據在第二類數據存儲器中的信息來提供第二種與上下文相關的語言模型;依據被給定的文檔的第一種語言模型的預測能力和依據被給定的文檔的第二種語言模型的預測能力來確定在第二類數據存儲器中的文檔的相關度;以及如果該相關度滿足相關度門限值,那麼對該文檔進行檢索。
25.權利要求24的方法,其中依據第一種語言模型和第二種語言模型的預測能力來確定文檔的相關度的步驟包括依據被給定的文檔的第一種語言模型的分支係數和依據被給定的文檔的第二種語言模型的分支係數來確定相關度。
26.權利要求24的方法還包括針對在第二種數據存儲器中的多個文檔,重複執行確定相關度的步驟;將所確定的相關度與相關度門限值進行比較;以及對具有能滿足相關度門限值的相關度的文檔進行檢索。
27.權利要求26的方法還包括依據能滿足相關度門限值的一些文檔,對相關度門限值進行適配。
28.權利要求24的方法,其中提供第一種語言模型的步驟包括依據在第一類數據存儲器中的信息,對第二類數據存儲器進行查詢;以及依據在第一類數據存儲器中的信息和依據由該查詢從第二類數據存儲器中所檢索到的信息,構造第一種語言模型。
29.權利要求24的方法,其中提供第一種語言模型的步驟包括依據在第一類數據存儲器中的信息,構造初級語言模型;以及將初級語言模型與第二種語言模型組合起來,獲得第一種語言模型。
30.權利要求24的方法,其中提供第二種語言模型的步驟包括依據在第二類數據存儲器中所存儲的所有信息的子集,構造第二種語言模型。
31.一種從與第一類數據存儲器中所存儲的信息相關的第二類數據存儲器中檢索信息的方法,其中第二類數據存儲器比第一類數據存儲器中的數據量要大,該方法包括依據在第一類數據存儲器中所存儲的信息來提供第一種語言模型;在給定第一種語言模型的情況下,確定在第二類數據存儲器中的一個文檔的第一複雜度;依據第一複雜度,確定該文檔的相關度;針對在第二類數據存儲器中的多個文檔,重複執行確定第一複雜度和確定相關度的步驟;以及從具有能滿足門限級的相關度的多個文檔中檢索出相關的文檔。
32.權利要求31的方法還包括依據在第二類數據存儲器所存儲的信息來提供第二種語言模型;在給定第二種語言模型的情況下,確定該文檔的第二複雜度;其中確定相關度的步驟包括依據第一複雜度和依據第二複雜度來確定該文檔的相關度;以及其中重複執行的步驟包括針對在第二類數據存儲器中的多個文檔,重複執行確定第一複雜度和確定第二複雜度以及確定相關度的步驟。
33.一種識別語音的方法,包括提供第一類數據存儲器;提供第二類數據存儲器,第二類數據存儲器比第一類數據存儲器要大;提供語言模型;依據在第一類數據存儲器中所包含的信息,對信息檢索查詢進行公式化;依據被公式化的查詢,對第二類數據存儲器進行查詢;依據該查詢,從第二類數據存儲器中檢索信息;以及依據被檢索到的信息和在第一類數據存儲器中的信息,對該語言模型進行適配。
34.權利要求33的方法還包括當用戶正在使用該語音識別系統時,間隔地重複執行公式化、查詢、檢索和適配的步驟。
35.權利要求34的方法,其中重複執行的步驟包括依據時間,間隔地重複執行這些步驟。
36.權利要求34的方法,其中重複執行的步驟包括在文檔準備期間,當預定數量的一些詞數已經被識別出來後,用戶正在利用該語音識別系統準備文檔時重複執行這些步驟。
全文摘要
一種語言模型(70)用於一個語音識別系統(60)中,它訪問一個第一類、較小的數據存儲器(72)和一個第二類、較大的數據存儲器(74)。通過公式化表達一個基於包含在上述第一類數據存儲器(72)中的信息的信息檢索查詢和查詢上述第二類數據存儲器(74),可以對語言模型(70)進行適配。從第二類數據存儲器(74)中檢索的信息用來適配該語言模型(70)。並且,語言模型用來從上述第二類數據存貯器(74)中檢索信息。語言模型是基於第一類數據存儲器(72)中的信息和第二類數據存儲器(74)中的信息來構建的。在給定第一個語言模型和第二個語言模型之後,在第二類數據存儲器(74)中的文檔的複雜度就可以被確定了。文檔的相關度是根據上述第一和第二複雜度來確定的。檢索具有超過某一門限水平的相關度測度的文檔。
文檔編號G10L15/18GK1295705SQ99804555
公開日2001年5月16日 申請日期1999年2月9日 優先權日1998年3月30日
發明者米林德·V·邁哈簡, 黃學東 申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀