新四季網

信息檢索系統、方法和程序的製作方法

2023-07-04 17:49:06

專利名稱:信息檢索系統、方法和程序的製作方法
技術領域:
本發明涉及用於檢索對於口頭詢問的回答的信息檢索系統、方法和程序。
背景技術:
通常,提供了多個詢問回答系統,用於來自用戶的口頭詢問,並且顯示這種檢索結果或者通過語音合成來輸出該結果。在該系統中,通常,通過使用預先準備的詢問回答知識(資料庫)來產生回答。在該詢問回答系統中,在輸入的詢問很含糊的情況下,很難產生用戶想獲得的回答。
已經提出了一種設計方案,用於如發生含糊的詢問時則向用戶進行附加詢問,並且從用戶獲得對於該附加詢問的回答,由此消除含糊性。例如,在日本專利申請公開No.2002-63209中,描述了一種信息處理裝置,用於維持其中登記有內容的候選列表;根據從另一設備輸入的檢索條件,計算登記在該候選列表中的內容的相似度;在計算的相似度小於預定閾值的情況下,從候選列表中刪除相應的內容;在保留在候選列表中的內容總數等於或者大於預定數目時,呈現詢問條目給該另一個設備;以及進一步根據從該另一個設備輸入的附加檢索條件計算內容的相似度。
另外,在傳統的系統中,已經進行了詢問回答類型檢索的研究和發展,用於分析文本信息,其中該文本信息是自然語言句子的詢問,以及根據分析結果,從文檔資料庫中檢索所要求的回答。該詢問回答類型檢索不同於通常的文檔檢索之處在於呈現對詢問的回答,而沒有任何在文檔單位呈現上的超出和不足。例如,對於詢問「富士山有多高?」的回答為「3776米」。
通常,為了實現對於口頭詢問的詢問回答,首先,必須藉助於語音識別處理將口頭詢問轉化成文本信息。但是,在用於從文檔資料庫中進行檢索的詢問會答系統中,很難處理發生語音識別錯誤的情況。
在通過自然語言句子的口頭詢問進行文檔檢索的情況中,即使語音識別錯誤包括在該詢問中,也能夠根據正確的識別部分來進行文檔的檢索。但是,在用於從文檔資料庫進行檢索的詢問回答類型檢索中,如果用於估計回答(回答的類型,例如長度和重要)的疑問表達(例如多少米或者多少公斤)的一部分發生識別錯誤,則不能檢索正確的回答。

發明內容
根據本發明的一方面,提供一種信息檢索系統,包括語音識別裝置,用於對口頭詢問進行語音識別,以產生第一文本信息;產生裝置,用於修正所述第一文本信息,以產生作為疑問的第二文本信息,以檢索對於所述詢問的回答;檢索裝置,用於通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。
根據本發明的另一方面,一種信息檢索方法,包括對口頭詢問進行語音識別,以產生第一文本信息;修正所述第一文本信息,以產生作為疑問的第二文本信息,以檢索對於所述詢問的回答;以及通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。


圖1是描述根據本發明第一實施例的信息檢索系統的方框圖;圖2是顯示信息檢索系統的應用實例的視圖;圖3是顯示資料庫檢索處理的流程圖;
圖4是顯示文檔分析處理的流程圖;圖5是用於描述回答候選檢索處理和單詞提取處理的視圖;圖6是用於描述詞素分析處理和以及共現(co-occurrence)關係提取處理的視圖;圖7是顯示存儲在共現信息資料庫中的表格的視圖;圖8是顯示詢問附加處理的流程圖;圖9是描述檢索詞檢測處理和疑問表達檢查處理的視圖;圖10是用於描述檢索詞檢查處理的視圖;圖11是顯示根據第一實施例的檢索結果屏幕的視圖;圖12是顯示根據第一實施例的檢索結果屏幕的視圖;圖13是顯示根據第二實施例存儲在共現信息資料庫中的表格的視圖;以及圖14是顯示根據第二實施例的檢索結果屏幕的視圖。
具體實施例方式
此後,將參考附圖,描述本發明的優選實施例。
第一實施例圖1是描述根據本發明第一實施例的信息檢索系統的方框圖。提供圖1所示的信息檢索系統,作為這樣一種系統,其用於語音識別來自用戶的口頭詢問,以將語音識別的詢問轉換成文本信息,從而根據轉換的文本信息,檢索對詢問的回答,並且將檢索結果提供給用戶。在該信息檢索系統中,通過文檔分析部件101,從包含在專用文檔資料庫10中的文檔數據當中,分析可以產生作為檢索詞的單詞與可以產生作為回答(回答候選)的候選表達之間的共現關係,其中專用文檔資料庫10具有預先登記在其中的用於檢索的若干文檔。然後,文檔分析部件101將關於疑問表達與用於引入回答候選的檢索詞之間共現信息的信息存儲在共現信息資料庫11中。在此所使用的術語「共現關係」表示相鄰的疑問表達同時出現的關係。信息檢索系統通過使用出現在詢問中的單詞,從這些疑問表達和檢索詞當中,檢索對於口頭詢問的回答。
將詳細描述信息檢索系統中的處理操作的流程。在該信息檢索系統中,藉助於語音識別部件102,識別由用戶發出的聲音所產生的詢問句子,並且將這些語音識別的詢問句子轉化成文本信息。將轉化成文本信息的信息提供給詢問修正部件103。詢問修正部件103分析文本信息;從共現信息資料庫11中選擇相應的共現信息;以及通過使用共現信息,將疑問表達添加到該文本信息。詢問修正部件103將包括添加的疑問表達的文本信息提供給檢索部件104。檢索部件104根據來自詢問修正部件103的文本信息和添加的疑問表達,查閱文檔資料庫10,並且從資料庫當中檢索對詢問的回答。另外,檢索部件104將回答提供給控制部件105。在控制部件105的控制下,將回答顯示在顯示部件106上。控制部分105進行從語音識別部件102到顯示部件106的調用,並且根據用戶操作進行控制。
將對於以下內容進行詳細描述參考圖3的信息檢索系統中的整個處理操作;參考圖4到圖6的文檔分析部件101的處理操作;以及參考圖8到圖10的詢問修正部件103的操作處理。另外,將參考圖7詳細描述共現信息資料庫11。
在這種方式下,在該信息檢索系統中,將共現信息添加到作為語音識別結果的文本信息,並且根據共現信息來檢索回答,由此,即使在口頭詢問發生識別錯誤的情況下,也可以檢索正確的回答,使得可以向用戶提供回答。
另外,如圖2所示,在客戶端301(例如通用個人計算機(PC))上可以實現圖1所示的信息檢索系統。此後,將結合圖1和圖2的設置,描述信息檢索系統中執行的處理操作。首先,將信息檢索系統執行的程序安裝在盤206中,並且啟動所述程序。由作為控制部件105的CPU 204來控制圖1所示的每一個處理操作,由此,執行資料庫檢索處理。接下來,圖1所示的語音識別部件102將通過語音輸入設備201(例如麥克風)輸入的口頭輸入轉化成文本信息。響應於使用例如滑鼠的指針設備202的屏上操作,控制部分105控制語音識別處理的開始和結束或者詢問回答處理的啟動。另外,控制部件105促使對應於顯示部件106的顯示設備203(例如顯示單元)來顯示在語音識別部件102、詢問修正部件103和檢索部件104處獲得的結果。同時,在控制部件105控制每個處理操作的情況中,將數據臨時存儲在存儲器205。
另外,可以分配信息檢索系統或者資料庫的處理操作,以將其分布在伺服器302以及客戶端301上,其中伺服器302是經由網絡1連接到它的客戶端301的伺服器計算機。例如,可以分配語音識別部件102,使得其由客戶端301來執行。另外,分配文檔分析部件101、詢問修正部件103、檢索部件104、文檔資料庫10以及共現信息資料庫11,使得它們由伺服器302來執行。另外,可以分配控制部件105和顯示部件106,使得它們由客戶端301和伺服器302共同執行。
例如,使用客戶端301上的Web瀏覽器,通過Java Script(註冊商標)來描述在客戶端301上操作的控制部件105。另一方面,在伺服器302上,使用與JSP(Java Server Pages)兼容的Web伺服器,通過JSP來描述在伺服器302上操作的控制部件105,並且以可以根據Java Script(註冊商標)或者Java(註冊商標)調用的格式,封裝圖1中的每個部件,由此,可以在分布式環境下實現調用它們或者交換數據以及顯示結果等操作。
另外,語音識別部件102藉助於圖2所示的語音輸入設備201來執行口頭輸入的口述(dictation),並且在顯示設備203上顯示作為該口述的結果的文本信息。藉助於商業上可獲得的專用軟體,來外部地控制語音口述處理或者結果顯示處理。語音識別部件103使用這種軟體。
現在,將描述由圖1所示信息檢索系統執行的資料庫檢索處理。在圖3中,首先,將詢問的語音輸入語音識別部件102(步驟S1)。語音識別部件102識別輸入的語音,並且將識別的語音轉化成文本信息(步驟S2)。詢問修正部件103從文本信息中提取共現信息,並且根據共現信息修正文本信息(步驟S3)。檢索部件104根據修正的文本信息從文檔資料庫10中檢索回答,並且提取回答(步驟S4)。檢索部件104將提取的回答提供給控制部件105。控制部件105將提取的回答呈現在顯示部件106上(步驟S5)。
在這種方式下,基於根據共現信息修正的文本信息來檢索回答,由此,即使在詢問的語音輸入發生識別錯誤時,也可以檢索正確的回答,並且將該回答提供給用戶。
現在,將參考圖4到圖6描述使用文檔分析部件101的文檔分析處理。在圖4中,首先,文檔分析部件101檢索可以產生作為對於詢問回答類型檢索的回答的表達(檢索候選)(步驟S10)。接下來,文檔分析部件101在檢索的回答候選之前或者之後以預定的間隔提取預定數量的單詞(步驟S11)。例如,如圖5所示,在實例1的情況中,檢索單位表達,例如,包含在文本信息中的「一個蒸汽盤」中的「一個」的表達(對應於步驟S10),並且在該單詞周圍提取預定的在先和後續單詞(對應於步驟S11)。另外,在實例2中,檢索包含在文本信息中的「將其在盤上加熱5分鐘」中的「分鐘」的單位表達,以及在該單詞周圍提取預定的在先單詞或者後續單詞。可以檢索具有例如長度或者重量的單位的數量表達,包括m(米)、cm(釐米)、g(斤)和kg(公斤)。在這種方式下,通過預先指定單位表達,例如「一個」和「分鐘」或者長度和重量,在圖4的步驟S10和S11中,從文檔中提取這些單位表達之前和之後的預定間隔的預定數量單詞(例如,多個字符)。
現在,如圖4所示,文檔分析部件101將提取的單詞分解成若干詞素,並且分析語音的一部分(步驟S12)。詞素分析是在例如機器翻譯的自然語言處理中通常執行的處理。這樣,在此省略對其詳細描述。接下來,文檔分析部件101根據詞素分析的結果從提取的單詞中提取語音的預定部分(這裡稱為名詞)的單詞(檢索詞),並且經由它的檢索詞和回答候選,來產生在間接共現關係中建立的疑問表達(步驟S13)。文檔分析部件101將檢索詞和疑問表達彼此相關聯地存儲在共現信息資料庫11中(步驟S14)。
例如,如圖6所示,當對提取的單詞「Heat it on the plate for5 minutes(將其在盤上加熱5分鐘)」進行詞素分析時,分析結果是「Heat動詞it代詞on介詞the冠詞plate名詞for介詞5量詞minutes名詞」,以及從詞素當中提取名詞「plate(盤)」和「heat(加熱)」(對應於步驟S12)。在這種情況下,從與提取的單詞中的回答「five minutes(五分鐘)」相結合的表達中,根據利用回答「minutes(分鐘)」的單位的「how many(多少)」,來產生疑問表達「howmany time(多少次)」。
即,在本實施例的情況下,通過將「How many(多少)」和回答的單位(例如,參考圖4的步驟S10的單位表達)相結合來自動產生疑問表達,以及自動產生的疑問表達存儲在共現信息資料庫11中。對於檢索詞和疑問表達之間的關聯,可以準備關聯規則。例如,在常規表達中描述了回答候選的類別,以及將常規表達和疑問表達相互關聯。提出了一種方法,用於檢查回答候選和與它們相互關聯的常規表達,以及將已經成功檢查的與常規表達相關聯的疑問表達與回答候選相關聯。另外,檢索詞和疑問表達彼此關聯,以及共現信息以圖7所示的兩種格式存儲在共現信息資料庫11中,使得雙向關聯地記錄這些工作中的兩個。
現在,描述在共現信息資料庫11中存儲的表格。在圖7所示的表格110中,以兩種格式相互關聯地存儲檢索詞和疑問表達。在第一中格式中,多個檢索詞與一個疑問表達相關聯。在第二中各是中,多個疑問表達與一個檢索詞相關聯。例如,在第一種格式中,檢索詞「盤、蒸汽」相對於疑問表達「多少」來存儲。在第二個格式中,疑問表達「多少、多少分鐘、多少小時等等」相對於檢索詞「盤」來存儲。根據圖6所示的實例,根據提取的檢索詞「盤、烤爐、燻肉」,產生疑問表達「多少分鐘」。這樣,在第一種格式中,檢索詞「盤、烤爐、燻肉」相對於疑問表達「多少分鐘」來存儲,而在第二種格式中,疑問表達「多少分鐘」相對於檢索詞「盤」、「烤爐」和「燻肉」的每一個來存儲。
現在,參考圖8到圖10,描述使用詢問修正部件103的詢問添加處理。在圖8中,首先,詢問修正部件103檢查是否圖7所示的檢索詞包括在文本信息中,以及從圖7所示的共現信息中列出對應於該檢索詞的疑問表達(步驟S20)。詢問修正部件103測量列出的疑問表達和包含在文本信息中的表達之間在單詞上的相似度,並且選擇已經成功地檢查在相似度上等於或者大於預定閾值的疑問表達(步驟S21)。
通過下式獲得單詞的相似度相似度S=1-(d/L)其中,疑問表達的字符數L基於這些單詞兩者的語音符號之間的編輯距離「d」。
對照疑問表達,來檢查整個文本信息,以及包含在文本信息的部分單詞中的疑問表達和具有最大相似度的單詞之間的相似度被定義作為疑問表達和文本信息之間的相似度。這可以通過對照部分單詞檢查疑問表達來實現,所述部分單詞是通過從開始逐個單詞地移動詢問句子以及當檢查處理到達疑問表達的結尾時停止相似度的計算。在這種方式下,上述「d」等於或者小於L,以及相似度S被獲得在值0和1之間。
例如,如圖9所示,提取在文本信息「(Now many cream platesare attached」中包括的檢索詞,並且通過查閱共現信息資料庫11,根據提取的檢索詞「plate」,來列出疑問表達「how many(多少)、howmany minutes(多少分鐘)、how may hours(多少小時)等等」(對應於步驟S20)。接下來,從列出的疑問表達中,首先,比較文本信息和疑問表達之間的語音符號。在這種情況下,「now many」和「how many」、「cream」和「steam」的前面字符是不同的,由此,獲得d=2。因此,因為「how many」和「cream」的長度分別是L=7和L=5,所以相似度S=1-(2/12)=大約0.833。類似地,也計算例如「how many minutes」、「how many hours」的相似度。在該實例中,留下單詞「多少」和「多少小時」。檢查這些疑問表達和共現的steam(蒸汽)、oven(烤爐)。在這種情況下,留下僅僅「steam」(沒有找到具有類似語音符號的單詞),類似地,獲得對於其它疑問表達的相似度,並且以相似度的順序,存儲具有閾值或者更高的上述疑問表達(對應於步驟S21)。
再次參考圖8,當詢問修正部件103找出類似度等於或者大於預定類似度的疑問表達時,根據這些疑問表達,從圖7所示的共現信息中,列出相應的檢索詞。如同疑問表達的情況,詢問修正部件103相互檢查檢索詞和文本信息,以及選擇具有預定或者更高相似度的任何檢索詞(步驟S22)。最後,詢問修正部件103將選擇的疑問表達添加到文本信息的結尾,以及將檢索詞添加到文本信息的開頭(步驟S23)。但是,如果將要添加的疑問表達或者檢索詞開始就包括在表示語音識別結果的文本信息中,則沒有添加單詞。
例如,作為使用詢問修正部件103在文本信息和疑問表達之間檢查的結果,假設留下三個疑問表達「how many、how many minutes、how many hours」。從圖7所示的共現信息中利用文本信息,檢查與這些疑問表達共現的檢索詞「bacon(燻肉)、steam(蒸汽)、oven(烤爐)、steam(蒸汽)、heat(加熱)」。為了清楚起見,作為結果,假設僅僅經由疑問表達「how many、how many minutes」的檢索詞「steam」具有等於或者大於預定閾值的相似度,並且通過利用文本檢查而留下來。詢問修正部件103將獲得的疑問表達添加到文本信息的結尾,並且將檢索詞添加到文本信息的開頭。此時,對於每個疑問表達,添加詢問信息和檢索詞。例如,在疑問表達「how many」的情況下,檢索詞「steam」添加到文本信息開頭以及疑問表達「how many」添加到其結尾。但是,在詢問信息「how many hours」的情況中,詢問信息「how many hours」和檢索詞「steam」沒有共現,這樣,檢索詞「steam」沒有添加到文本信息的開頭。
另外,在通過利用詢問修正部件103進行處理操作之後,檢索部件104查閱具有存儲在其中用於檢索的文本信息的文檔資料庫10,並且根據在詢問修正部件103的處理操作之後獲得的文本信息來檢索回答。在疑問表達包括在文本信息的情況下,執行詢問回答類型檢索。在沒有包括疑問表達的情況下,執行常規的文檔檢索。
在疑問表達包括在文本信息中的情況下,詢問回答類型檢索首先根據疑問表達指定回答的類型。在此所使用的回答的類型是指將要輸出作為回答的表達的類型,例如重要或者長度。接下來,在根據文本信息對文檔資料庫10執行常規的文檔檢索(例如是量空間方法)之後,掃描上面的文檔組作為該檢索的結果,以及提取與上述指定的回答類型相匹配的回答候選的單詞。最後,根據與包含在相同文檔中的選中單詞(包含在文本信息中並且出現在文檔中的單詞)相關的距離(其單位是出現位置的近似的距離,例如字符的數量),來排列提取的回答候選的單詞,以及輸出第一位置的單詞作為回答。參考區域53,描述包含在文檔中的信息,在該文檔中,在圖12所示的檢索結果屏幕上出現回答。從出現在文檔中的選中單詞「steam plate(蒸汽盤)」之前和之後的字符組中,輸出與最接近該「steam plate」的與「how many」有關的單詞「one」,作為回答(除了具有從用於掃描的目標輸入的線的字符組)。
在此時,增加到回答中的內容包括文檔信息(例如文檔ID),其在包括該回答的文檔當中具有用於詢問的文本表達的文檔檢索的最高檢索分值。在用於指定回答的疑問表達沒有包括在文本信息中的情況下,執行常規的文檔檢索,並且提供關於檢索分值最高的文檔的文檔信息。
接下來,描述已經提供了回答等的情況,例如根據第一實施例顯示在顯示設備203上的檢索結果屏幕。圖11所示的檢索結果屏幕60顯示了區域61,其中將顯示關於語音識別結果的文本信息;檢索按鈕62,用於檢索對於口頭詢問的回答;清除按鈕63,用於清除區域61的語音識別結果;區域64,用於以近似度下降的順序顯示包括疑問表達及其回答的文本信息;以及區域66,用於顯示包含在文檔中的信息,在該文檔中,出現從語音識別結果檢索的回答。在區域64中,以近似度下降的順序,顯示具有增加到其上的如圖10所示的疑問表達的文本信息。在此時,當選擇檢索按鈕62時,以建立一個連結的狀態,在區域64的右側顯示每個回答。另外,根據關於顯示在區域61中的語音識別結果的文本信息,在區域66中,顯示包含在檢索回答通常出現的文檔中的信息。即使沒有選擇檢索按鈕62,如果在預定間隔沒有執行發聲,則可以在區域64上顯示通過將疑問表達添加到區域61的語音識別結果所獲得的文本信息及其相關回答。另外,可以在區域66中顯示包含在文檔中的信息,該文檔根據包含在區域61中的文本信息來檢索。
在Web瀏覽器上實現圖11所示的檢索結果屏幕60。通過選擇其中已經建立了顯示在區域64中的連結的回答,顯示其上包括該回答的頁面,同時記錄超連結。例如,當選擇回答結果「one(一個)」(此時已經建立了區域65的連結)時,顯示圖12所示的屏幕。
如此構造檢索結果屏幕60,使得可以識別其中已經將疑問表達正確地添加到文本信息中的情況和其中已經添加了不正確的疑問表達的情況,以及改進檢索結果的功能性。
圖12顯示了在已經選擇了圖11所示的區域65的情況中顯示的檢索結果屏幕。圖12所示的檢索結果屏幕50顯示了區域51,用於顯示關於語音識別結果的文本信息或者包括共現信息的文本信息;區域52,用於顯示檢索結果的回答;以及區域52,用於顯示包含在出現回答的文檔中的信息。在圖11的實例中,在區域53中,顯示對修正作為「steam,Now many cream plates are attached,How many?」的詢問的回答,作為「One(一個)」,以及在區域53中,顯示在其上已經描述了回答的頁面當中具有最高檢索分值的頁面。
在這種方式下,通過將疑問表達和檢索詞添加到被識別作為語音的文本信息中,來進行檢索,由此,即使詢問的語音輸入發生識別錯誤,也可以通過檢索回答而將正確的回答提供給用戶。另外,同時顯示其上已經描述了回答的頁面,這樣,可以檢查與詢問相關的另一信息項,例如,是否對詢問的回答是準確的。
第二實施例
現在,在此描述根據第二是實施例的信息檢索系統。根據第二是實施例的信息檢索系統不同於根據第一實施例的信息檢索系統的地方主要在於在文檔分析部件中101中,通過使用語音識別的下一個候選信息,利用語音識別的第一候選代替存在於下一個候選中的疑問表達候選。即,根據第二是實施例的信息檢索系統與根據第一實施例的信息檢索系統的不同之處在於根據共現信息來修正文本信息的一部分,而沒有添加文本信息,例如疑問表達和檢索詞。
現在,在此描述根據第二是實施例的信息檢索系統的處理操作。根據第二實施例的信息檢索系統具有與根據第一實施例的信息檢索系統相同的結構。首先,藉助於語音識別部件102,識別由用戶發出的聲音引起的詢問句子,然後,將其轉化成文本信息。控制部件105獲取關於來自語音識別部件102的識別結果的信息,並且將其提供給詢問修正部件103。詢問修正部件103獲取與每個單詞有關的下一個候選,所述單詞構造來自語音識別部件102的文本信息。檢索部件104根據詢問修正部件103的結果來檢索回答。沒有必要對於構造文本信息的每個單詞僅僅存儲一個下一個候選,可以存在多個候選。如果疑問表達或者檢索詞從開始就包括在文本信息中,則詢問修正部件103不起作用,以及提供文本信息本身給檢索部件104。另外,在沒有疑問表達或者檢索詞包含在文本信息中並且沒有疑問表達包括在任何下一個候選的情況下,詢問修正部件103也不氣作用,並且提供文本信息本身給檢索部件104。相反,雖然沒有疑問表達包括在文本信息中,但在該疑問表達包括在下一個候選中的情況下,掃描文本信息的下一個候選,並且利用以下一個候選的相應部分代替第一個找到的疑問表達,由此,修正文本信息以及提供修正結果。在根據本發明第二實施例的信息檢索系統中,在圖8的詢問修正處理當中,執行步驟S20的檢測檢索詞、步驟S21的檢查疑問表達、以及步驟S22的檢查檢索詞,以及沒有執行步驟S23的添加疑問表達或者檢索詞。在根據第二實施例的信息檢索系統,掃描通過圖1的語音識別部件102輸出的下一個候選表格,代替步驟S23的添加疑問表達或者檢索詞。如果作為步驟S21的檢查疑問表達或者步驟S22的檢查檢索詞的結果的疑問表達或者檢索詞存在作為下一個候選,則該下一個候選被識別結果的相應部分代替。
在這種方式下,以對用戶來說很自然的方式,修正作為語音識別的文本信息,由此可以很容易地檢索正確的回答。
現在,在此描述由語音識別部件輸出的下一個候選表格。圖13所示的表格120僅僅顯示了與作為語音識別的文本信息的每個單詞有關的下一個候選。例如,相對於單詞「milk(牛奶)」,存儲下一個候選「mill(磨坊)、mild(溫和的)、steam(蒸汽)等等」。在圖9和10所示的情況中,在根據第二實施例的信息檢索系統中,詢問修正部件103將文本信息單詞「milk」修正為「mild」,因為單詞「milk」是已經成功地在下一個候選中檢查的檢索詞「steam」。另外,詢問修正部件103將文本信息單詞「now many」修正為「how many」或者「howmany minutes」,因為單詞「now many」包括在下一個候選中的「howmany」和「how many minutes」。在圖14所示的檢索結果屏幕上,顯示由詢問修正部件103修正的文本信息。
接下來,在此描述根據第二實施例的檢索屏幕。圖14所示的檢索結果屏幕70顯示了區域71,用於顯示關於語音識別結果的文本信息或者包括共現信息的文本信息;區域72,用於以相似度下降的順序顯示包括共現信息的文本信息及其回答;以及區域73,用於顯示文檔的內容,在該文檔中,出現從語音識別結果檢索的回答。比較圖14所示的區域72和圖11所示的區域64,在區域72中,沒有顯示在區域64中顯示的包括疑問表達「how many minutes」的文本信息,因為在第二實施例中,該信息沒有出現在下一個候選中。
正如以上所提及的,共現信息被添加到作為語音識別的文本信息中,以及根據共現信息來檢索回答,由此,即使在詢問語音輸入中發生識別錯誤時,也可以通過檢索正確的回答而將其提供給用戶。
可以通過硬體以及可以通過使用計算機的軟體來實現上述實施例中描述的信息檢索處理操作。即,根據本發明,提供程序,使得計算機執行資料庫檢索處理操作,包括對口頭詢問進行語音識別以產生第一文本信息;修正第一文本信息以產生用於將回答引入給詢問的疑問表達以及第二文本信息,第二文本信息包括疑問表達;以及通過使用第二文本信息檢索文檔資料庫,以提取回答。
根據本發明,即使在詢問的語音輸入中發生識別錯誤的情況下,也可以通過檢索正確的回答而將其提供給用戶。另外,本發明可以減少在開始檢索之後用戶回答所需的時間或者與檢索處理相關聯的成本。
對於本領域所屬技術人員來說,附加的優勢和修正是很容易發生的。因此,本發明在其較寬的方面並不局限於在此顯示和描述的特定細節、代表性設備和示意性實例。因而,可以做出各種修改,而沒有偏離所附權利要求及其等效所定義的總的發明原理的精神和範圍。
權利要求
1.一種信息檢索系統,包括語音識別裝置,用於對口頭詢問進行語音識別,以產生第一文本信息;產生裝置,用於修正所述第一文本信息,以產生作為疑問的第二文本信息,以便檢索對於所述詢問的回答;以及檢索裝置,用於通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。
2.根據權利要求1所述的信息檢索系統,還包括存儲裝置,用於通過使用共現關係,相互關聯地存儲用於檢索回答的疑問表達候選和用於檢索文檔的檢索詞;其中,所述產生裝置通過查閱所述第一文本信息,從所述存儲裝置中選擇作為所述疑問的所述第二文本信息。
3.根據權利要求2所述的信息檢索系統,還包括檢索裝置,用於從所述第一文本信息中檢索一個檢索詞;以及產生裝置,用於從所述第一文本信息中產生包括所述回答中的一個的單詞,作為所述疑問表達候選。
4.根據權利要求2所述的信息檢索系統,其中,所述存儲裝置將一個疑問表達候選與多個檢索詞相關聯地存儲,以及將一個檢索詞與多個疑問表達候選相關聯地存儲。
5.根據權利要求4所述的信息檢索系統,還包括檢索裝置,用於從所述第一文本信息中檢索檢索詞;以及產生裝置,用於從所述第一文本信息中產生包括所述回答中的一個的單詞,作為所述疑問表達候選。
6.根據權利要求2所述的信息檢索系統,其中,所述產生裝置包括檢測裝置,用於從所述第一文本信息中檢測所述檢索詞;選擇裝置,用於從對應於由所述檢測裝置檢測的檢索詞的多個疑問表達候選中選擇疑問表達候選,該疑問表達候選對於包含在所述第一文本信息中的所述單詞的近似度等於或者大於閾值;添加裝置,用於將每個所述選擇的疑問表達候選添加到所述第一文本信息中,由此產生多條所述第二文本信息。
7.根據權利要求1所述的信息檢索系統,還包括顯示裝置,用於一起顯示所述第二文本信息和所述回答。
8.根據權利要求6所述的信息檢索系統,還包括顯示裝置,用於以相似度的降序一起顯示所述多條第二文本信息和所述回答。
9.根據權利要求7所述的信息檢索系統,其中,所述顯示裝置顯示將與文檔數據相連結的所述回答,所述文檔數據包含在包括所述回答的所述資料庫中。
10.根據權利要求1所述的信息檢索系統,還包括存儲裝置,用於相對於構成所述第一文本信息的單詞來存儲語音識別的下一個候選,其中,所述產生裝置通過利用所述下一個候選代替包含在所述第一文本信息中的所述單詞,來產生所述第二文本信息。
11.一種信息檢索系統,包括語音識別器,用於對口頭詢問進行語音識別,以產生第一文本信息;產生器,用於修正所述第一文本信息,以產生作為疑問的第二文本信息,以便檢索對於所述詢問的回答;以及檢索器,用於通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。
12.根據權利要求11所述的信息檢索系統,還包括存儲器,用於通過使用共現關係,相互關聯地存儲用於檢索回答的疑問表達候選和用於檢索文檔的檢索詞;其中,所述產生器通過查閱所述第一文本信息,從所述存儲器中選擇作為所述疑問的所述第二文本信息。
13.根據權利要求12所述的信息檢索系統,還包括檢索器,用於從所述第一文本信息中檢索檢索詞;以及產生器,用於從所述第一文本信息中產生包括所述回答中的一個的單詞,作為所述疑問表達候選。
14.根據權利要求12所述的信息檢索系統,其中,所述存儲器將一個疑問表達候選與多個檢索詞相關聯地存儲,以及將一個檢索詞與多個疑問表達候選相關地存儲。
15.根據權利要求14所述的信息檢索系統,還包括檢索器,用於從所述第一文本信息中檢索檢索詞;以及產生器,用於從所述第一文本信息中產生包括所述回答中的一個的單詞,作為所述疑問表達候選。
16.根據權利要求12所述的信息檢索系統,其中,所述產生器包括檢測器,用於從所述第一文本信息中檢測所述檢索詞;選擇器,用於從對應於由所述檢測器檢測的檢索詞的多個疑問表達候選中選擇疑問表達候選,該疑問表達候選與包含在所述第一文本信息中的所述單詞的相似度等於或者大於閾值;添加器,用於將每個所述選擇的疑問表達候選添加到所述第一文本信息中,由此產生多條所述第二文本信息。
17.根據權利要求11所述的信息檢索系統,還包括顯示器,用於一起顯示所述第二文本信息和所述回答。
18.根據權利要求16所述的信息檢索系統,還包括顯示器,用於按照相似度的降序一起顯示所述多條第二文本信息和所述回答。
19.根據權利要求17所述的信息檢索系統,其中,所述顯示器顯示將與文檔數據相連結的所述回答,所述文檔數據包含在包括所述回答的所述資料庫中。
20.根據權利要求11所述的信息檢索系統,還包括存儲器,用於相對於構成所述第一文本信息的單詞來存儲語音識別的下一個候選其中,所述產生器通過利用所述下一個候選代替包含在所述第一文本信息中的所述單詞,來產生所述第二文本信息。
21.一種信息檢索方法,包括對口頭詢問進行語音識別以產生第一文本信息;修正所述第一文本信息以產生作為疑問的第二文本信息,以檢索對於所述詢問的回答;以及通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。
全文摘要
本發明公開了一種信息檢索系統,包括語音識別裝置,用於對口頭詢問進行語音識別以產生第一文本信息;產生裝置,用於修正所述第一文本信息以產生作為詢問的第二文本信息,以檢索對於所述詢問的回答;以及檢索裝置,用於通過使用所述第二文本信息,從文檔資料庫中檢索所述回答。
文檔編號G06F17/30GK1815471SQ20051010848
公開日2006年8月9日 申請日期2005年9月30日 優先權日2005年1月31日
發明者真鍋俊彥, 筒井秀樹, 浦田耕二, 福井美佳, 羽山寬子 申請人:株式會社東芝

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀