新四季網

詞法答案類型置信度估計和應用的製作方法

2023-08-04 15:02:31 3

專利名稱:詞法答案類型置信度估計和應用的製作方法
詞法答案類型置信度估計和應用相關申請的交叉引用本發明涉及並要求2010年9月24日提交的共同擁有、共同未決的第61/386,029號美國臨時專利申請的提交日期的優先權,此臨時專利申請的所有公開內容在此全部引入作為參考。
背景技術:
有關問答(QA)的當前問題和方法的介紹可以在基於Web的參考http: //en.wikipedia.0rg/wiki/Question_answering 中找到。一般而言,QA 是一種類型的信息檢索。如果給出文檔集合(例如全球資訊網或本地集合),則系統應能夠檢索以自然語言提出的問題的答案。QA被視為比其它類型信息檢索(例如文檔檢索)需要更複雜的自然語言處理(NLP)技術,並且有時被視為超越搜尋引擎的後續步驟。QA研究嘗試處理各種問題類型,包括:事實、列表、定義、方式、原因、假設、語義約束和跨語言問題。搜索集合有所不同,從小型本地文檔集合到內部組織文檔,到編譯後的新聞專線報導,再到全球資訊網。閉域QA在特定領域(例如,醫學或汽車維修)下處理問題,並且可以被視為更容易的任務,因為NLP系統可以利用通常以本體形式化的領域特定的知識。開域QA處理有關幾乎任何事物的問題,並且只能依賴通用本體和世界知識。另一方面,這些系統通常具有可從其中提取答案的更多數據。備選地,閉域QA可能指這樣一種情況:其中僅接受受限類型的問題,例如詢問描述性信息而不是過程信息的問題。對信息的訪問目前由兩種範式控制。第一,資料庫查詢,其回答有關結構化記錄集合中的內容的問題。第二 ,搜索,其響應於針對非結構化數據(例如,文本或html)集合的查詢而提供文檔連結集合。這種信息查詢範式的一個未解決的主要問題是:沒有能夠根據包括在文檔集合(可以是結構化、非結構化或這兩者)中的信息準確回答實際問題的電腦程式。這種實際問題可以是寬泛的(例如「what are the risks of vitamin K deficiency (維生素K缺乏的危害是什麼?)」),或者是狹窄的(例如「when and where was Hillary Clinton’s fatherborn (希拉蕊.柯林頓的父親出生在何時何地?)」)。面臨的挑戰是理解查詢,查找可能包含答案的適當文檔,以及提取正確答案以提供給用戶。

發明內容
在一個方面,提供了一種進行問答的計算基礎架構和方法,所述問答解決有關針對特定查詢計算錯誤LAT的問題。在一個方面,提供了一種自動估計查詢檢測到的LAT的置信度,以便為候選答案提供更準確的整體得分的系統、方法和電腦程式產品。獲得每個檢測到的LAT的置信度「得分」或值,並且所述系統和方法執行以下操作:將所述置信度得分與LAT和候選答案之間的匹配度組合,以便為所述候選答案提供改進的整體得分。因此,在一個方面,提供了一種用於自動生成問題答案的系統和方法。所述方法包括:確定與輸入查詢關聯的詞法答案類型(LAT);計算輸入查詢LAT的第一得分,其中所述第一得分指示所述查詢LAT的質量;從信息源獲得所述輸入查詢的候選答案;確定所述候選答案的答案類型(AT);比較所述查詢LAT與候選答案AT ;計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分;以及組合所述第一得分與所述第二得分,以便提供指示所述候選答案的質量的總得分,其中處理設備自動執行所述確定查詢LAT、計算所述第一得分和第二得分、獲得候選答案、確定AT、比較以及組合步驟中的一個或多個。在一個方面,計算與所述輸入查詢關聯的所述查詢LAT的第一得分包括:提取描述所確定的查詢LAT的特性集合;以及向所述特性集合應用模型,以便產生表示所確定的查詢LAT的估計準確性的LAT置信度值,所述第一得分包括所述置信度值。在另一方面,提供了一種用於自動生成問題答案的系統,所述系統包括:存儲設備;一個或多個處理器設備,每個處理器設備與所述存儲設備通信,並被配置為執行一種方法,所述方法包括:確定與輸入查詢關聯的詞法答案類型(LAT);計算查詢LAT的第一得分,其中所述第一得分指示所述查詢LAT的質量;從信息源獲得所述輸入查詢的候選答案;確定所述候選答案的答案類型(AT);比較查詢LAT與所述候選答案AT ;計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分;以及組合所述第一得分與所述第二得分,以便提供指示所述候選答案的質量的總得分。在另一方面,提供了一種用於從包括文本字符串的查詢提取特性的方法。所述方法包括:標識與所述查詢關聯的句法模式規則,從定義通用詞法答案類型(LAT)的模式規則集合來標識所述模式規則,所提取的特性中的第一特性包括標識的模式規則;檢查檢測至IJ的詞法答案類型(LAT)的先前實例,並根據所述先前實例計算LAT單詞頻率,所提取的特性中的第二特性包括所計算的查詢單詞是候選答案LAT的頻率;獲得與所述查詢關聯的解析樹數據結構;標識所述解析樹結構中與所述候選答案LAT關聯的單詞之間的語法關係,所提取的特性中的第三特性包括所述候選答案LAT的詞性,並確定所述候選答案LAT單詞是否共同參考所述查詢中識別為LAT的某一其它單詞,所提取的特性中的第四特性包括共同參考信息,其中一個或多個編程的處理器設備執行所述標識句法模式規則、檢查先前實例、獲得所述解析樹數據結構、標識語法關係,以及確定LAT單詞共同參考。


在下面給出的具體實施方式
的上下文中理解本發明的目標、特性和優點。在附圖的上下文中理解具體實施方式
,所述附圖形成本公開的重要部分,其中:圖1示出了其中可以採用本發明的問/答方法的高級邏輯架構10 ;圖2A是用於生成LAT置信度估計得分的LAT置信度估計過程和軟體架構的流程圖;圖2B是示出LAT置信度估計的應用的流程圖;圖3是示出在圖2A的流程圖的步驟160執行的特性(多個)生成的流程圖;圖4示出了為計算查詢LAT置信度得分而遍歷的決策樹模型190的一個實例部分;圖5示出了其中可以採用本發明的問/答方法的另一個高級邏輯架構10 ;圖6示出了用於進行具有延遲類型評估的問答處理的一個實例流程圖;圖7是示出在一個實施例中的在圖6的流程圖的步驟132執行的TyCor得分產生的流程圖;圖8示出了用於提供處理CAS數據結構的一種類型的分析引擎的ΠΜΑ框架實現的一個方面;以及圖9示出了用於在一個實施例中運行圖2A、2B、3-4、6_7中描述的方法步驟的示例性硬體配置。
具體實施例方式共同擁有、共同未決的標題為「SYSTEMAND METHOD FOR PROVIDING QUESTION ANDANSWERS WITH DEFERRED TYPE EVALUATION」(用於提供具有延遲類型評估的問答的系統和方法)的第12/126,642號美國專利申請(在此引入作為參考)描述了一種QA系統和方法,其中自動生成問題的答案。更具體地說,它涉及將從問題確定的詞法類型與從搜索獲得的每個候選答案所關聯的詞法類型相比較。問題請求的詞法答案類型在此稱為「詞法答案類型」或「LAT」。與每個候選答案關聯的詞法類型在此稱為詞法類型或「LT」。一般而言,問答(QA)系統通過查閱可能異構的結構化、半結構化和非結構化信息資源集合,為採用自然語言的給定問題返回準確的答案以及理由。圖1示出了包括典型問答系統10的主要組件及其工作流。問題分析組件2 0接收自然語言問題19 (例如,「Who is the42nd president ofthe United States (誰是美國第42任總統?)」),並分析所述問題以便最低限度地產生預期答案的語義類型(在該實例中,為「president (總統)」),並且可選地產生其它分析結果以供下遊處理。使用核心搜尋引擎的搜索組件30a根據問題分析的輸出29形成查詢,並查閱各種資源,例如全球資訊網41或者一個或多個知識資源(例如,資料庫、知識庫42),以便檢索與回答所述問題相關的文檔、段落、網頁、資料庫元組等。候選答案生成組件30b然後從搜索結果45提取所述問題的可能(候選)答案,然後答案選擇組件50對這些答案進行評分和排序,以便產生具有關聯置信度得分的最終排序答案列表。在具有延遲類型評估的QA系統中,在提取候選答案(B卩,從數據語料庫或網際網路獲得的查詢的候選答案實例)之後,通常執行答案分型(typing),即,確定被搜索候選答案及其詞法類型之間的關聯。將所確定的候選答案類型與所述查詢的計算的詞法答案類型(「LAT」)(由問題分析檢測)相比較,並在確定所述答案的正確性時進行評估。類型強制(TyCor)過程是這樣一個過程:其中根據多種技術將候選答案的答案類型(AT) 「強制」為問題LAT。所述強制過程可以包括將候選答案映射到結構化資源中的實例、獲得其類型並將這些類型映射到LAT。所述「強制」的結果稱為TyCor得分。問題/查詢的LAT是實體的指示對象的類型(即,描述符),所述實體是問題/查詢的有效答案。實際上,LAT是自然語言理解模塊(包括模式集合和/或具有語義解釋器的解析器)檢測到的答案的描述符。因此,問答系統可以採用圖1的查詢分析模塊20中的詞法答案類型(LAT)檢測處理方框200。LAT還表示標識正確答案的語義類型的問題術語。因此,可以通過模式LAT檢測規則在問題中檢測LAT。將實施這些規則,並對其進行編碼,或者機器通過關聯規則學習自動學習它們。自然語言理解模型可以實施這些規則。但是,自然語言處理模塊並非完美無缺,並且會檢測錯誤的LAT。錯誤的LAT可能嚴重降低QA系統的性能,因為很有可能將錯誤類型的答案判斷為正確的答案。針對圖5討論有關QA系統10的進一步細節。證據收集和答案評分功能50是編程的處理組件,其接收(I) 「詞法答案類型」(LAT),例如描述某一概念的文本字符串,以及
(2)「候選答案」輸入(多個),例如描述某一實體的文本字符串。所述編程的處理組件生成輸出,所述輸出包括表示實體在多大程度上是概念的實例的判斷(例如,得分)。如下面的圖6和7中所述,這用作答案評分功能(例如,基於計算的候選答案類型(AT))的一部分。如下面針對圖3所述,在處理輸入查詢以確定LAT以及搜索並獲得一個或多個候選答案之後,針對接收的每個候選答案執行以下步驟:將所述候選答案與資料庫中的實例(包括匹配的實例132a)匹配,這導致生成輸出數據結構;查找(搜索)所述候選答案具有所需LAT的證據,並檢索與知識庫(KB) 132b中的這些實例關聯的LT (多個);以及嘗試將LAT(多個)與LT (多個)匹配(例如,由使用解析器、語義解釋器和/或簡單模式匹配器的匹配功能確定),並產生表示匹配度的得分132c。更具體地說,將候選答案AT和查詢!^吖多個)表示為詞法字符串。得分(稱為「TyCor」(類型強制)得分)的產生包括三個步驟:(1)候選答案與實例匹配,(2)實例與類型關聯提取,以及(3) LAT與類型匹配。得分反映可以將候選答案「強制」為LAT的程度,其中較高的得分指示較好的強制。在一個實施例中,本公開通過提供其它功能以便為候選答案提供更好的質量得分,擴展並補充了在共同未決的第12/126,642號美國專利申請中描述的QA系統和方法的效用。具體地說,QA系統(例如圖1中所示)對檢測到的查詢LAT的置信度執行自動估計,以便產生LAT置信度得分。將所述LAT置信度得分與所述候選答案的LAT和答案類型(AT)之間的匹配度組合,以便 為所述候選答案提供更好的整體得分。換言之,獲得每個檢測到的LAT的置信度得分或值,並且所述系統和方法執行以下操作:將所述LAT置信度得分與TyCor得分組合,以便改進所述候選答案的整體得分。隨之而來的優勢包括:當考慮LAT置信度時,QA系統將會更容忍LAT檢測錯誤,並且候選答案更可能是正確的。針對計算LAT置信度得分,參考圖2A,該圖示出了 LAT置信度估計的過程,所述過程例如可以作為圖1中所示的查詢分析模塊20中的LAT檢測處理方框200的一部分執行,或者與方框200結合執行。在處理中,使用在共同擁有、共同未決的第12/126,642號美國專利申請中描述的過程計算查詢的詞法答案類型(LAT)之後,計算每個LAT的置信度「得分」或置信度值。圖2A具體示出了用於LAT置信度估計的計算機實現的過程150,包括兩個組件:第一特性生成組件160,其提取描述候選答案LAT (例如,問題中的單詞)的特性集合165。實例特性可以包括但不限於:1)應用定義通用LAT的規則集合中的模式規則(「規則ID」),例如,具有描述與名詞匹配的句法模式的id 「thisWhatNoun」的規則,該名詞由諸如「this(這個)」或「these (這些)」之類的限定詞修飾,如「This president did what…(這個總統做什麼…)」中的名詞「president」 ;2)單詞是候選答案LAT的先前頻率;3)用於確定與LAT關聯的語法關係的解析信息,例如,候選答案LAT單詞如何與解析樹的其它部分相關;4)其它語法信息,例如LAT的詞性;以及5)共同參考信息,其確定候選答案LAT單詞是否共同參考識別為LAT的某一其它單詞等。置信度估計處理組件175獲得所述LAT特性集合,並且向所述集合應用模型180,以便產生與LAT關聯的置信度得分199。可以從訓練實例集合手動或自動構造模型180。因此,例如在一個實施例中,可以基於根據Pro丨邏輯程序的處理,在問題中
發現導致LAT的模式。例如,通過以往的訓練數據(即,過去在先前過程中用於手動標識LAT的數據)確定特定標識的模式(多個)的適當權重。在LAT置信度估計期間,例如使用
Prolog 邏輯程序處理LAT周圍的文本,以便確定是否符合任何模式。即,可以在一個實
施例中使用Prolog 邏輯程序執行模式規則匹配。如果符合模式,則提供與標識的模式關
聯的rulelD,並根據該特定模式的先前置信度,為特性指定權重。如果不與任何模式匹配,則沒有與該特性關聯的權重。現在參考圖3描述問題分析階段的特性生成組件160的一個實施例。如圖所示,將查詢LAT輸入到多個模塊並且並行處理,每個模塊執行特定的特性提取功能。所述多個模塊包括:過程162,用於標識來自定義通用LAT的規則集合的模式規則ID ;過程164,用於例如從手動注釋的數據集合中檢查檢測到的LAT單詞的先前實例,並根據先前實例的數量計算LAT單詞頻率;解析樹檢查過程166,用於確定候選答案LAT的詞性(例如,諸如名詞、動詞、形容詞之類的單詞類型);過程168,用於標識與LAT關聯的語法關係,例如,候選答案LAT單詞如何與解析樹的其它部分相關;以及過程170,用於標識共同參考信息,其確定候選答案LAT單詞是否共同參考識別為LAT的某一其它單詞(例如,問題「Thispresident, who was a general during the Revolutionary War...(這位總統,在革命佔戈爭期間曾是將軍))」提供兩個LAT (president和general),並且如果已知單詞「president」是LAT,則單詞「general 」最可能是LAT,以及候選答案輸入LAT單詞「general 」共同參考已知LAT『president」。 處理方框162-170的輸出172提供特性集合,其具有的內容包括但不限於以下一項或多項:布爾值(例如,語法關係,或者指示候選答案LAT是否參考另一個LAT的共同參考);數值特性(例如,作為LAT頻率的單詞);以及類別(例如,諸如名詞之類的詞性)。然後將輸出特性集合輸入到置信度估計模塊175。置信度估計單元175接收所述特性集合,並向所述特性集合應用訓練後的模型180,以便產生估計的LAT置信度得分。在一個實施例中,所述特性集合包括數值列表(例如,1、0、0.234、1、1、…)。可以將類別特性轉變成一組布爾特性(例如,可以將詞性變成is_noun、is_verb、is_adj、is_adv、is_prep)。在一個實施例中,將包含布爾值、類別值和數值的特性集合輸入到先前訓練後的模型。對於布爾值或類別值的情況,例如可以在所述特性集合中將這些值表示為二進位數(例如O或I)。例如,值O或I可以與相應的特性集合布爾值False或True關聯。針對訓練後的模型180,一個實施例是機器學習模型,其被配置為組合不同的特性並對它們進行加權,以便產生用於LAT置信度估計的最終得分。可以使用屬於數學模型的任何機器學習模型,以便確定應該如何對特性集合中的不同特性進行加權。所述數學模型包括每個類型特性的權重,並且如果給出特性集合值的特定輸入,則將值輸入到所述模型,而所述模型產生得分。個體特性值是模型方程(每個變量具有不同權重的函數)的變量,並且應用所述模型,為每個變量提供值以便產生數值。可以從訓練實例集合來手動或自動構造所述模型。在一個實施例中,訓練後的模型180是邏輯回歸模型,在標題為MachineLearning (機器學習)(Tom Mitchell、McGraw Hill,1997年,在此引入作為參考)的參考文獻中描述了有關該模型的說明。在其它實施例中,可以使用支持向量機模型,如在標題為 「Support Vector Machines and other kernel-based learning methods,,(支持向量機和其它基於內核的學習方法)(John Shawe-Taylor和Nello Cristianini,劍橋大學出版社,2000年)的參考文獻中所描述的。此外,可以發現最大熵機器模型,例如在標題為「Amaximum entropy approach to natural language processing,,(用於自然語言處理的最大熵方法)(Adam L.Berger 等人,Computational Linguistics 期刊第 22 卷第 I 期,1996年3月)的參考文獻中描述的。否則,可以實施基於規則或基於決策樹的模型。可以使用的一個實例邏輯回歸模型被示為下面的方程I):
權利要求
1.一種用於自動生成問題答案的計算機實現的方法,所述方法包括以下步驟: 確定與輸入查詢關聯的詞法答案類型(LAT); 計算輸入查詢LAT的第一得分,其中所述第一得分指示所述查詢LAT的質量; 從信息源獲得所述輸入查詢的候選答案; 確定所述候選答案的答案類型(AT); 比較所述查詢LAT與候選答案AT ; 計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分;以及 組合所述第一得分與所述第二得分,以便提供指示所述候選答案的質量的總得分, 其中處理設備自動執行所述確定查詢LAT、計算所述第一得分和第二得分、獲得候選答案、確定AT、比較以及組合步驟中的一個或多個。
2.根據權利要求1的計算機實現的方法,其中計算與所述輸入查詢關聯的所述查詢LAT的第一得分包括: 提取描述所確定的查詢LAT的特性集合;以及 向所述特性集合應用模型,以便產生表示所確定的查詢LAT的估計準確性的LAT置信度值,所述第一得分包括所述置信度值。
3.根據權利要求2的計算機實現的方法,其中所應用的模型是以下項中的一個或多個:邏輯回歸模型,或從先前訓練實例集合手動或自動構造的決策樹模型。
4.根據權利要求2的計算機實現的方法,其中所提取的特性集合中的一個特性包括模式規則,所述提取特性集合包括: 標識與所述查詢關聯的句法模式規則,從定義通用LAT的模式規則集合來標識所述模式規則。
5.根據權利要求2的計算機實現的方法,其中所提取的特性集合中的一個特性包括查詢單詞是候選答案LAT的頻率,所述提取特性集合進一步包括: 檢查檢測到的LAT單詞的先前實例;以及 根據所述先前實例計算LAT單詞頻率。
6.根據權利要求2的計算機實現的方法,其中所提取的特性集合中的一個特性包括所述候選答案LAT的詞性,所述提取特性集合進一步包括: 獲得與所述查詢關聯的解析樹數據結構;以及 遍歷所述解析樹,以便標識與所述候選答案LAT關聯的單詞之間的語法關係。
7.根據權利要求2的計算機實現的方法,其中所提取的特性集合中的一個特性包括共同參考信息,所述提取特性集合進一步包括:確定候選答案LAT單詞是否共同參考所述查詢中識別為LAT的某一其它單詞。
8.根據權利要求2的計算機實現的方法,其中並行提取所提取的特性集合中的一個或多個特性。
9.根據權利要求2的計算機實現的方法,其中計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分包括: 將所述候選答案與語料庫或知識庫中的實例相匹配; 檢索與所述語料庫或所述知識庫中的實例關聯的類型;以及 將所述查詢LAT與所檢索的類型相匹配,以便產生類型強制(TyCor)值,所述第二得分包括所述TyCor值。
10.根據權利要求9的計算機實現的方法,其中查詢最多具有η個候選答案LAT,組合以便提供所述總得分的步驟是根據以下公式的求和: (置信度得分UT1) (TyCorun) + (置信度得分UT2) (TyCorLAT2) +...+ (置信度得分UTn)(TyCorLATn) 其中置信度得分UT1、置信度得分UT2和置信度得分UTn是所產生的置信度值,所述置信度值表示所述查詢的每個所確定的LAT的估計準確性,並且TyCorun、TyCorUT2和TyCorUTn是候選答案對於每個LAT的所產生的類型強制(TyCor)值。
11.一種用於自動生成問題答案的系統,所述系統包括: 存儲設備; 一個或多個處理器設備,每個處理器設備與所述存儲設備通信並被配置為執行一種方法,所述方法包括: 確定與輸入查詢關聯的詞法答案類型(LAT); 計算輸入查詢LAT的第一得分,其中所述第一得分指示所述查詢LAT的質量; 從信息源獲得所述輸入查詢的候選答案; 確定所述候選答案的答案類型(AT); 比較所述查詢LAT與候選答案AT ; 計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分;以及 組合所述第一得分與所述第二得分,以便提供指示所述候選答案的質量的總得分。
12.根據權利要求11的系統,其中用於計算所述查詢LAT的第一得分的所述一個或多個處理器設備被配置為通過以下操作執行所述計算: 提取描述所確定的查詢LAT的特性集合;以及 向所述特性集合應用模型,以便產生表示所確定的查詢LAT的估計準確性的LAT置信度值,所述第一得分包括所述置信度值。
13.根據權利要求12的系統,其中所述一個或多個處理器設備被配置為應用以下項中的一個或多個:邏輯回歸模型,或從先前訓練實例集合手動或自動構造的決策樹模型。
14.根據權利要求12的系統,其中所提取的特性集合中的一個特性包括模式規則,用於提取特性集合的所述一個或多個處理器設備進一步執行:標識與所述查詢關聯的句法模式規則,從定義通用LAT的模式規則集合來標識所述模式規則。
15.根據權利要求12的系統,其中所提取的特性集合中的一個特性包括查詢單詞是候選答案LAT的頻率,用於提取特性集合的所述一個或多個處理器設備進一步執行: 檢查檢測到的LAT單詞的先前實例;以及 根據所述先前實例計算LAT單詞頻率。
16.根據權利要求12的系統,其中所提取的特性集合中的一個特性包括所述候選答案LAT的詞性,用於提取特性集合的所述一個或多個處理器設備進一步執行: 獲得與所述查詢關聯的解析樹數據結構;以及 遍歷所述解析樹,以便 標識與所述候選答案LAT關聯的單詞之間的語法關係。
17.根據權利要求12的系統,其中所提取的特性集合中的一個特性包括共同參考信息,用於提取特性集合的所述一個或多個處理器設備進一步執行:確定候選答案LAT單詞是否共同參考所述查詢中識別為LAT的某一其它單詞。
18.根據權利要求12的系統,其中用於計算第二得分的所述一個或多個處理器設備被配置為通過以下操作執行所述計算: 將所述候選答案與語料庫或知識庫中的實例相匹配; 檢索與所述語料庫或所述知識庫中的實例關聯的類型;以及 將所述查詢LAT與所檢索的類型相匹配,以便產生類型強制(TyCor)值,所述第二得分包括所述TyCor值。
19.根據權利要求18的系統,其中查詢最多具有η個候選答案LAT,用於組合以便提供所述總得分的所述一個或多個處理器設備根據以下公式執行求和: (置信度得分UT1) (TyCorun) + (置信度得分UT2) (TyCorLAT2) +...+ (置信度得分UTn)(TyCorLATn) 其中置信度得*UT1、置信度得分UT2和置信度得分UTn是所產生的表示每個所確定的查詢LAT的估計準確性的置信度值,並且TyCorun、TyCorUT2和TyCorUTn是候選答案對於每個LAT的所產生的類型強制(TyCor)值。
20.一種用於自動生成問題答案的電腦程式產品,所述電腦程式產品包括存儲介質,所述存儲介質可由處理電路讀取並存儲由所述處理電路運行以執行方法的指令,所述方法包括: 確定與輸入查詢關聯的詞法答案類型(LAT); 計算查詢LAT的第一得分,其中所述第一得分指示所述查詢LAT的質量; 從信息源獲得所述輸入查詢的候選答案; 確定所述候選答案的答案類型(AT); 比較所述查詢LAT與候選答案AT ; 計算表示所比較的查詢LAT與所述候選答案AT之間的匹配度的第二得分;以及 組合所述第一得分與所述第二得分,以便提供指示所述候選答案的質量的總得分。
21.根據權利要求20的用於自動生成問題答案的電腦程式產品,其中計算與所述輸入查詢關聯的每個LAT的第一得分包括: 提取描述所計算的查詢LAT的特性集合;以及 向所述特性集合應用模型,以便產生表示所確定的查詢LAT的估計準確性的LAT置信度值,所述第一得分包括所述置信度值。
22.根據權利要求21的用於自動生成問題答案的電腦程式產品,其中: 所提取的特性集合中的第一特性包括模式規則,提取特性集合包括標識與所述查詢關聯的句法模式規則,從定義通用LAT的模式規則集合來標識所述模式規則;以及其中 所提取的特性集合中的第二特性包括查詢單詞是候選答案LAT的頻率,提取特性集合進一步包括檢查檢測到的LAT單詞的先前實例,並根據所述先前實例計算LAT單詞頻率;以及其中 所提取的特性集合中的第三特性包括所述候選答案LAT的詞性,提取特性集合進一步包括獲得與所述查詢關聯的解析樹數據結構;以及遍歷所述解析樹,以便標識與所述候選答案LAT關聯的單詞之間的語法關係;以及其中 所提取的特性集合中的第四特性包括共同參考信息,提取特性集合進一步包括確定候選答案LAT單詞是否共同參考所述查詢中識別為LAT的某一其它單詞。
23.一種用於從包括文本字符串的查詢提取特性的方法,所述方法包括: 標識與所述查詢關聯的句法模式規則,從定義通用詞法答案類型(LAT)的模式規則集合來標識所述模式規則,所提取的特性中的第一特性包括標識的模式規則; 檢查檢測到的詞法答案類型(LAT)的先前實例,並根據所述先前實例計算LAT單詞頻率,所提取的特性中的第二特性包括所計算的查詢單詞是候選答案LAT的頻率; 獲得與所述查詢關聯的解析樹數據結構; 在所述解析樹結構中標識與所述候選答案LAT關聯的單詞之間的語法關係,所提取的特性中的第三特性包括所述候選答案LAT的詞性;以及 確定所述候選答案LAT單詞是否共同參考所述查詢中識別為LAT的某一其它單詞,所提取的特性中的第四特性包括共同參考信息,其中一個或多個編程的處理器設備執行標識句法模式規則、檢查先前實例、獲得所述解析樹數據結構、標識語法關係,以及確定LAT單詞共同參考。
24.根據權利要求23的用於提取特性的方法,其中所述一個或多個編程的處理器設備執行並行提取所述第一、第二 、第三和第四特性中的一個或多個。
25.根據權利要求23的用於提取特性的方法,還包括:向所提取的第一、第二、第三和第四特性應用模型,以便產生表示檢測到的查詢LAT的估計準確性的置信度值。
全文摘要
一種用於自動估計檢測到的LAT的置信度以便為所獲得的候選答案提供更準確的整體得分的系統、方法和電腦程式產品。獲得每個檢測到的LAT的置信度「得分」或值,並且所述系統和方法執行以下操作將所述置信度得分與所述候選答案的LAT和答案類型(AT)之間的匹配度相組合,以便為所述候選答案提供改進的整體得分。
文檔編號G06F17/30GK103221952SQ201180056262
公開日2013年7月24日 申請日期2011年9月21日 優先權日2010年9月24日
發明者J·J·范, D·A·弗魯茨, D·C·貢德克, A·A·卡利安普, A·P·拉利, J·W·默多克四世, W·W·扎德羅茲尼 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀