新四季網

自動檢測和交互顯示來自多模態自然語言源的關於實體、活動和事件的信息的系統和方法

2023-05-30 06:05:26

自動檢測和交互顯示來自多模態自然語言源的關於實體、活動和事件的信息的系統和方法
【專利摘要】提供了一種用於由處理裝置從多個數據源自動提取和組織信息的方法。把包括自動實體檢測的自然語言處理信息提取流水線施加到數據源。通過分析自然語言處理流水線的產物來識別有關檢測的實體的信息。把識別的信息分組到包含等價信息的等價類。創建等價類的至少一個可顯示表示。計算至少一個可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價類組合顯示。
【專利說明】自動檢測和交互顯示來自多模態自然語言源的關於實體、活動和事件的信息的系統和方法
[0001 ] 關於聯邦贊助研發的聲明
[0002]利用政府資助做出了本發明,其受到(由國防部高級研究計劃局(DARPA)授予的)第HR0011-08-C-0110號合同的約束。政府在此發明中有一定權利。
【技術領域】
[0003]本公開涉及信息技術,尤其涉及自然語言處理(NLP)系統。
【背景技術】
[0004]新聞機構、博客、twitter、科學期刊和會議全都產生文本、音頻和視頻形式的極大量的非結構化數據。可以從多種語言的多種模態(例如網際網路文本、音頻和視頻源)收集大量的這種非結構化數據和信息。需要分析信息並生成以下各項的簡潔表示:1)諸如特定實體(比如人,組織,國家)的行動的信息;2)活動(例如總統選舉運動);以及3)事件(例如名人的去世)。目前,可以手動生成這些表示,但是此解決方法不經濟,並且尤其是從多種語言收集信息時它需要有技能的工作人員。這些手動生成的表示一般也不是可伸縮的。

【發明內容】

[0005]本公開的示範性實施例提供了自動提取和組織數據的方法,使用戶能夠交互查看有關實體、活動和事件的信息。
[0006]根據示範性實施例,信息可以從多種模態和多種語言實時地自動提取,並顯示為檢索到的信息的可導航且簡潔的表示形式。
[0007]示範性實施例可採用自然語言處理技術來自動分析來自多種模態和多種語言的多個源的信息,這些源包括但不限於網頁、博客、新聞組、無線電饋送、視頻和電視。
[0008]示範性實施例可使用把外語源翻譯成用戶的語言的自動機器翻譯系統的輸出,以及可使用來自把視頻和音頻饋送轉換成文本的自動語音轉錄系統的輸出。
[0009]示範性實施例可採用包括信息提取工具、問答工具和提煉(distillation)工具的自然語言處理技術來自動分析如上所述生成的文本,並提取可搜索且可概括的信息。系統可執行名稱實體檢測、跨文檔共指消解(co-reference resolution)、關係檢測以及事件檢測和跟蹤。
[0010]示範性實施例可採用自動相關性檢測技術和冗餘減少方法來向用戶提供相關且非冗餘的信息。
[0011]示範性實施例可通過為用戶提供用來指定感興趣的實體、活動或事件(例如:通過鍵入自然語言查詢,通過從自動生成的滿足用戶指定要求的實體(例如,用戶指定的時間段內在數據源中突出記載的實體)的列表中選擇實體,通過瀏覽文章來選擇文本段,或者通過從在指定的時間段內自動檢測的事件/話題的表示來選擇事件或話題)的裝置來把期望的信息顯示為簡潔且可導航的表示形式。[0012]示範性實施例可通過適應性地構建與推斷的用戶意圖最佳匹配的模板來響應於用戶查詢而自動生成頁面(例如,如果用戶選擇作為政治家的人,則系統會檢測此事實,搜索關於該人的選舉運動、公開露面、聲明和公共服務歷史的信息;如果用戶選擇公司,則系統會搜索有關該公司的近期新聞,有關該公司的高級官員的信息,新聞發布稿,等等)。
[0013]根據示範性實施例,如果用戶選擇事件,則系統可以搜索有關該事件的新聞項目、對事件的反應、事件的結果以及相關事件。系統可自動檢測事件中牽涉的實體,例如人、國家、地方政府、公司和組織,並檢索與這些實體有關的相關信息。
[0014]示範性實施例可允許用戶跟蹤在生成的頁面上出現的實體,包括根據可獲得的數據自動生成人的簡歷,以及列出從可獲得的數據自動提取的組織的近期行動。
[0015]示範性實施例可允許使用戶查看出現在頁面上的事件或活動,包括自動建立正在進行的事件中的重要時刻的時間表。
[0016]示範性實施例可允許用戶查看實體和事件之間的聯繫(例如,提供關於公司在事件中的角色的信息,列出個人關於話題的語錄,描述兩個公司間的關係,總結兩人之間的會面或接觸以及可選地檢索所需實體的圖像)。
[0017]根據示範性實施例,提供了一種用於由處理裝置從多個數據源自動提取和組織信息的方法。包括實體的自動檢測的自然語言處理信息提取流水線被施加到數據源。通過分析自然語言處理流水線的產物來識別關於所檢測的實體的信息。識別的信息分組成包含等價信息的等價類。創建等價類的至少一種可顯示表示。計算至少一種可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價類組合表示。
[0018]每個等價類都可包括項的集合。每項都可包括從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範(specification)。
[0019]計算可顯示表示被顯示的順序可以包括隨機計算順序。
[0020]把識別的信息分組成等價類可以包括把各識別的信息分配到單獨的等價類。
[0021]把識別的信息分組成等價類可以包括計算每個等價類的代表性實例,確保不同類的代表性實例相互不是冗餘的,以及確保每個等價類的實例相對於該等價類的代表性實例是冗餘的。
[0022]根據示範性實施例,提供了一種用於由處理裝置處理信息的方法。接收到用戶查詢。根據用戶查詢推斷出用戶查詢意圖,以形成推斷的用戶意圖。通過利用包括文本、音頻和視頻中的至少一個的多種模態的自然處理適應性地構建與推斷的用戶意圖對應的模板,響應於用戶查詢而自動生成頁面。
[0023]當用戶查詢選擇具有政治身份的人時,可搜索該政治身份,可搜索關於選舉運動、公開露面、聲明和公共服務歷史中的至少一個的信息,以及可自動生成響應於用戶查詢的頁面。
[0024]當用戶查詢選擇公司時,可搜索有關該公司的近期新聞、該公司的高級官員的信息和公司的新聞發布稿中的至少一個的信息,以及可自動生成響應於用戶查詢的頁面。
[0025]當用戶查詢選擇事件時,可以搜索有關該事件的新聞項目和對事件的反應中至少一個的信息,以及可自動生成響應於用戶查詢的頁面。
[0026]可識別和搜索事件中的實體和關於這些實體的檢索的相關信息。
[0027]根據示範性實施例,提供了一種由處理裝置從具有多個語言的多種信息模態的文檔語料庫自動提取和組織信息以供顯示給用戶的方法。瀏覽文檔語料庫,以識別和增量地(incrementally)檢索包含音頻/視頻文件的文檔。來自音頻/視頻文件的文本被轉錄,以提供文本表示。外語的文本表示的文本被翻譯。關於實體、活動和事件中的至少一個的所需信息被增量地提取。組織提取的信息。組織好的提取信息被轉換成可展示給用戶的可導航顯示。
[0028]增量地提取所需信息可包括:把自然語言處理流水線施加到各文檔,以遍歷語料庫中檢測的所有實體,以及識別牽涉到選擇的實體的關係表述(mention)和事件表述,其中實體是下面各項的至少一個:物理生命體、物理無生命體、具有專有名稱的事物、具有可度量的物理屬性的事物、法人實體和抽象概念,表述是提到實體的一段文字,關係是兩個實體間的聯繫,關係表述是描述關係的一段文字,以及事件是牽涉一個或多個行動的兩個或更多個實體之間的關係集合。
[0029]組織提取的信息可包括:遍歷語料庫中識別的所有實體,把提取的關於實體的信息分成包含等價信息的所選等價類,遍歷所有等價類,選擇每個等價類中的一項來代表該等價類中的所有項,以及記錄有關該等價類和有關選擇用來生成可導航顯示的代表的信息,其中每個等價類都可包括項的集合,每項都具有從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範。
[0030]把組織好的提取信息轉換成可展示給用戶的可導航顯示可以包括:通過向等價類分配該類中各條信息的最高分數、它的成員的平均分數、它的成員的中值分數和它的成員的分數之和中的至少一個來給信息的各等價類評分,按分數降序排序各等價類,以安排等價類顯示給用戶的順序的優先次序,對每一等價類進行遍歷,構建選擇的實例的可顯示表示,以及把可顯示表示進行組合來生成等價類的可顯示表示。
[0031]可顯示表示可以包括包含用可視化高亮標記的提取信息的段落。
[0032]根據示範性實施例,提供了一種包含可由處理器執行以便交互顯示來自多模態自然語言源的有關實體、活動和事件的信息的指令的非暫時性電腦程式存儲裝置。信息提取模塊包括用於從文本和音頻/視頻下載文檔內容、用於對文檔內容進行分析、用於檢測表述、用於共指(co-reference )、用於跨文檔共指以及用於提取關係的指令代碼。信息收集模塊包括用於從信息提取模塊提取熟人、簡歷和事件介入的指令代碼。信息顯示模塊包括用於顯示來自信息收集模塊的信息的指令代碼。
[0033]信息提取模塊還可包括用於轉錄來自視頻源的音頻和用於把非英語的轉錄音頻翻譯成英語文本的指令代碼。
[0034]信息提取模塊可包括用於把同一實體下的表述聚類以及用於跨文檔連結實體聚類的指令代碼。
[0035]信息收集模塊可包括用於輸入句子和實體以及從該句子提取有關該實體的特定信息的指令代碼。
[0036]信息顯示模塊可包括用於把結果分組成非冗餘的集合、排序各集合、生成每個集合的簡要說明、為每個集合選擇代表性片斷(snippet)、高亮顯示該片斷的包含有關特定選項卡(tab)的信息的部分、構建到其他頁面的導航超級連結以及生成用來圖形化表現選項卡內容的數據的指令代碼。
[0037]根據示範性實施例,提供了一種包含可由處理器執行以便自動提取和組織來自多個數據源的信息的指令的非暫時性電腦程式存儲裝置。提供了用於向數據源施加包括實體的自動檢測的自然語言處理信息提取流水線的指令代碼。提供了用於通過分析自然語言處理流水線的產物來識別有關檢測的實體的信息的指令代碼。提供了用於把識別的信息分組成包含等價信息的等價類的指令代碼。提供了用於建立等價類的至少一個可顯示表示的指令代碼。提供了計算至少一個可顯示表示被顯示的順序的指令代碼。提供了用於生成考慮了所述可顯示表示被顯示的順序的等價類組合顯示的指令代碼。
【專利附圖】

【附圖說明】
[0038]根據下面結合附圖進行的詳細說明,將更清楚地理解示範性實施例,其中:
[0039]圖1示出了根據示範性實施例的操作步驟序列;
[0040]圖2示出了根據圖1的操作步驟的一部分的操作步驟序列;
[0041]圖3示出了根據圖2的操作步驟的一部分的操作步驟序列;
[0042]圖4示出了根據圖1的操作步驟的一部分的操作步驟序列;
[0043]圖5示出了根據圖1的操作步驟的一部分的操作步驟序列;
[0044]圖6示出了根據示範性實施例的示範性實體頁面;
[0045]圖7(a)和7(b)示出了用於新聞廣播應用的示範性實體頁面;以及
[0046]圖8示出了根據示範性實施例的用於執行操作步驟序列的程序存儲裝置和處理器。
【具體實施方式】
[0047]現在將更詳細地提到示範性實施例,在附圖中示出了示範性實施例的例子,其中類似的附圖標記始終指代類似的元件。
[0048]示範性實施例中,術語「文檔」可指不考慮格式的文本文檔、包括流式音頻和視頻的媒體文件以及上面的混合(例如嵌有視頻和音頻流的網頁)。
[0049]示範性實施例中,術語「語料庫」指多媒體文檔的正式或非正式集合,多媒體文檔例如是科學期刊中發表的所有論文或者由講阿拉伯語的國家中的新聞機構發表的所有英語網頁。
[0050]示範性實施例中,術語「實體」可指物理生命體(比如人)、物理無生命體(比如建築物)、有專有名稱的事物(比如珠穆朗瑪峰)、具有可度量的物理屬性的事物(比如,時間點或時間段、公司、鎮、國土)、法人實體(比如國家)和抽象概念(比如度量單位和物理屬性的度量)。
[0051]示範性實施例中,術語「表述」表示提到實體的一段文字。給定大的結構化文檔集,實體可與在該結構化文檔集中出現的所有它的表述的集合相關聯,因此術語實體也可用來表示此集合。
[0052]示範性實施例中,術語「關係」指兩個實體間的聯繫(例如,巴拉克.歐巴馬是美國總統;米歇爾.歐巴馬和巴拉克.歐巴馬結婚了)。關係表述是明確描述關係的一段文字。因此,關係表述涉及到兩個實體表述。
[0053]示範性實施例中,術語「事件」指牽涉一種或多種行動的、兩個或更多個實體之間的關係集合。[0054]圖1示出了可應用於由新聞機構創建的網頁組成的並包含多個語言的多種信息模態的新聞文檔語料庫的一個示範性實施例的概觀。在步驟110中以有條理的自動方式瀏覽(即爬行)多模態語料庫100,其中語料庫中的多模態文檔被識別和增量地檢索。這種爬行可以增量的方式進行,這種情況下,它會僅檢索在此前的爬行操作期間不可獲得的文檔。接著在步驟120,通過轉錄分析包含音頻信息的文檔,例如音頻文件或帶音頻的視頻文件。步驟120後,可獲得所有多模態文檔的文本表示。在翻譯步驟130,外語的文本被翻譯。結果是包含所需語目的文檔以及其源語目中的其原始版本的多模態語料庫的文本表不140。 [0055]在步驟150中增量地分析語料庫的文本表示140,該步驟提取有關實體、活動和事件的所需信息(信息提取(IE))。步驟160中組織所提取的信息,並且把組織好的信息轉換成呈現給用戶的可導航顯示形式。
[0056]圖2示出了根據示範性實施例、增量地提取有關實體、活動和事件的信息的步驟150的IE過程。步驟210包括把自然語言處理流水線施加到集合的各文檔。可隨著新文檔添加到語料庫增量地施加流水線。步驟220遍歷語料庫中檢測的所有實體。可通過隨著新文檔被添加到語料庫遍歷僅僅新文檔中檢測的實體來增量地應用步驟220。步驟230識別牽涉由步驟220選擇的實體的由步驟210提取的關係表述。步驟240識別牽涉由步驟220選擇的實體的表述的事件表述。步驟250提取關於由步驟220選擇的實體的信息。
[0057]圖3示出了圖2中描繪的自然語言處理流水線步驟210的例子。文本清理步驟310從文本清除無關的字符,例如格式字符、超文本標記語言(HTML)標籤等。分詞(tokenization)步驟320分析清理過的文本並識別詞和句子的邊界。詞性標記步驟330把每個詞與描述其語法功能的標籤聯繫起來。表述檢測步驟340識別分詞的文本中的實體表述和指示事件存在的詞語(稱為事件錨)。分析步驟350提取每個句子的層級語法結構,且通常把它表示成一顆樹。語義角色標記步驟360識別由分析步驟350提取的樹中每個節點如何與該句中的每個動詞語義上關聯。共指消解步驟370識別由表述檢測340生成的表述所屬的實體。關係提取步驟380檢測實體表述對之間以及實體表述與事件錨之間的關係。本領域普通技術人員會理解,這些步驟可採用公知的統計方法、規則或其組合來實施。
[0058]圖4示出了根據圖1的步驟160的組織有關實體的信息的示範性實施例。
[0059]步驟410遍歷語料庫中識別的所有實體。步驟410的增量實施例包括隨著新文檔添加到語料庫遍歷新文檔中識別的所有實體。
[0060]步驟420把提取的有關由遍歷步驟410選擇的實體的信息分成包含等價或冗餘信息的等價類。在示範性實施例中,每個等價類將包括項的集合,其中每項包括從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範。本領域普通技術人員會理解,這些等價類可以是互不相交的,或者可能是重疊的,其中同一項可屬於一個或多個等價類。
[0061]步驟430遍歷由步驟420生成的等價類。
[0062]步驟440將在類中選擇最能代表該類中所有項的一項。選擇步驟440採用的選擇標準可包括但不限於:選擇在等價類中出現的最常見的文本段(例如,段「美國總統巴拉克.歐巴馬」比「巴拉克.歐巴馬,美國總統」更常見,且根據此選擇標準,會被選取為描述「巴拉克.歐巴馬」與「美國」的關係的代表段),選擇傳達了最大量的信息的文本段(例如,「巴拉克.歐巴馬是美國的第44屆且在任的總統」比「美國總統巴拉克.歐巴馬」傳達了更多有關「巴拉克?歐巴馬」與「美國」之間關係的信息,且根據此標準會被選取為代表),以及選擇具有由提取步驟150生成的最高分數的文本段(如果該步驟把分數與其結果聯繫)。
[0063]步驟450記錄有關等價類和有關由步驟440選擇的代表的信息,使得該信息可被圖1的後續步驟170利用。圖4中示出的方法可適應於這種情形:等價類可重疊,而仍然需要例如通過優化過程來選擇用於不同類的不同代表,該優化過程會組合上面列舉的選擇標準或者具有會有利於選擇重疊等價類的不同代表的差異性度量的等價選擇標準中的一個或多個。
[0064]在步驟420的一個示範性實施例中,提取的信息的各個實例可包括來自文檔的段(等效於段落)以及有關從該段提取的所需實體的信息的規範。此規範可包括屬性值對的集合、研究描述框架(RDF)三元組的集合、關係資料庫中的關係集合等。規範可採用諸如可擴展標記語言(XML)的描述語言、採用RDF表示語言、採用資料庫等來表示。
[0065]步驟420可包括識別滿足兩個條件的提取信息的實例組:第一個條件是每組都包含至少一個實例(主實例),在給定該實例的情況下該組中所有其他實例是冗餘的;第二個條件是不同組的主實例彼此不是冗餘的。可採用傳統的聚類算法或增量聚類算法來實現該結果。
[0066]圖5示出了用於構建關於實體的且根據圖4中描繪的方法收集的信息的可顯示表示的圖1的步驟170的方法的一個示範性實施例。
[0067]步驟510中,例如,通過把等價類中各條信息的最高分數分配給該等價類,給步驟420生成的信息的等價類評分。或者,其他量可用作等價類的分數,例如:其成員的平均分,其成員的中值分,其成員的分數之和,等等。根據圖5中描繪的方法,分數被用來安排等價類顯示給用戶的順序的優先次序。
[0068]步驟520把等價類按分數降序排序。
[0069]步驟530選擇每個等價類。針對選擇的等價類的所有實例(步驟540),步驟550構建從等價類選擇的實例的可顯示表示。在一個示範性實施例中,這種可顯示表示包括含有用可視化高亮適當標記的提取的信息的段落。這種可視化高亮可包括用來區分提取的信息的顏色。此外,可顯示表示可能包括可視化提示,以容易地識別存在信息頁的其他實體。
[0070]步驟560把步驟550生成的表示組合起來,以生成等價類的可顯示表示。在一個示範性實施例中,此步驟包括顯示等價類的代表實例和提供用於顯示其他成員的手段(例如,通過提供至這些成員的表示的連結)。
[0071]現在參考圖6,示出了描繪個人Leon Panetta的實體的一個示範性頁面(即實體頁(EP))。頁面劃分成左右部分。左部分的兩個框包含從維基百科網際網路百科全書或者其他可靠信息源分別自動提取的圖片和簡歷信息。右部分包含按照其傳達的信息的種類組織文本的相關小段(片斷)的一組選項卡。各選項卡中的內容是下面進一步詳述的一系列信息提取模塊的輸出。各選項卡還示出了其內容的內容圖形概要。
[0072]下面示出的表I概括了由各選項卡中的文本片斷傳達的信息。
【權利要求】
1.一種用於由處理裝置從多個數據源自動提取和組織信息的方法,包括: 把包括自動實體檢測的自然語言處理信息提取流水線施加到數據源; 通過分析自然語言處理流水線的產物來識別有關所檢測的實體的信息; 把識別的信息分組到包含等價信息的等價類; 創建等價類的至少ー個可顯示表示; 計算至少ー個可顯示表示被顯示的順序;以及 生成考慮了可顯示表示被顯示的順序的等價類組合顯示。
2.權利要求1的方法,其中每個等價類包括項的集合,每項包括從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範。
3.權利要求1的方法,其中計算可顯示表示被顯示的順序還包括隨機計算順序。
4.權利要求1的方法,其中把識別的信息分組到等價類還包括把每個識別的信息分配到単獨的等價類。
5.權利要求1的方法,其中把識別的信息分組到等價類還包括: 計算每個等價類的代表性實例; 確保不同類的代表性實例相互不是冗餘的; 確保每個等價類的實例相對於該等價類的代表性實例是冗餘的。
6.一種用於由處理裝置處 理信息的方法,包括: 接收用戶查詢; 從用戶查詢推斷用戶查詢意圖,以形成推+斷的用戶意圖;以及通過利用包括文本、音頻和視頻中至少ー個的多種模態的自然處理來適應性地構建與推斷的用戶意圖對應的模板,響應於用戶查詢而自動生成頁面。
7.權利要求6的方法,還包括:當用戶查詢選擇具有政治身份的人吋, 檢測該政治身份, 捜索關於選舉運動、公開露面、聲明和公共服務歷史中至少ー個的信息,以及 自動生成響應於用戶查詢的頁面。
8.權利要求6的方法,還包括:當用戶查詢選擇公司吋, 捜索有關該公司的近期新聞、該公司的高級官員的信息和該公司的新聞發布稿中至少一個的信息;以及 自動生成響應於用戶查詢的頁面。
9.權利要求6的方法,還包括:當用戶查詢選擇事件吋, 捜索有關該事件的新聞項目和對事件的反應中至少ー個的信息;以及 自動生成響應於用戶查詢的頁面。
10.權利要求9的方法,其中識別事件中的實體和捜索有關這些實體的所檢索的相關信息。
11.一種用於由處理裝置從具有多種語言的的多種信息模態的文檔語料庫自動提取和組織信息以便顯示給用戶的方法,該方法包括: 瀏覽文檔語料庫,以識別和増量地檢索包含音頻/視頻文件的文檔; 轉錄來自音頻/視頻文件的文本,以提供文本表示; 翻譯外語的文本表示的文本;增量地提取關於實體、活動和事件中至少一個的所需信息; 組織提取的信息;以及 把組織好的所提取信息轉換成可展示給用戶的可導航顯示。
12.權利要求11的方法,其中增量地提取所需信息包括: 把自然語言處理流水線施加到各文檔,以遍歷所述語料庫中檢測的所有實體; 識別牽涉到選擇的實體的關係表述和事件表述, 其中實體是下面各項的至少一個:物理生命體、物理無生命體、有專用名稱的事物、具有可度量的物理屬性的事物、法人實體和抽象概念, 其中表述是提到實體的一段文字, 其中關係是兩個實體間的聯繫, 其中關係表述是描述關係的一段文字,以及 其中事件是牽涉一個或多個行動的兩個或更多個實體之間的關係集合。
13.權利要求11的方法,其中組織提取的信息包括: 遍歷所述語料庫中識別的所有實體; 把提取的關於實體的信息分 成包含等價信息的被選等價類; 遍歷所有等價類; 選擇每個等價類中的一項來代表該等價類中的所有項;以及 記錄有關該等價類和有關選擇用來生成可導航顯示的代表的信息, 其中每個等價類包括項的集合,每項具有從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範。
14.權利要求11的方法,其中把組織好的所提取信息轉換成可展示給用戶的可導航顯示包括: 通過為等價類分配該類中各條信息的最高分數、它的成員的平均分數、它的成員的中值分數和它的成員的分數之和中的至少一個來給信息的等價類評分; 按分數降序排序等價類,以安排等價類被顯示給用戶的順序的優先次序; 對每一等價類進行遍歷,構建選擇的實例的可顯示表示;以及 把可顯示表示進行組合,以生成等價類的可顯示表示。
15.權利要求14的方法,其中可顯示表示包括包含用可視化高亮標記的提取信息的段落。
16.一種包含能夠由處理器執行以便交互顯示來自多模態自然語言源的有關實體、活動和事件的信息的指令的非暫時性電腦程式存儲裝置,所述非暫時性電腦程式存儲裝置包括配置成存儲以下各項的存儲器: 信息提取模塊,具有用於從文本和音頻/視頻下載文檔內容、用於對文檔內容進行分析、用於檢測表述、用於共指、用於跨文檔共指以及用於提取關係的指令代碼; 信息收集模塊,具有用於從所述信息提取模塊提取熟人、簡歷和事件介入的指令代碼; 信息顯示模塊,具有用於顯示來自所述信息收集模塊的信息的指令代碼。
17.權利要求16的非暫時性電腦程式存儲裝置,其中所述信息提取模塊還包括用於從視頻源轉錄音頻和用於把非英語的轉錄音頻翻譯成英語文本的指令代碼。
18.權利要求16的非暫時性電腦程式存儲裝置,其中所述信息提取模塊還包括用於把同一實體下的表述聚類以及用於跨文檔連結實體聚類的指令代碼。
19.權利要求16的非暫時性電腦程式存儲裝置,其中所述信息收集模塊還包括用於輸入句子和實體以及從該句子提取有關該實體的特定信息的指令代碼。
20.權利要求16的非暫時性電腦程式存儲裝置,其中所述信息顯示模塊還包括用於把結果分組成非冗餘的集合、排序所述非冗餘的集合、生成每個集合的簡要說明、為每個集合選擇代表性片斷、高亮顯示該片斷的包含有關特定選項卡的信息的部分、構建到其他頁面的導航超級連結以及生成用來圖形化表示選項卡內容的數據的指令代碼。
21.一種包含能夠由處理器執行以便自動提取和組織來自多個數據源的信息的指令的非暫時性電腦程式存儲裝置,所述非暫時性電腦程式存儲裝置包括配置成存儲以下各項的存儲器: 用於向數據源施加包括實體自動檢測的自然語言處理信息提取流水線的指令代碼; 用於通過分析所述自然語言處理流水線的產物來識別有關檢測的實體的信息的指令代碼; 用於把識別的信息分組到包含等價信息的等價類的指令代碼 用於創建等價類的至少一個可顯示表示的指令代碼; 用於計算至少一個可顯示表示被顯示的順序的指令代碼; 用於生成考慮了所述可顯示表示被顯示的順序的等價類組合顯示的指令代碼。
22.權利要求21的非暫時性電腦程式存儲裝置,其中每個等價類包括項的集合,每項包括從文檔提取的一段文本和有關從該段文本導出的所需實體的信息的規範。
23.權利要求21的非暫時性電腦程式存儲裝置,其中計算所述可顯示表示被顯示的順序還包括隨機計算順序。
24.權利要求21的非暫時性電腦程式存儲裝置,其中把識別的信息分組到等價類還包括把各識別的信息分配到單獨的等價類。
25.權利要求21的非暫時性電腦程式存儲裝置,其中把識別的信息分組到等價類還包括: 計算每個等價類的代表性實例; 確保不同類的代表性實例相互不是冗餘的;以及 確保每個等價類的實例相對於該等價類的代表性實例是冗餘的。
【文檔編號】G06F17/30GK103488663SQ201310122395
【公開日】2014年1月1日 申請日期:2013年4月10日 優先權日:2012年6月11日
【發明者】V·卡斯泰利, R·弗洛利安, 羅小強, H·拉格哈萬 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀