新四季網

來自潛在關係數據的實體擴充服務的製作方法

2023-05-17 12:34:06 1

來自潛在關係數據的實體擴充服務的製作方法
【專利摘要】本發明涉及提供用於擴充與實體-屬性-相關的任務的數據。對從web提取的實體-屬性表格執行預處理,例如以提供可被訪問來尋找完成擴充任務的數據的索引。索引基於表格之間的直接映射和間接映射兩者。示例擴充任務包括基於屬性名稱或示例對被擴充的數據的查詢,或尋找用於擴充的同義詞。通過訪問索引來返回與任務相關的被擴充的數據以高效地處理在線查詢。
【專利說明】來自潛在關係數據的實體擴充服務
[0001] 背景
[0002] 信息工作者(用戶)與包括提及各種實體的文檔、電子表格、資料庫等一起工作。 例如,電子表格用戶可具有相機型號列表,或者資料庫用戶可具有公司表格。用戶可能想要 與一個實體或多個實體有關的附加信息。
[0003] 作為示例,用戶可能需要填充附加信息以完成任務。作為更具體的示例,為了幫助 作出決策,用戶可被分配通過填充每個相機型號的各個屬性(諸如品牌、解析度、價格和光 學變焦)來擴充包括相機型號的電子表格的任務。當今為了完成這樣的實體擴充任務,用 戶手動地嘗試尋找包括所需信息的web源並將找到的對應數據值與現有的數據合併來組 裝完整的數據集。
[0004] 也通常會產生與擴充數據有關的其他任務。由此一般地,用戶可從協助用戶執行 這樣的任務的自動化解決方案中受益。然而,現有的方式一般在以下方面不是令人滿意的: 它們的數據精確水平(擴充的數據經常是錯的)以及回調(擴充的數據經常不能被找到, 例如,由於差的覆蓋)。由此,對這些和其他這樣的任務提供在合理的所需程度上對用戶進 行幫助的自動化解決方案是合乎需要的。


【發明內容】

[0005] 提供本概述以便以簡化形式介紹將在以下的詳細描述中進一步描述的一些代表 性概念。本概述不旨在標識出所要求保護的主題的關鍵特徵或必要特徵,也不旨在以限制 所要求保護的主題的範圍的任何方式來使用。
[0006] 簡而言之,在此描述的主題的各方面涉及通過其基於從至少一個語料庫中挖掘的 實體和屬性之間的直接和間接關係來處理擴充任務的技術。訪問被處理成索引的基於關係 的數據來尋找完成擴充任務的數據。
[0007] 示例擴充任務包括對被擴充的數據的查詢,諸如其中查詢標識實體集(或更多實 體)和屬性名稱的一個查詢,並且其中使用基於關係的數據來完成擴充任務包括查找針對 該實體集的每一實體的至少一個屬性值,和/或其中查詢標識實體集和一個或多個屬性值 示例的一個查詢,並且其中使用基於關係的數據來完成擴充任務包括基於該一個或多個 屬性示例來查找針對該實體集的至少一個實體的至少一個屬性值。另一任務查詢同義詞數 據,其中查詢標識實體名稱,並且其中基於關係的數據被查找來尋找針對屬性名稱的至少 一個同義詞。
[0008] 在一個方面,服務被配置成處理與領域無關的實體擴充任務,包括將從至少一個 語料庫獲得的關係表格預處理成多個索引。索引包括基於表格的至少一些之間的間接映射 的數據。服務用經由索引獲得的數據對對應於實體擴充任務的查詢進行響應,包括經由索 引標識種子表格,計算每個種子表格的分數,基於種子表格的矢量來計算偏好矢量,基於偏 好矢量和與關係表格中的至少一些相關聯的矢量來計算預測分數,聚集分數,並基於對分 數的聚集來返回最終預測以完成實體擴充任務來對查詢進行響應。
[0009] 結合附圖閱讀以下【具體實施方式】,本發明的其他優點會變得顯而易見。

【專利附圖】

【附圖說明】
[0010] 作為示例而非限制,在附圖中示出了本發明,附圖中相同的附圖標記指示相同或 相似的元素,附圖中:
[0011] 圖1是表示根據一個示例實現的實體屬性擴充服務的示例組件的框圖。
[0012] 圖2是表示根據一個示例實現的在實體屬性擴充中使用的示例查詢表格、種子表 格和相關web表格之間映射的框圖。
[0013] 圖3A-3C包括根據一個示例實現的由實體屬性擴充服務完成的實體屬性擴充任 務的表示。
[0014] 圖4是根據一個示例實現的在實體屬性擴充中使用的示例查詢表格以及各表格 之間的直接和間接映射的表示。
[0015] 圖5是根據一示例實現的顯示用於提供實體屬性擴充服務的示例離線和在線組 件的框/流程圖。
[0016] 圖6是表示其中可實現在此處所描述的各實施例的一個或多個方面的示例性、非 限制性計算系統或操作環境的框圖,例如在行動電話設備的例子中。

【具體實施方式】
[0017] 在此描述的技術的各個方面一般涉及自動實體擴充服務,該自動實體擴充服務對 於被擴充的數據具有相對高的精確度和覆蓋/回調以及快速的(例如交互的)響應時間。 實體擴充技術可被應用於任何任意實體領域。
[0018] 一般而言,服務是基於從非常大量的數據源(例如,web表格語料庫)中收集的數 據。例如,存在可從web爬尋的大約數以億計量級的這樣的實體-屬性表格(也稱為關係 表格和二維表格)。在此描述了可基於主題敏感頁面排名的整體匹配框架和聚集來自多個 匹配的表格的預測的擴充框架,該多個匹配的表格除了直接匹配表格之外還包括間接匹配 表格。這使得預測對虛假匹配的表格更加魯棒。
[0019] 應當理解的是,此處的任何示例均是非限制的。例如,儘管描述了具有實體-屬性 表格形式的關係表格,但是其他數據結構並且甚至是未被結構化的數據也可被處理來得到 與擴充有關的數據。此外,儘管web是這樣的數據的一個源,但是可訪問諸如企業資料庫、 以主題為中心的語料庫(例如,與醫療有關的源、與金融有關的源等)等其他源來獲得與實 體有關的數據。
[0020] 因此,本發明不限制於在此描述的任何具體的實施例、方面、概念、結構、功能或示 例。相反,此處所描述的實施例、方面、概念、結構、功能或示例中的任一個都是非限制性的, 並且本發明一般能夠以在計算和實體擴充方面提供好處和優點的各種方式來使用。
[0021] 圖1是示出一個示例實現中各種組件的框圖。一般地,在可被離線執行的表格預 處理階段102中,包括爬尋器104,該爬尋器104從數據源108 (例如,網頁和/或數據市 場)提取關係表格106。對於網頁,爬尋器104可對HTML和/或文本數據是否實際上是表 格並且不僅僅被用於頁面的格式化或布局進行分類。各種技術可被用於濾除格式化表格和 看上去本質上不相關的其他表格,由此圖1顯示了爬尋器/過濾器。取決於大量的網頁,映 射-減少(map-reduce)計算體系結構可被用於跨大量計算節點並行地提取表格。
[0022] 索引器110輸入由爬尋器104產生的表格106並對它們進行索引(經索引的表格 112)以實現對那些類似於給定查詢表格的web表格的快速標識。索引器110返回具有與查 詢表格記錄的充分記錄重疊的web表格。該重疊可允許模糊匹配以允許不同的值表示,例 如,查詢記錄中的"Microsft Corp"(在此有意地拼錯以表示實際的用戶錯誤)可被考慮為 與特定web表格中的"Microsoft Corporation"的匹配。
[0023] 圖構建器114生成圖116,其中圖116的頂點對應於每個web表格並且邊被加權 以對應於兩個表格的相似性。在一個示例實現中,使用基於特徵的測量來計算表格相似性, 該基於特徵的測量合併了兩個表格的許多特徵,包括:記錄重疊的程度、列名相似性、在其 中出現表格的周圍網頁上下文的相似性、URL相似性、網站的文檔和域的預先計算的靜態頁 面排名(PageRank)值以及每個表格中單詞集之間的單詞包相似性。這個測量可使用在已 經被知曉為高度相似的表格上進行訓練的模型118來計算。注意,通過尋找具有與兩個其 他表格的高度重疊的橋梁表格並將這其他兩個表格用作正面訓練示例,模型訓練數據收集 過程可被執行到不需要用戶標記的數據的程度。
[0024] 圖分析器120處理表格圖116並生成每對web表格之間的相似性分數122。一個 方式傳播表格之間的相似性來為每個web表格計算其他表格的個性化的頁面排名(PPR), 例如被結構化為矩陣。一般地,這個方式傳播表格之間的本地成對相似性並允許具有許多 共同的鄰居但不直接連結的兩個表格具有更高的相似性。由於完整的查詢記錄可能不具有 與擴充不完整的查詢記錄所需要的表格的直接重疊,這個屬性在數據擴充的上下文中是有 用的。
[0025] 作為示例,圖2例示了在其中對查詢表格220的關係被傳播以獲得合乎需要的預 測和覆蓋的整體方式。該整體方式允許與查詢表格不共享直接重疊或其他直接關係的表格 對擴充任務作出貢獻。在一個實現中,擴充服務利用由圖分析器120產生的PPR矩陣。月艮 務126接收來自客戶端的擴充任務請求(例如,經由API集等),執行實體擴充處理來完成 任務並返回經擴充的結果。
[0026] 在一個方面,空值填充被執行為一個任務,其中輸入是可能具有缺失的屬性值的 實體名稱表格。一個步驟尋找具有與輸入表格共同的完整記錄的web表格,其在此被稱 為"種子"表格。圖2顯示了示例種子表格221-223。計算輸入表格220和每個種子表格 221-223之間的相似性強度並形成矢量。PPR矩陣乘以這個矢量來產生最終矢量,該最終矢 量包括針對給定輸入表格的每個web表格的分數。web表格接著被用於通過以下方式預測 缺失的屬性值:通過取得與每個web表格記錄相關聯的與非缺失的輸入屬性值相匹配的屬 性值,並聚集web表格排名來達到每個值的最終概率。最高排名的值,任選的高於用戶指定 的閾值,被用於填充空值。
[0027] 如果輸入或web表格包括多於兩個的列,則過程可嘗試標識類似鍵(key-like) 的列並接著將表格劃分成若干個兩列表格。
[0028] 其他可能的擴充任務包括通過屬性名稱的擴充,其類似於空值填充,除了屬性名 稱與表格一起提供。在通過屬性名稱的擴充中,目標屬性值被當作空值並且用戶提供目標 屬性名稱。利用與用於空值填充的過程相同的過程來相對於輸入表格對web表格進行排 名。種子表格具有與輸入表格的重疊並且與目標屬性名稱匹配。預測過程與用於空值填充 的過程相同。
[0029] 另一任務是數據確認,其類似於空值填充,除了如果頭個經預測的值不匹配給定 輸入記錄中的實際值,則產生確認警報。另一可能的擴充任務是通過值的屬性擴展(通過 示例的擴充),其基於與表格一起提供的幾個種子示例值來填充目標屬性的空值。
[0030] 屬性建議是另一任務,其取得輸入表格並建議表格可被其擴展的前K個最感興趣 的屬性。該過程通過首先相對於輸入表格的鍵列對web表格進行排名來與通過名稱的屬性 擴展類似地進行。通過利用PPR矩陣,較高排名的web表格被群集到適當的團集中。每個 群集包括彼此相互類似的web表格。由於在一個實現中,每個web表格已經被轉換到一個 或多個兩列表格中,所以可從每個表格群集中取得最頻繁的非輸入匹配列名以導出該群集 的名稱。對群集進行排名並將前K個群集名稱返回到用戶。
[0031] 考慮正在搜索產品或股票的用戶或正在執行競爭者分析的分析者。這種任務的最 費力的子任務之一是聚集關於感興趣實體的信息。兩個這種子任務包括尋找一個或多個實 體的屬性值,以及尋找實體類型的相關屬性。這些子任務基於提取的web表格是自動化的。 在一個實現中,這些子任務可使用在此描述的操作,即通過屬性名稱的擴充、通過示例的擴 充和屬性發現。可提供其他操作。
[0032] 通過屬性名稱的擴充用在此被稱為擴充屬性的值/屬性來自動化上述的示例任 務,例如,在給定相機型號的情況下,尋找諸如品牌、解析度、價格和光學變焦等各種屬性的 值。圖3顯示了用於這個操作的被應用到具有一個擴充屬性(品牌)的一些示例型號實體 的示例輸入和輸出。
[0033] 圖3B例示了通過示例的擴充,其提供缺失的實體的一個或多個擴充屬性的值,而 非提供一個或多個擴充屬性的名稱。如可以看到的,從提供的已知示例中確定實體-屬性 關係,該實體-屬性關係促進定位缺失的屬性值。
[0034] 圖3C中例示了屬性發現。考慮用戶可能不知曉關於實體域的足夠信息;在這種情 況下,用戶想要知道給定實體集的最相關屬性,例如來選擇特定的所需的一些屬性並請求 針對這些所選擇的屬性的擴充值。通過使用自動地確定相關屬性的服務,用戶節省了用於 嘗試手動發現它們的時間和努力。
[0035] 為了提供更加有用的服務,分別對於實體被正確地擴充、被擴充實體的數量以及 實體的數量,高精確度和高覆蓋是所需要的。合乎需要的服務還提供快速的(例如,交互 的)響應時間並應用到任何任意領域的實體。
[0036] 為簡明起見,在示例中僅考慮一個擴充屬性,其中合適的擴展是直截了當的。如圖 3A中顯示的,輸入可被視為二元關係,其中第一列對應於實體名稱而第二列對應於擴充屬 性。第一列可用要被擴充的實體名稱來填充,而第二列是空的。這個表格在此被稱為查詢 表格(或簡單地稱為查詢)。基線技術使用模式匹配技術,例如使用一對一映射,來標識語 義上與查詢表格匹配的web表格。在web表格中查找每個實體以獲得它對擴充屬性的值。
[0037] 考慮查詢表格Q(-個示例查詢表格在圖4中被標記為440)。為簡明起見,在這個 示例中,考慮類似於查詢表格,web表格是類似地兩列實體-屬性二元關係,其中第一列對 應於實體名稱而第二列對應於實體的屬性。通過使用傳統的模式匹配技術,如果第一列中 的數據值與查詢表格Q的第一列中的那些數據值重疊並且第二列的名稱與擴充屬性的名 稱一致,則web表格匹配於查詢表格Q。這樣的匹配在此被稱為"直接匹配"並且該方式被 稱為"直接匹配方式"。
[0038] 在圖4中,只有web表格441-443與查詢表格440直接匹配(使用實線箭頭顯示)。 分數可基於值重疊的程度和列名稱匹配的程度與每個直接匹配相關聯;在圖中通過靠近箭 頭的值來顯示示例分數。如果僅使用直接匹配,則簡單地查找web表格441-443中的實體; 對於型號"D3150",web表格441和443都包括它,然而,值是不同的(分別為"AB⑶Co"和 "NGD")。可任意地選擇或從具有較高分數的web表格中選擇值,S卩,來自web表格443的 "NGD"。對於型號"S-456",可選擇"WXYZCo"或"EFGcorp",因為它們具有相等的分數。對 於"N444",只有"WXYZCo"。查找不能擴充V199,因為沒有匹配的表格包括該實體。
[0039] 由此可容易地理解,直接匹配通常遭受低的精確度;考慮例如表格443可包括蜂 窩電話型號和品牌而非所需的實體(諸如相機)。表格443中的蜂窩電話型號中的一些的 名稱與在查詢表格440中的相機型號的名稱相同,從而表格443得到高的分數。這導致了 (三個中的)至少一個並且可能兩個(如果當解決衝突時,從表格443中選擇,則三個中的 兩個)錯誤的擴充。這種實體名稱的模糊性實際上在所有領域中都存在,而這個可通過提 升匹配的閾值來緩減,但這麼做導致差的覆蓋。
[0040] 使用僅直接匹配技術的另一問題是低覆蓋;以上示例,過程沒能擴充V199,並且 覆蓋由此是百分之七十五。注意,這個數量比實踐中低的多,尤其對於尾域,並且趨向於發 生,這是因為可提供理想值的表格要麼不具有列名稱要麼不使用與用戶提供的擴充屬性名 稱相同的列名稱。擴充屬性的同義詞可有所幫助,但是這些同義詞是手動生成的(自動生 成導致差的質量),這在實體可能來自任何任意領域的情況下不是可行的。
[0041] 在此描述的是對例如經由其他web表格間接匹配查詢表格的表格的進一步使用。 通過使用這樣的間接匹配表格,結合直接匹配表格,一般提升覆蓋和精確度兩者。作為提升 的覆蓋的示例,在圖4中,表格444包括V199的理想屬性值(NGD),但它不能使用僅直接匹 配到達。通過使用模式匹配技術,表格444與表格441 (即,存在兩個關係的兩個屬性之間的 一對一映射)以及表格442匹配(由於它具有與表格442共同的兩個記錄以及與表格442 共同的一個記錄)。這樣的在web表格之中的模式匹配被虛線箭頭表示;每個這樣的匹配具 有表示匹配程度的分數。由於表格441和/或表格442 (大致)與查詢表格440匹配(使 用直接匹配)並且表格444(大致)與表格441和表格442匹配(使用模式匹配),可以得 出表格444(大致)與查詢表格440匹配。表格444在此稱為間接匹配表格;通過使用它, V199可被正確地擴充。在這個示例中,覆蓋經由間接匹配被提升到百分之百。
[0042] 然而,許多間接匹配表格包括虛假的匹配,從而使用這些表格來預測值導致了錯 誤的預測。為了對這種虛假匹配的魯棒性,在此描述了基於以下觀察來使用整體匹配:真正 匹配的表格要麼直接地要麼間接地相互匹配並且要麼直接地要麼間接地與直接匹配表格 匹配,而虛假匹配的表格則不是。例如,表格441、442和444相互直接匹配,而表格444僅 微弱地與表格442匹配。如果,例如,通過聚集直接匹配以及間接匹配來計算表格的整體 匹配分數,則真正匹配的表格收到更高的分數,其是用於在此描述的整體匹配的基礎。在圖 4的示例中,相比於表格443,表格441、442和444得到更高的分數;這導致通過不使用表格 443的正確擴充,得到了百分之百的精確度。此外,對於每個實體,預測可從多個匹配的表格 中獲得並聚集,從而"前"一個(或k個)值可被選擇為最終所預測的一個(或多個)值。
[0043] 注意在實踐中,這導致技術挑戰,例如使用573MX573M表格對來計算web表格對 之間的模式匹配(web表格或SMW圖之中的模式匹配)需要是精確的。此外,整體匹配需要 被建模,使得模型將與SMW圖中的邊相關聯的分數以及與直接匹配相關聯的那些分數考慮 在內。此外,實體需要在查詢時被高效地擴充。
[0044] 為此,提供了基於對圖的主題敏感頁面排名(TSP)的整體匹配框架。還提供了充 分利用預處理(例如,在MapReduce (映射減少)技術中)來實現查詢時的極度快速的(交 互的)響應時間的系統體系架構。
[0045] 在一個實現中,基於匹配學習的技術被用於基於使用與web表格相關聯的特徵 (例如,包括文本)來確定是否兩個web表格匹配來構建SMW圖。此外,雖然可使用手動產 生的經標記的數據,但是代替於或附加於手動產生的經標記的數據,用於該學習任務的訓 練數據可如在此描述的那樣被自動地生成。
[0046] 轉向示例整體匹配框架和數據模型,為簡明起見,假設查詢表格是實體-屬性二 元關係,例如,查詢表格Q具有Q(K,A)的形式,其中K表示實體名稱屬性(在此也稱為查詢 表格"鍵")而A是擴充屬性。如在圖4的示例查詢表格440中顯示的,鍵列被填充而屬性 列是空的。此外,假設web表格也是實體-屬性二元關係,如在圖4的web表格441-444中。
[0047] 對於每個web表格"e >,關係是Τκ (K,B),其中K表示實體名稱屬性(在此稱為web 表格鍵屬性)並且B是實體的屬性,從中提取表格的網頁的URL ^以及從中提取表格的網 頁中的它的上下文Tc(例如,表格周圍的文本)。為簡明起見,當從上下文中清晰時,Τκ(Κ,B) 可被表不為Τ(Κ, Β)。
[0048] 對於通過屬性名稱的擴充,給定查詢表格Q(K, Α)和web表格集合 Λ.;. Γ? € f%操作是要預測每個查詢記錄q e Q在屬性A上的值。注意,不是所有 web表格都具有實體-屬性二兀關係,然而在此描述的框架被通用於η兀web表格。此外, 查詢表格可具有多於一個的擴充屬性;在一個實現中,屬性被考慮為獨立的並且一次可針 對一個屬性執行預測。
[0049] 在一個實現中,通用擴充框架標識"匹配"查詢表格的web表格,並使用每個匹配 的web表格來提供對於恰好在查詢和web表格之間重疊的特定鍵的值預測。為了標識匹配 的表格,一般而言,如果Q. K和T. K指代相同的實體類型並且Q. A和Q. B指代實體的相同屬 性,則web表格T(K,B)匹配查詢表格Q(K,A);(為簡明起見,描述了一對一映射)。每個web 表格被分配表示對於查詢表格Q的匹配分數的分數S(Q,T);由於Q是固定的,所以標記可 被表示為S(T)。存在各種獲得查詢表格和web表格之間匹配分數的方式;以下描述示例。
[0050] 為了預測值,對於每個記錄,通過將查詢表格Q(K,A)與每個匹配的web表格 τ (K,B)在鍵屬性K上聯結來預測來自匹配的web表格的記錄q在屬性Q. A上的值q[Q. A]。 如果存在記錄t e T使得q[Q.K]?t[T.K](其中?表示要麼值的精確相等要麼值的近似 相等),則web表格T對q[Q.A]預測了具有預測分數S T(v) =S(T)的值v = t[T.B],並 且(v,ST(v))被返回。在處理了匹配的表格後,存在針對q[Q. A]的所預測的值連同它們對 應的預測分數的集合Pq= {(Xl,ST1(Xl)),(x2,S T2(x2)),...}。對於每個不同的所預測的值 v e Pq,通過聚集針對v獲得的預測分數來計算最終預測分數:

【權利要求】
1. 一種在計算環境中至少部分地在至少一個處理器上執行的方法,包括:處理擴充任 務,包括訪問與從至少一個語料庫中挖掘的實體和屬性之間的包括至少一個間接關係在內 的關係相對應的基於關係的數據以及使用所述基於關係的數據來尋找完成所述擴充任務 的數據。
2. 如權利要求1所述的方法,其特徵在於,還包括: a) 接收作為對被擴充的數據的查詢的所述擴充任務,其中所述查詢標識實體集和屬性 名稱,並且其中使用所述基於關係的數據來完成所述擴充任務包括查找針對所述實體集的 每一個實體的至少一個屬性名稱, b) 接收作為對被擴充的數據的查詢的所述擴充任務,其中所述查詢標識實體集和一個 或多個屬性示例,並且其中使用所述基於關係的數據來完成所述擴充任務包括基於所述一 個或多個屬性示例來查找針對所述實體集的至少一個實體的至少一個屬性名稱,或 c) 接收作為對同義詞數據的查詢的所述擴充任務,其中所述查詢標識名稱,並且其中 使用所述基於關係的數據來完成所述擴充任務包括查找針對所述名稱的至少一個同義詞。
3. 如權利要求1所述的方法,其特徵在於,訪問所述基於關係的數據包括標識種子表 格並經由偏好矢量和表格的存儲的矢量來計算主題敏感頁面排名分數。
4. 如權利要求1所述的方法,其特徵在於,使用所述基於關係的數據來尋找完成所述 擴充任務的數據包括從最終預測中聚集並選擇值。
5. -種系統,包括:服務,所述服務被配置成處理與領域無關的實體擴充任務,包括將 從至少一個語料庫獲得的關係表格預處理成多個索引,其中所述索引包括基於所述表格的 至少一些之間的間接映射的數據;以及用經由所述索引獲得的數據對對應於實體擴充任務 的查詢進行響應,包括經由所述索引標識種子表格,計算每個種子表格的分數,基於所述種 子表格的矢量來計算偏好矢量,基於所述偏好矢量和與所述關係表格中的至少一些相關聯 的矢量來計算預測分數,聚集所述分數,並基於對所述分數的聚集來返回最終預測以完成 實體擴充任務以對所述查詢進行響應。
6. 如權利要求5所述的系統,其特徵在於,所述服務被進一步配置成通過訪問從包括 基於間接映射在內的所述關係表格中構建的與同義詞相關的索引來處理對同義詞的請求。
7. 如權利要求6所述的系統,其特徵在於,所述間接映射基於從所述表格中構建的圖 上的主題敏感頁面排名。
8. -個或多個具有計算機可執行指令的計算機可讀介質,所述計算機可執行指令在被 執行時執行以下步驟,包括: 將從語料庫中提取的實體屬性關係表格預處理成被用於實體擴充的索引,包括執行表 格之間的整體匹配,所述整體匹配包括計算針對所述表格的至少一些之間的直接關係和間 接關係的值;以及 訪問所述索引來處理實體擴充任務。
9. 如權利要求8所述的一個或多個計算機可讀介質,其特徵在於,執行所述整體匹配 包括使用與所述表格的至少兩個相關聯的上下文。
10. 如權利要求8所述的一個或多個計算機可讀介質,其特徵在於,進一步包括計算機 可執行指令包括,接收作為對被擴充的數據的查詢的所述擴充任務,其中所述查詢標識實 體集和屬性名稱;接收作為對被擴充的數據的查詢的所述擴充任務,其中所述查詢標識實 體集和一個或多個屬性示例;或接收作為對同義詞數據的查詢的所述擴充任務,其中所述 查詢標識名稱。
【文檔編號】G06F17/00GK104160390SQ201380013249
【公開日】2014年11月19日 申請日期:2013年2月22日 優先權日:2012年3月6日
【發明者】K·K·蓋加姆, K·查卡拉巴蒂, M·A·亞考特, S·喬德裡 申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀