新四季網

用於查詢和集成結構化和非結構化數據的方法和系統的製作方法

2023-06-12 13:58:16

用於查詢和集成結構化和非結構化數據的方法和系統的製作方法
【專利摘要】本發明涉及一種用於查詢和集成結構化和非結構化數據的方法和系統。所述方法包括:接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息,其中所述實體信息包括所述第一非結構化數據集合的第一實體與第二實體之間的關係信息;根據所述關係信息識別模式並根據所述模式創建所述第一非結構化數據集合的架構;以及如果所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度,則將所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素相關聯。
【專利說明】用於查詢和集成結構化和非結構化數據的方法和系統
[0001]相關申請的交叉引用
[0002]本申請涉及2010年5月14日提交的序號為12/780,663、代理人案號為SVL920100007US1、標題為 「MAPPING OF RELATIONSHIP ENTITIES BETWEEN ONTOLOGIES(本體之間的關係實體映射)」的美國專利申請,以及2010年10月21日提交的序號為12/909, 264、代理人案號為 Y0R920100523US1、標題為 「PERFORMING MAPPINGS ACROSSMULTIPLE MODELS OR ONTOLOGIES (跨多個模型或本體執行映射)」的美國專利申請,這兩個申請轉讓給同一受讓人並且它們的全部內容在此納入作為參考。
【技術領域】
[0003]本發明一般地涉及用於信息和數據管理的方法和系統。更具體地說,本發明涉及用於集成和查詢結構化和非結構化數據的方法和系統。
【背景技術】
[0004]在許多應用中,無縫訪問含有結構化和非結構化數據(例如,文本)的源中的信息變得更為重要。現有訪問結構化和非結構化數據的方法一般分為兩類。
[0005]第一類涉及使用通用查詢接口,例如關鍵字查詢或結構化查詢。但是,單獨查詢每種源類型,即,針對結構化數據源和非結構化數據源執行獨立查詢。
[0006]儘管此類別中的多數技術可以根據結構化數據執行對關鍵字查詢(當前盛行的非結構化文本查詢接口)的評估,但是例如在Liu等人於2007年7月23日發表於WebDB的文獻「Answering Structured Queries on Unstructured Data (回答關於非結構化數據的結構化查詢)」中提出了一種使用結構化查詢(例如,SPARQL)同時訪問結構化和非結構化數據的技術。作者提出在無需根據結構化源做出任何轉換的情況下發出結構化查詢。根據Liu的理論,在首先轉換為關鍵字查詢之後,還使用標準的信息檢索技術根據非結構化數據評估結構化查詢。
[0007]第一類技術在用戶接口層提供便利的集成,S卩,包含單個查詢範例。但是,這些技術僅在數據層提供淺層次的集成;也就是說,沒有跨結構化和非結構化源建立相關實體之間的連接。因此,在證據或支持數據分散於結構化和非結構化源中的情況下,不太可能檢索完整的回答。
[0008]第二類涉及使用信息提取技術從非結構化數據提取結構化數據。因此,簡化了同時無縫訪問結構化和非結構化數據的問題,以便只訪問結構化數據。
[0009]在根據公知的預定義架構(schema)執行信息提取階段的情況下,第二類技術可以解決第一類技術的缺點。換言之,該信息提取階段將包括從文本數據提取一組預定義的關鍵類型。儘管可以根據此類技術執行預定義架構與其它結構化架構之間的映射,但是,如果信息提取階段未提供對固定關係類型集合的限制,則從非結構化數據產生的結構化數據將處於與其它可用結構化數據分離的狀態。
【發明內容】

[0010]根據本發明的一方面,提供一種查詢和集成結構化和非結構化數據的計算機實現的方法。所述方法包括:接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息,其中所述實體信息包括所述第一非結構化數據集合的第一實體與第二實體之間的關係信息;根據所述關係信息識別模式(pattern)並根據所述模式創建所述第一非結構化數據集合的架構(schema);以及如果所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度,則將所創建架構的所述元素與(i )所述第二非結構化數據集合的所述實體或(i i )所述現有結構化數據集合的所述架構元素相關聯,從而產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間的連結(link)。
[0011]根據本發明的另一方面,提供一種用於查詢和集成結構化和非結構化數據的計算機實現的系統。所述系統包括:接收設備,其被配置為接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息,其中所述實體信息包括所述第一非結構化數據集合的第一實體與第二實體之間的關係信息;模式識別設備,其被配置為根據所述關係信息識別模式並根據所述模式創建所述第一非結構化數據集合的架構;以及元素關聯設備,其被配置為在所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度的情況下,將所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(i i )所述現有結構化數據集合的所述架構元素相關聯,從而產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間的連結。
[0012]根據本發明的又一方面,一種製品有形地包含計算機可讀指令,所述計算機可讀指令當被實現時,可導致計算機執行查詢和集成結構化和非結構化數據的計算機實現的方法的各步驟。
【專利附圖】

【附圖說明】
[0013]附圖中的流程圖和框圖顯示了根據本發明的多個實施例的系統、方法和電腦程式產品的可能實現的體系結構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。這些附圖是:
[0014]圖I是示出根據本發明的一個實施例的用於查詢和集成結構化和非結構化數據的計算機實現的系統的框圖,其中所述系統包括接收設備、模式識別設備和元素關聯設備;
[0015]圖2是示出使用開域信息提取系統從第一非結構化數據集合提取的實體信息的框圖;[0016]圖3A是示出根據本發明的一個實施例的模式識別設備如何根據已識別的模式創建架構的框圖;
[0017]圖3B是示出根據本發明的一個實施例的模式識別設備如何根據已識別的模式創建架構的一個實例的框圖;
[0018]圖4A是示出根據本發明的一個實施例的元素關聯設備如何將所創建架構的元素與第二非結構化數據集合的實體相關聯以產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體之間的連結的框圖;
[0019]圖4B是示出根據本發明的一個實施例的元素關聯設備如何將所創建架構的元素與第二非結構化數據集合的實體相關聯以產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體之間的連結的一個實例的框圖;
[0020]圖4C是示出根據本發明的一個實施例的實例級連結的一個實例的框圖;
[0021]圖4D是示出根據本發明的一個實施例的由查詢設備構造的查詢的框圖;
[0022]圖5是示出根據本發明的一個實施例的通過接收設備和作為元素關聯設備一部分的映射設備接收映射規則的框圖;
[0023]圖6是示出根據本發明的一個實施例的通過接收設備接收閾值以及通過映射設備測量和分析特定相似度值以產生相似元素-實體之間的連結以及要檢查的元素群集的框圖;
[0024]圖7是示出根據本發明的一個實施例的通過接收設備接收並通過映射設備結合反饋以產生改進後的映射規則集合的框圖;
[0025]圖8是示出根據本發明的一個實施例的包括用於查詢和集成結構化和非結構化數據的系統的一種計算機實現的系統的框圖;
[0026]圖9是示出根據本發明的一個實施例的一種查詢和集成結構化和非結構化數據的計算機實現的方法的流程圖;以及
[0027]圖10是根據本發明的一個實施例的用於執行所述方法的各步驟的電腦程式產品的圖不。
【具體實施方式】
[0028]將容易理解,此處概括描述並在附圖中示出的本發明的實施例可以以所述描述的當前優選實施例以外的各種不同配置排列和設計。因此,下面對附圖中表示的本發明實施例的詳細描述並非旨在限制所要求保護的本發明的範圍,而是僅作為選定的本發明當前優選實施例的代表。下面的描述旨在舉例,並且只是示出此處所要求保護的本發明的某些選定的當前優選實施例。
[0029]現在參考圖1,框圖示出根據本發明的一個實施例的一種用於查詢和集成結構化和非結構化數據的計算機實現的系統400。系統400包括:接收設備405、模式識別設備410、元素關聯設備415和查詢設備430。
[0030]接收設備405被配置為接收使用開域信息提取系統200從第一非結構數據集合100提取的實體信息300。實體信息300包括第一非結構化數據集合100的第一實體105_a與第二實體105-b之間的關係信息305。
[0031]現在參考圖2,示出了使用開域信息提取系統200從第一非結構數據集合100提取的實體信息300的框圖。
[0032]非結構化數據是不具有預定樣式的數據(例如,自然語言文本)。使用開域信息提取系統提取非結構化數據是本領域中的現有技術。諸如TextRunner和Prismatic之類的開域信息提取系統能夠在不將提取過程限於一組預定義的關係類型的情況下,提供提取結果。因此,本發明的各實施例利用開域信息提取系統的能力提供結構化和非結構化數據之間更緊密的數據集成。
[0033]在圖2所示的實例中,第一非結構化數據集合100包括有關AlbertEinsteinl05_l、 Richard Feynmanl05_2、 Scientistl05_3 和 Nobel Prize inPhysicsl05-5的文本信息。該第一非結構化數據集合100被輸入開域信息提取系統200。開域信息提取系統200分析並整理該輸入,然後輸出實體信息300,此信息識別實體以及實體間的關係。由於開域信息提取系統的技術並非本領域的新技術,因此將省略有關系統如何分析和整理非結構化數據的描述。在圖2中,實體信息輸出實例為:〈Albert EinsteinXisan instance of the type ofXScientist〉(參見方框 305-1)。在該實例中,〈AlbertEinstein〉和〈Scientist〉為實體,〈is an instance of the type of> 為這兩個已識別的實體之間的關係。
[0034]返回參考圖1,模式識別設備410被配置為根據關係信息305識別模式,並根據已識別的模式創建第一非結構化數據集合100的架構。
[0035]參考圖3A,框圖示出根據本發明的一個實施例的模式識別設備410如何根據已識別的模式500創建架構600。模式識別設備410接收實體信息300 (包括關係信息305)作為輸入以根據關係信息305創建模式500。模式識別設備410然後使用模式500創建包含一個或多個元素605的架構600。
[0036]根據圖2所示的實例,參考圖3B,模式實例500可以是「a scientist winsthe nobel prize in physics」(方框500-1)。該模式的架構實例600可以是「〈ScientistXwinsXNobel Prize in Physics〉」(方框 605-1 )。在該場景下,模式 500 包含兩種情況,具體地說,〈Albert EinsteinXwinsXNobel Prize in Physics〉(方框305-2)和〈Richard FeynmanXwinsXNobel Prize in Physics〉(方框 305-4)。
[0037]使用連結和集成的全局架構幫助用戶構造跨多個數據源的查詢。當用戶並不十分熟悉可用結構化和非結構化數據源中的可用信息時,此幫助尤其有用。此外,架構間連結在架構級建立各種數據源之間的連接並幫助在實例級識別可能的候選連結。在查詢時使用連結和集成的全局架構以專注於實例級連結搜索,這使發現不同源中的實例數據之間的連結更加可伸縮。
[0038]參考圖4A,元素關聯設備415被配置為將所創建架構600的元素605與(i)第二非結構化數據集合700的實體705或(ii)現有結構化數據集合(未示出)的架構元素相關聯。在圖4A中,僅示出第二非結構化數據集合作為實例。作為關聯的結果,產生所創建架構600與第二非結構化數據實體800之間的連結。
[0039]圖4B示出根據本發明的一個實施例的元素關聯設備415如何將所創建架構600的元素605-1與第二非結構化數據集合700的實體705-1、705-2、705-3、705-4、705-5、705-6、705-7相關聯以產生所創建架構的元素605-1與第二非結構化數據集合的實體705-1、705-2、705-3、705-4、705-5、705-6、705-7 之間的連結 800 的一個實例。[0040]如果所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據的架構元素之間具有足夠的整體相似度,則元素關聯設備415執行關聯。如果關聯成功,在所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間產生連結。圖4B所不的連結實例800不出三個兀素「Albert Einstein」、「Richard Feynman」和「Marie Curie」。這些兀素被視為類型「Researcher」的實例,而「Researcher」被視為類型「Scientist」的實例。實例級搜索可以在查詢評估時執行,並且可以由查詢設備430執行。
[0041]針對所有「Researcher」 的實例級搜索將返回 「Albert Einstein」、「RichardFeynman」和「Marie Curie」,儘管非結構化數據中顯式地已知只有Curie為「Researcher」(Einstein和Feynman顯式地已知為「Scientist」)。另一實例級搜索實例認識到「MariaSalomea Sklodowska」 和 「Marie Sklodowska-Curie」 也應作為答案返回並指不「MariaSalomea Sklodowska」、「Marie Sklodowska-Curie」 以及「Mrie Curie」 實為同一人。參考圖4C,其中不出下面的實例級連結實例:「Marie Sklodowska-Curie」〈-> 「Maria SalomeaSklodowska」〈-> 「Mrie Curie,,。
[0042]根據本發明的一個實施例的發現類型之間連接和相似度(例如,「Researcher」與「Scientist」之間的等價性)的技術縮小了實例級連結候選者的範圍。例如,可建立「MariaSalomea Sklodowska」與「Mrie Curie」之間的實例級連結,因為它們之間具有很高的詞彙和類型相似度。但是,不能在「Marie Curie High School 」與「Marie Curie」之間建立實例級連結,因為它們的已知類型(即,「High School」與「Scientist」)之間的相似度相對較低,儘管這兩個實例之間存在某種詞彙相似度。
[0043]參考圖4D,框圖示出由查詢設備430構造的查詢432。查詢432可被發送到下列資料庫中的一個或多個:第一非結構化數據集合100、第二非結構化數據集合700、第三非結構化數據集合720、現有結構化數據集合730 (圖中的「第一現有結構化數據」),以及其它現有結構化數據集合740 (圖中的「第二現有結構化數據」)。
[0044]在圖4C和圖4D所示的實例中,查詢設備430接收所創建的架構600和所創建的連結800作為輸入。
[0045]參考圖5,框圖示出根據本發明的一個實施例的通過接收設備405和作為元素關聯設備415 —部分的映射設備420接收映射規則集合900。映射設備420被配置為根據映射規則集合900,將所創建架構的元素605映射到第二非結構化數據實體705或現有結構化數據集合(未示出)的架構元素。作為映射的結果,產生連結800。可以使用現有的映射技術將所創建架構的元素605映射到第二非結構化數據實體705或現有結構化數據集合的架構元素。
[0046]參考圖6,框圖示出根據本發明的一個實施例的也通過接收設備405接收的閾值910。通過映射設備420測量和分析特定「相似度值」950、955、960、965以產生相似元素-實體972與要檢查的元素群集974之間的連結800。這些相似度值包括詞彙相似度950、文檔相似度955、語義相似度960和結構相似度965。
[0047]詞彙相似度950是兩個待比較架構元素的名稱之間的相似度的度量。為此,可使用基於文本的標準相似度度量,例如,編輯距離或η元詞的傑卡德(Jaccard)相似度。
[0048]文檔相似度955是兩個待比較架構元素的文檔之間的相似度的度量。為此,使用關於tf-1df詞向量的標準信息檢索餘弦測量。
[0049]當詞語(例如,詞網)的分層組織可用時,可計算兩個詞之間的語義相似度960作為它們在層次結構中的相互接近程度的度量。
[0050]結構相似度965測量兩個待比較架構元素的內部結構之間的相似度。
[0051]將相似度值950、955、960、965與閾值910進行比較以判定是否具有足夠的整體相似度970。閾值初始可以指定為映射模型的輸入,並且可以在系統經用戶反饋了解特定域中的最佳閾值之後而隨時間自動調整。
[0052]如果具有足夠的整體相似度970,則將所創建架構的元素605與第二非結構化數據實體(705 )或現有結構化數據集合(未示出)的架構元素組合成包含相似元素或元素-實體組合的組972。但是,如果沒有足夠的整體相似度,則將所創建架構的元素605與第二非結構化數據實體(705)或現有結構化數據集合(未示出)的架構元素聚集為需要進一步檢查的組。進一步的檢查可以涉及用戶反饋以評估包含元素或元素-實體組合的組為何沒有足夠的相似度。
[0053]參考圖7,框圖示出根據本發明的一個實施例的通過接收設備405接收並通過映射設備420結合以產生改進後的映射規則集合902的反饋980。可通過使用學習算法(例如,邏輯回歸)結合用戶反饋改進映射。學習算法根據用戶反饋計算出不同相似度測量值的最佳權重。可在用戶顯式拒絕或接受系統產生的映射時獲取用戶反饋。
[0054]參考圖8,框圖示出根據本發明的一個實施例的包括用於查詢和集成結構化和非結構化數據400的系統的一種計算機實現的系統1000。
[0055]將理解,計算系統1000可以包括計算設備,其中包括一但不限於一桌面計算機、膝上型計算機、伺服器、可攜式手持設備或其它任何電子設備。為簡化說明,本發明的一個實施例將在計算機1010的上下文中進行描述。
[0056]計算機1010被示為包括處理器1020、與存儲控制器1060耦合的存儲器1040、一個或多個輸入和/或輸出(I/o)設備、通過本地輸入/輸出控制器1120通信耦合的外圍設備1080、1100,以及與顯示器1160耦合的顯示控制器1140。在一個示例性實施例中,系統1000可以還包括用於耦合到網絡1200的網絡接口 1180。網絡1200在計算機1010與外部系統之間發送和接收數據。在一個示例性實施例中,傳統的鍵盤1220和滑鼠1240可與輸入/輸出控制器1120耦合。
[0057]在各種實施例中,存儲器1040存儲可被處理器1020執行的指令。存儲器1040中存儲的指令可以包括一個或多個單獨的程序,每個程序包括用於實現邏輯功能的一系列有序的可執行指令。在圖8的實例中,存儲器1040中存儲的指令包括至少一個適當的作業系統(OS) 1260以及查詢和集成系統400。作業系統1260基本控制其它電腦程式的執行並提供調度、輸入-輸出控制、文件和數據管理、內存管理、通信控制以及相關服務。
[0058]當計算機1010執行操作時,處理器1020被配置為執行存儲器1040中存儲的指令,將數據發送到存儲器1040以及從存儲器1040接收數據,根據指令總體上控制計算機1010的操作。處理器1020可以是任何定製的或商用處理器、中央處理單元(CPU)、與計算機1010關聯的多個處理器之間的輔助處理器、基於半導體的微處理器(採取微晶片或晶片組的形式)、宏處理器,或者總體上包括任何執行指令的設備。
[0059]處理器1020執行根據本發明的一個實施例的查詢和集成系統400的指令。在各種實施例中,本發明的查詢和集成系統400存儲在存儲器1040 (未示出)中,通過可攜式存儲設備(例如,CD-ROM、軟盤、快閃記憶體盤等)(未示出)執行,以及/或者從遠端位置(例如通過中央伺服器(未示出))運行。查詢和集成系統400可以是執行過程的軟體應用,如下面參考圖9描述的。在本發明的某些實施例中,存儲器1040還存儲諸如結構化和非結構化數據之類的數據。
[0060]參考圖9,流程圖示出根據本發明的一個實施例的一種查詢和集成結構化和非結構化數據的計算實現的方法2000。
[0061]在步驟2005,所述方法執行接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息的步驟。如上文參考本發明的其它實施例說明的,實體信息包括第一非結構化數據集合的第一實體與第二實體之間的關係信息。
[0062]在步驟2010,所述方法執行根據關係信息識別模式並根據模式創建第一非結構化數據集合的架構的步驟。
[0063]在步驟2015,所述方法執行以下步驟:如果所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度,則將所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素相關聯,從而產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間的連結。
[0064]所述關聯步驟2015可以包括以下步驟:接收映射規則集合(2020),以及根據該映射規則集合,將所創建架構的所述元素映射到(i )所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素以產生所述連結(2025)。
[0065]所述映射步驟(2025)可以包括以下步驟:測量所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素之間的詞彙相似度、文檔相似度、語義相似度和結構相似度,以根據給定閾值判定是否存在足夠的整體相似度(2040)。
[0066]如果具有足夠的整體相似度,所述方法執行以下步驟:將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素組合成包括相似元素或元素-實體組合的組,從而產生所述連結(2050)。
[0067]如果沒有足夠的整體相似度,所述方法執行以下步驟:將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素聚集成待檢查的組(2055)。
[0068]所述測量(2040)、組合(2050)和聚集(2055)步驟基於所接收的映射規則。
[0069]所述關聯步驟(2015)可以進一步包括以下步驟:接收有關所述映射的結果的反饋(2030)並根據所述反饋改進所述映射規則以產生改進後的映射規則(2035)。
[0070]方法2000可以進一步包括以下步驟:構造要發送到一個或多個資料庫的查詢,所述資料庫可以包括所述第一非結構化數據集合、所述第二非結構化數據集合、第三非結構化數據集合、所述現有結構化數據集合和/或另一現有結構化數據集合。
[0071]方法2000還可以包括在查詢評估時搜索實例級連結的步驟2065。
[0072]所屬【技術領域】的技術人員知道,本發明的各方面可以實現為系統(如上所述)、方法或電腦程式產品。因此,本發明的各方面可以具體實現為以下形式,即:完全的硬體實施方式、完全的軟體實施方式(包括固件、駐留軟體、微代碼等),或硬體和軟體方面結合的實施方式,這裡可以統稱為「電路」、「模塊」或「系統」。此外,本發明的各方面還可以實現為在一個或多個計算機可讀介質中的電腦程式產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。
[0073]圖10示出根據本發明的各實施例的用於執行方法2000的各步驟的電腦程式產品3000。電腦程式產品3000包括用於執行上述這些方法的步驟的電腦程式指令3200。如圖所示,電腦程式指令3200存儲在如下所述的計算機可讀存儲介質3100中。
[0074]可以採用一個或多個計算機可讀介質的組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是一但不限於一電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括以下項:具有一個或多個導線的電連接、可攜式計算機盤、硬碟、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或快閃記憶體)、光纖、可攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。
[0075]計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以採用多種形式,包括一但不限於一電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程序。
[0076]計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括一但不限於一無線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0077]可以以一種或多種程序設計語言的任意組合來編寫用於執行本發明的實施例操作的電腦程式代碼,所述程序設計語言包括面向對象的程序設計語言一諸如Java、Smalltalk、C++等,還包括常規的過程式程序設計語言一諸如「C」語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟體包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或伺服器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡一包括區域網(LAN)或廣域網(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用網際網路服務提供商來通過網際網路連接)。
[0078]應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦程式指令實現。這些電腦程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,使得這些電腦程式指令在通過計算機或其它可編程數據處理裝置的處理器執行時,產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。
[0079]也可以把這些電腦程式指令存儲在計算機可讀介質中,這些指令使得計算機、其它可編程數據處理裝置、或其它設備以特定方式工作,從而,存儲在計算機可讀介質中的指令就產生出包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的指令的製品。[0080]也可以把電腦程式指令加載到計算機、其它可編程數據處理裝置、或其它設備上,使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟,以產生計算機實現的過程,從而使得在計算機或其它可編程裝置上執行的指令能夠提供實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的過程。
【權利要求】
1.一種查詢和集成結構化和非結構化數據的計算機實現的方法,所述方法包括: 接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息,其中所述實體信息包括所述第一非結構化數據集合的第一實體與第二實體之間的關係信息; 根據所述關係信息識別模式並根據所述模式創建所述第一非結構化數據集合的架構;以及 如果所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度,則將所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(i i )所述現有結構化數據集合的所述架構元素相關聯,從而產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間的連結。
2.根據權利要求1的方法,其中關聯步驟包括: 接收映射規則集合;以及 根據所述映射規則集合,將所創建架構的所述元素映射到(i )所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素以產生所述連結。
3.根據權利要求2的方法,其中映射步驟包括: 測量所創建架構的所述元素與(i )所述第二非結構化數據集合的所述實體或(ii )所述現有結構化數據集合的所述架構元素之間的詞彙相似度、文檔相似度、語義相似度和結構相似度,以根據給定閾值判定是否存在所述足夠的整體相似度; 如果存在所述足夠的整體相似度,則將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素組合成包括相似元素或元素-實體組合的組,從而產生所述連結;以及 如果沒有足夠的整體相似度,則將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素聚集成待檢查的組, 其中測量、組合和聚集步驟基於所述映射規則。
4.根據權利要求2的方法,其中關聯步驟進一步包括: 接收有關所述映射的結果的反饋;以及 根據所述反饋改進所述映射規則集合以產生改進後的映射規則集合。
5.根據權利要求1的方法,還包括構造要發送到資料庫的查詢,所述資料庫選自包括以下項的組: 所述第一非結構化數據集合, 所述第二非結構化數據集合, 第三非結構化數據集合, 所述現有結構化數據集合,以及 另一現有結構化數據集合。
6.根據權利要求1的方法,還包括在查詢評估時搜索實例級連結。
7.一種用於查詢和集成結構化和非結構化數據的計算機實現的系統,所述系統包括: 接收設備,其被配置為接收使用開域信息提取系統從第一非結構化數據集合提取的實體信息,其中所述實體信息包括所述第一非結構化數據集合的第一實體與第二實體之間的關係信息;模式識別設備,其被配置為根據所述關係信息識別模式並根據所述模式創建所述第一非結構化數據集合的架構;以及 元素關聯設備,其被配置為在所創建架構的元素與第二非結構化數據集合的實體或現有結構化數據集合的架構元素之間存在足夠的整體相似度的情況下,將所創建架構的所述元素與(i)所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素相關聯,從而產生所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間的連結。
8.根據權利要求7的計算機實現的系統,其中: 所述接收設備被進一步配置為接收映射規則集合;以及 所述元素關聯設備包括映射設備,所述映射設備被配置為根據所述映射規則集合,將所創建架構的所述元素映射到(i)所述第二非結構化數據集合的所述實體或(ii)所述現有結構化數據集合的所述架構元素以產生所述連結。
9.根據權利要求8的計算機實現的系統,其中: 所述接收設備被進一步配置為接收用於確定架構元素之間的整體相似度的閾值;以及 根據所述映射規則,所述映射設備被進一步配置為: 測量所創建架構的所述元素與(i )所述第二非結構化數據集合的所述實體或(ii )所述現有結構化數據集合的所述架構元素之間的詞彙相似度、文檔相似度、語義相似度和結構相似度,以根據所述閾值判定是否存在所述足夠的整體相似度; 如果存在所述足夠的整體相似度,則將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素組合成包括相似元素或元素-實體組合的組,從而產生所述`連結;以及 如果沒有足夠的整體相似度,則將所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素聚集成待檢查的組。
10.根據權利要求7的計算機實現的系統,還包括查詢設備,其被配置為構造要發送到資料庫的查詢,所述資料庫選自包括以下項的組: 所述第一非結構化數據集合, 所述第二非結構化數據集合, 第三非結構化數據集合, 所述現有結構化數據集合,以及 另一現有結構化數據集合。
11.根據權利要求10的計算機實現的系統,其中所述查詢設備被進一步配置為在查詢評估時搜索實例級連結。
12.根據權利要求9的計算機實現的系統,其中所述映射設備包括邏輯設備,所述邏輯設備被配置為判定在所創建架構的所述元素與所述第二非結構化數據集合的所述實體或所述現有結構化數據集合的所述架構元素之間具有所述足夠的整體相似度還是沒有足夠的整體相似度。
13.根據權利要求8的計算機實現的系統,其中 所述接收設備被進一步配置為接收有關所述映射的結果的反饋;以及 所述映射設備被進一步配置為將有關所述映射的反饋結合到所述映射規則集合中以及 產生改進後的映射規則集合。
【文檔編號】G06F17/30GK103488671SQ201310231310
【公開日】2014年1月1日 申請日期:2013年6月9日 優先權日:2012年6月11日
【發明者】M·A·伯尼亞, S·段, J·J·范, A·福庫-恩庫徹, A·M·格裡歐佐, A·卡雅恩普爾, A·凱門西斯迪斯, K·斯裡尼瓦斯, M·J·沃德 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀