新四季網

用於把來自多個數據源的著錄項目數據存入資料庫的方法和系統的製作方法

2023-10-10 12:43:24

專利名稱:用於把來自多個數據源的著錄項目數據存入資料庫的方法和系統的製作方法
技術領域:
本發明涉及資料庫管理系統,更具體地說,涉及用於把來自多個數據源的著錄項目數據存入資料庫的方法和系統。
背景技術:
根據使用環境,有多種方法可以把關聯數據存入資料庫。可以通過用戶界面一次輸入一段數據,或者可以以自動的方式從一些其他數據源收集數據。在許多系統中,從幾個數據源存入資料庫,以其各自方式解釋每一個數據源,然後把數據關聯並添加到已經存在於資料庫中的其他數據中。例如,基於例如預定源-資料庫轉換,可以獲得特定源格式的源數據文件並直接將其轉換為適用於資料庫的格式。也就是說,如果已知特定源格式或模式(即,源數據結構),那麼就可以根據預定的資料庫格式或模式(即,目標數據結構)進行適當的轉換,以便解釋所獲得的用於直接存入資料庫的源數據。
當從包含有相同格式數據文件的單個數據源存入資料庫時,處理過程可能比較簡單。然而,當從提供不同格式(即,不同源模式)數據的不同數據源存入資料庫時會出現問題。針對該問題的一種解決方案是以每一數據源為基礎,從數據源中選取未處理的數據,然後解釋該數據,以便獲得適合存入資料庫的格式的數據。利用這種技術,需要單獨的解釋
器來把來自每一個數據源的文件存入資料庫;也就是說,為了根據目標
模式直接轉換並輸入至資料庫,需要設計一系列特定源解釋器來解釋根據特定源模式格式化的源數據。除了需要單獨的解釋器或者單獨的解釋協議以外,對於每一個數據源,這種方法還可能受到建立連結方面的限制,其中該連結是在來自不同數據源並因此通過不同解釋器的文件之間存在的連結。當把來自多個數據源的複雜的相互關聯的數據存入資料庫時,會加劇這個問題。一般來說,已知的多源資料庫存入方法受限於其執行對直接相關資料庫存入的特定源的解釋。也就是說,大多數解決方案涉及特定源格式的源數據的直接特定源轉換(即,由特定源數據結構或模式指示),以便根據最終資料庫的數據結構直接存入資料庫。例如,在"嗅覺感受器資料庫-
自基因蛋白質序列源的元數據驅動自動存入(Olfactory Receptor Database:a metadata-driven automated population from sources of gene and proteinsequences)" (354-360, Jc/& 7 e^arcA, 2002, Vol. 30, No. l)中,從
不同特定源格式的不同數據源下載數據。首先剖析下載的HTML文件,以提取出與資料庫有關的信息。例如,如果HTML剖析程序識別出對於生物體小家鼠(Mw m^cM/Ms)克隆嗅覺感受器序列,那麼該程序會把字符串mascw/wj與資料庫的知識庫進行匹配。該程序可以確定mwjmiwcw/w符合生物體屬性a30並且存儲在資料庫中作為對象ol44。用XML line <a30 object—name-'mus musculus,〉ol44〈/a30建立XML編碼文檔。這種XML編碼文件包含有以與用於輸入資料庫的結構化資料庫體系結構相適應的格式選取出的數據。利用這種複雜的方法,來自每一個不同數據源的文件必須以特定源的方式解釋,以便基於與資料庫的知識庫內元素的關聯或匹配來直接存儲資料庫。以下這種系統非常低效,例如通過査找與相同數據源文件內元素的匹配或關聯的方式,試圖直接解釋從不同數據源訪問的不同格式的數據。在以下參考文獻中可以找到使用這種方法的其4也例子"Data Warehouse Population Platform",Proceeding of the 5th International Workshop on the Design andManagement of Data Warehouses, 2003;以及通過BMC Bioinformatics在線出版的Biozon: a System for Unification, Management and Analysis ofHeterogeneous Biological Data, 2006。在後一參考文獻中,假定從不同特定源模式到目標資料庫模式的直接資料庫存入轉換存在一般缺陷,執行例如資料庫存入後的清除/過濾,以減少已存入數據中的重複和矛盾,其中該參考文件提供了一種用於直接資料庫存入的特定源數據轉換的複雜方法,該方法能夠識別複雜的來自不同數據源的數據之間的相互關係。
可選擇的解決方案提出首先定義不同數據源模式或數據結構之間的相互關係,然後通過評估或整合多源數據的方式改變這些相互關係。
美國專利申請公開No. 2008/0183658提供了這種例子,其 通過存入多源關係表的方式在數據源之間建立對象關係以進一步評估(即,報告)。在
"Source Integration in Data Warehousing", DWQ Foundations of DataWarehouse Quality, Proceedings of the 9th, International Workshop onDatabase and Expert Systems Applications (DEXA-98),第192-197頁,IEEEComputer Society Press, 1998中,建立每一個數據源的概念性表述,以便能夠理解和表述這些數據源之間的關係(即,協同聲明(intermodelassertion)),然後用於數據整合。雖然這可能會導致來自不同數據源的數據的更多整合,但是也需要大量的消耗來識別不同數據源結構或模式,而且還要基於預定義的目標模式並使用這些相互源的表述來充分理解和表述不同數據源模式如何可以與存入資料庫相關,因此每次改變或修改數據源模式時必須進行修訂。作為"Using AutoMed Metadata in DataWarehousing Environments", Proceedings of the 6 ACM InternationalWorkshop on Data Warehousing and OLAP, 2003所出版的另一例子包括通過使用原始轉換序列來逐步轉換數據源模式的方式,將每一個特定源模式逐步整合成目標模式,從而提供數據轉換過程的全部表述的訪問,其中每一個原始轉換都與由此定義的轉換路徑一起存儲。總之,這些逐步轉換是多源清除操作,該操作通過逐步存入組合的數據表述的方式改變預定義的相關源數據的相互關係。雖然這種逐步的過程提供了在反映可用轉換信息量(即,記錄路徑)方面的一些優點(包括與交互源合併操作有關的細節),但是其複雜程度尤其不能適合於一些應用,在這些應用中,降低計算和存儲要求的簡單處理強過記錄路徑的益處。
對於處理文檔的資料庫,待存入資料庫的相關數據(S卩,著錄項目數據)可以包括文檔本身和/或相關文檔數據(例如,元數據)。這種元數據可以是簡單的,例如文檔識別數字,或者可以是複雜的並具有可以與其他數據或文檔相互關聯和/或連結的多個數據項。管理基於文檔或相關文檔的資料庫或數據棧(data warehouse)中的多源數據的一般方法與上述方法相似,其中,雖然來自不同數據源的數據可以在模式的相同資料庫結構內組合併且從其訪問,但是由於直接轉換這種數據並且將其輸入到集中存儲庫(centralizedrepository),所以這種不同源數據之間的相互關係常常被忽略或省略。雖然上面對多源整合的某些水平論述了一些解決方案,但是常常以複雜程度與其他潛在缺陷大幅增加為代價,因此這些解決方案已經不易應用於基於文檔的系統。作為選擇的是,已經設計出不同的方法來進行不同數據源系統的綜合研究和分析,而不是有效組合來自這
些數據源的數據。在歐洲專利申請公開No. 1 182 578、美國專利申請公開No. 2008/0086450、美國專利申請公開No. 2003/0220897和美國專利申請公開No. 2002/0022974中提供了這種方法的例子。雖然這些方法可以通過多源數據獲得更綜合的研究策略,但是這些方法不能解決把這種多源數據整合到組合資料庫或數據棧中的問題。
因此,需要一種資料庫存儲方法和系統,其至少克服了以前方法和系統的一些缺點,或者至少為公眾提供有用的選擇。即,需要一種用於把來自多個數據源的著錄項目數據存入資料庫的新的有效方法。
上述背景信息用於揭示本申請人所認為的與本發明可能相關的信息。不必須意圖承認,也不應被解釋為上述信息構成本發明的現有技術。

發明內容
本發明的目的是提供一種資料庫存儲方法、系統和計算機可讀介質。
本發明的另一個目的是提供用於把來自多個數據源的著錄項目數據存入資料庫的方法、系統以及計算機可讀介質。
根據本發明的一個方面,提供一種把與一個或多個基於文檔的集合關聯的著錄項目數據存入相關資料庫的方法,其中所述著錄項目數據來自具有不同特定源格式的兩個以上數據源,所述方法包括以下步驟訪
問來自所述兩個以上數據源的源數據;根據由中間數據結構規定的共同
中間無關源格式使來自所述兩個以上數據源的每一個數據源的所述訪問數據獨立標準化,使得來自不同特定源格式的相似數據元素被共同識別
為所述中間格式;以及把所述標準化數據進一步解釋成與包括來自所述兩個以上數據源的每一個數據源的至少一部分資料庫元素的已存儲資料庫元素相關,再根據所述關係把參考其自身替換的至少一部分重複元素存入所述資料庫,以便與不同於所述中間數據結構的精製資料庫數據結構一致。
根據本發明的另一個方面,提供一種把與一個或多個基於文檔的集
9合關聯的著錄項目數據存入相關資料庫的系統,其中所述著錄項目數據 來自具有不同特定源格式的兩個以上數據源,所述系統包括 一個或多
個數據存儲器,用於限定中間數據結構和與其不同的精製資料庫數據結 構,並且根據所述精製資料庫數據結構存儲來自所述兩個以上數據源的 每一個數據源的資料庫元素;獨立標準化模塊,用於根據由所述中間數 據結構規定的共同中間無關源格式使從所述兩個以上數據源的每一個數 據源訪問的數據獨立標準化,使得來自不同特定源格式的相似數據元素 被共同識別為所述中間格式;以及解釋器,用於把所述標準化數據進一 步解釋成與來自所述兩個以上數據源的每一個數據源的所述已存儲數據 庫元素相關,再根據所述關係把參考其自身替換的至少一部分重複元素 存入資料庫,以便與所述精製資料庫數據結構一致。
根據本發明的另一個方面,提供一種把與一個或多個基於文檔的集 合關聯的並且從不同特定源格式的兩個以上數據源訪問的著錄項目數據 存入相關資料庫的計算機可讀介質,包括由執行以下步驟的計算機執行 的聲明和指令根據由中間數據結構規定的共同中間無關源格式使來自 所述兩個以上數據源的每一個數據源的所述訪問數據獨立標準化,使得 來自不同特定源格式的相似數據元素被共同識別為所述中間格式;以及 把所述標準化數據進一步解釋成與包括來自所述兩個以上數據源的每一 個數據源的至少一部分資料庫元素的已存儲資料庫元素相關,再根據所 述關係把參考其自身替換的至少一部分重複元素存入所述資料庫,以便 與不同於所述中間數據結構的精製資料庫數據結構一致。
在參考附圖閱讀了僅以舉例方式給出的下面具體實施例的非限制性 描述之後,將更清楚本發明的其他意圖、目的、優點和特徵。


下面將參考附圖描述本發明,附圖中
圖1是用於把來自不同數據源的數據存入資料庫的已知系統的示意
圖2是根據本發明實施例的用於把來自具有不同特定源格式的不同數據源的數據存入資料庫的系統的示意圖3是根據本發明另一實施例的用於把來自具有不同特定源格式的 不同數據源的數據存入資料庫的系統的示意圖4是根據本發明實施例的可用於相關專利資料庫環境的一部分共 同中間數據結構的例子;以及
圖5是根據本發明實施例的相關專利資料庫的一部分精製資料庫結 構的例子。
具體實施例方式
除非另有定義,本文所使用的所有技術和科技術語的含義與本發明 所屬領域的普通技術人員一般理解的含義相同。
圖1提供了用於把來自不同數據源的數據存入資料庫的已知系統 100的示意圖。在該例子中有四個不同的數據源102,這些數據源通常提 供不同特定源格式的數據。使用特定源解釋器114來解釋來自每一個數 據源的訪問數據104,以便參考資料庫的現有數據存儲資料庫。已存儲的 資料庫元素(例如,現有數據)可以存儲在數據存儲器112中。以下這種系 統非常低效,例如通過在資料庫(例如,現有數據)內或者在相同源文件內 査找元素的匹配或關聯的方式,試圖直接規範化或解釋從不同數據源訪 問的不同格式的數據。此外,這種系統會受限於連結,該連結可以形成 在來自不同數據源並通過不同解釋器解釋的數據之間。在一些直接從不 同特定源格式的文件進行解釋並存儲的系統中,當僅在來自相同數據源 的數據之間存在連結時,來自不同數據源的數據基本上存在於主資料庫 內的單獨表中。此外,如果資料庫結構改變,那麼所有解釋程序都必須 改變以適應新的結構。
現在參考圖2,根據本發明的一個實施例,示出用於把來自具有不 同特定源格式的不同數據源的著錄項目數據存入資料庫的系統200的示 意圖,其中所述著錄項目數據通常與一個或多個基於文檔的集合相關聯。 基於文檔的集合的例子可以包括但不限於由不同出版者、編者、零售渠 道、圖書館等出版或以其他方式獲得的文檔和/或不同的專用文檔管理系統(例如,科技/學術文檔,比如出版物、期刊文章、書籍、教材等;法律 文檔,比如判例法、專利和專利申請、引證、案例記錄等;文學作品, 比如書籍、小說、雜誌等)。應當意識到,可以從不同資源(g卩,不同的數 據服務供應者、出版者、數據存儲庫等)訪問不同集合,同樣可以從相同 的組合資源(例如,來自相同出版者的不同期刊、來自相同地區專利庫或 國際專利庫的不同國家的專利資源、由相同數據存取服務供應者管理的
不同集合等)訪問不同集合。本領域技術人員應當清楚這些和其他考慮因 素,因此這些不意味著脫離本發明的總體範圍和精神。此外,應當意識 到,著錄項目數據可以包括但不限於與特定文檔或文檔組關聯或將要關 聯的不同數據,其中不僅表述其來源和格式,比如(多個)作者、(多個)出 版者、(多個)
公開日期、原始和/或翻譯語言、出版字體、頁數,而且還 表述與該文檔相關的關聯或識別信息,比如引證、向前和/或向後引用、 評論、處理記錄(例如,相關專利文檔的訴訟記錄)、不同版本或修訂本、 相關聯出版物(例如,來自同族文檔的不同文檔)等。在一些實施例中,著 錄項目數據同樣適用於文檔本身和/或文檔的幾部分,關於與該文檔有關 或關聯的信息。根據本發明實施例所考慮的環境和應用,本領域技術人 員應當清楚這些和其他考慮因素。
在圖2的實施例中,具有四個不同的數據源202。從不同數據源202 訪問的著錄項目數據204通常為特定源格式(例如,特定源數據語言和/ 或編碼、數據加密、數據結構/模式等)。標準化模塊206根據共同中間無 關源格式(例如,由中間數據結構或模式規定)使來自每一個數據源的訪問 數據204獨立標準化。標準化格式可應用於來自不同數據源202的數據, 使得可以在該中間格式內普遍識別來自不同特定源格式的相似數據元 素。然後,通過共同解釋器210把這種標準化數據208進一步解釋成與 已存儲資料庫元素(例如,現有數據)有關係,已存儲資料庫元素可以包含 來自其他數據源的資料庫元素、相同數據源的以前數據譯本或版本等, 再根據這種關係存儲資料庫,即把通過這種進一步解釋獲得的任何新的 或修改的數據引入資料庫。已存儲資料庫元素可以存儲在數據存儲器212 中。在根據中間數據格式進行解釋的過程中,可以參考重複元素自身來 替換一部分或者全部重複元素。例如,重複元素可以構成指定源文件的 一部分和/或可以包括已存元素。20
本領域技術人員將會意識到,例如可以從不同或相同的數據存儲庫 訪問以不同特定源格式提供的源數據。也就是說,來自相同數據存儲庫 (例如由相同機構或組織產生、出版和/或一般訪問)的數據實際上可以以 不同的特定源格式提供,例如作為相同數據的不同譯本(例如,原始譯本 對更新譯本、修訂譯本和/或更正譯本)、不同版本(例如,使較老版本實 現新的數據格式),並且其他考慮因素可能導致不同格式化的源數據(例 如,不同的數據表述、領域、代碼、語言等),因此即使對於從相同或相 似的物理資源訪問的不同數據集,也可能需要不同的標準化協議來實現 共同的標準化中間格式。同樣,本文公開的方法和系統可以用於調整這 種不同的特定源格式,無論不同數據源實際上是否有效被相同或不同機 構管理。本領域技術人員將會意識到,機構或組織管理、出版和/或一般 地提供對給定數據集的訪問,無論是否根據一個或不同數據格式提供對 這種數據集的訪問,都不會特別關係到本文,因此,為了下面的描述, 將考慮和限定不同數據源和特定源格式,而不管它們是否由相同或不同 的起源機構所提供。然而,出於描述的目的,在一些情況下,明確地希 望來自相同機構的不同數據格式將會共享有效數據格式的相似性,即一 旦從相同標準化模塊進行處理,這種相似性不足以根據預定義的中間數 據結構提供相同的標準化輸出,而不同標準化模塊將被考慮用於使這些 相似但不同的特定源格式獨立標準化。因此,在一些實施例中,把來自 兩個或更多個數據源的數據存入資料庫,其中兩個或更多個數據源中的 一個或幾個位於相同位置,或者可以例如通過相同的機構或服務供應者 獲得,並且提供不同格式的數據。在這些實施例中,位於相同位置或者 可以通過相同機構等獲得的每一個不同數據源可以被識別為提供特定源 格式數據的不同數據源。相反,不同機構可以提供對相同格式的不同數 據集的訪問,使得相同的特定源格式被兩個不同機構使用並且從它們訪 問。因此,相同的標準化模塊可以用於這種不同的數據集,從而以用於 這種不同數據集的相同中間格式提供標準化結果。在這種實施例中,為 了下面的描述,從不同機構或數據服務供應者訪問的數據被識別為相同 數據源,這是因為所提出的資料庫存入方法和系統的執行對數據供應者 而言通常是不可見的,而且受到提供源數據的不同格式的影響。
通常,共同中間格式用於來自不同數據源的數據,並且是與資料庫結構不一致的格式。例如,標準化模塊不完全解釋數據,而是僅把數據 轉換為由共同解釋器進一步解釋的共同中間格式。也就是說,根據數據 庫數據結構的規定,通過解釋器把標準化數據解釋成與已存儲資料庫元 素相關,再根據這種關係存入資料庫。由於中間數據結構和資料庫數據 結構兩者都是固定的,所以解釋步驟通常是對來自不同數據源和來自不 同特定源格式的數據的解釋步驟。因為根據共同中間格式首先使來自一 個以上數據源的不同格式的數據標準化,所以與如圖1所示的通過把數 據源格式直接解釋為資料庫格式的已知系統相比,可以更容易、有效地 與來自不同數據源的元素建立關係或連結。也就是說,圖2的系統把特 定源數據首先轉換為由中間數據結構或模式規定的無關源中間格式,其 中中間數據結構或模式對於從每一個特定源格式的每一個數據源訪問的 數據而言是共同的。然後,解釋器繼續解釋這種與精製資料庫數據結構 一致的數據,從而可以以無關源方式執行進一步解釋,因此可以導致更 高的處理效率、更好的處理簡易性和/或數據整合的更高水平,而不需要 上述某些較複雜的數據整合方案。也就是說,既不需要定義相異特定源 模式之間的關係,也不需要同步解釋不同數據集以供有效的數據交叉引 用。例如,可以獨立地處理不同源的數據,也可以成批地處理(即, 一次 處理涉及幾十、幾百或幾千個文檔的著錄項目數據)或者單獨地處理(即, 獨立處理所關心的單個文檔及其相關數據)。
此外,通過從資料庫的目標數據結構中分離每一個特定源數據結構, 可以通過僅修訂特定源標準化模塊來調整在源數據結構中進行的變化 (例如,涉及由相同資源提供的新的、修訂的和/或更新的信息),這是因 為中間數據結構沒有變化,所以共同解釋器也保持不變。相反,如果修 訂了資料庫數據結構,那麼僅需要修訂共同解釋器,並且每一個特定源 標準化模塊保持不會因這種修訂而改變。
此外,應該意識到,在一些實施例中,通過從特定源格式中僅選取 所關心的信息來標準化成與中間數據結構(例如,與給定資料庫應用有關 的著錄項目數據的子集)一致,可以與已存儲資料庫元素相關地僅有效解 釋轉換成共同無關源格式的這種所關心信息,從而形成有效的、全面的 多源資料庫存儲方法。相反,訪問與資料庫結構的不同部分有關的不同源數據,在資料庫結構的該特定部分內可以更容易地轉化為用於直接解 釋的中間格式,同時允許與來自資料庫結構的其他部分的數據建立適當 關係(例如,可以整合文檔的分類代碼與描述符,以準備與引用這種分類 代碼的文檔相關聯)。
本領域技術人員將會意識到,本發明的方法和系統可以允許通過使 精製資料庫結構內的整合數據規範化的方式精簡中間數據結構。例如, 中間數據結構可以用於僅提供給定其中間狀態的最小規範化(例如,規範 化成一次正常形式),然後在對與已存儲資料庫元素相關的這種中間數據 解釋之後可以進行再次規範化,從而在適宜時可以規範化成三次或者更 高的正常形式。此外,這種方法可以避免在一次迭代時源數據的完全直 接規範化,其中這種數據此後需要相對於在先存儲的資料庫元素完全再 次規範化。因此,資料庫數據結構的規範化可以高於中間數據結構的規 範化。此外,在一些實施例中,例如,在精簡與資料庫數據結構一致的 中間數據以後,減少或避免了對資料庫存入數據後處理的需要,例如數 據過濾、清除等(例如,去除副本、錯誤輸入等)。本領域技術人員將會意 識到,其他考慮因素可以應用於精簡與目標資料庫數據結構一致的中間 數據,從而獲得與現有技術情況類似的優點。
在一些實施例中,與已存儲資料庫元素相關並且與標準化數據內的 其他元素相關地解釋標準化數據。例如,不僅可以參考重複資料庫元素 替換與已存儲資料庫元素重複的元素,而且如果訪問數據本身和因而的 標準化數據都包含重複元素,那麼也可以參考所述元素替換訪問數據本 身和標準化數據。本領域技術人員將清楚,在存儲過程中可以用更多最 新數據或者全部數據來更新或替換己存儲資料庫元素。
此外,根據一個實施例,例如,基於與不同文檔相關聯的其他數據 元素之間的相似程度,解釋步驟可以用於把與不同文檔相關聯的相似數 據元素解釋為相同,以便參考其替換這種相同元素的出現。例如,雖然 兩個文檔可以列出具有相同姓名的作者,例如,在中間數據格式內共同 識別其著錄項目數據元素,但是如果發現這些作者輸入的問候數據也充 分相似,那麼這些作者將僅被視為為同一作者。例如,在一個實施例中, 雖然明顯識別的居住城市可以足以維持兩個共同姓名作者之間的區別,
15但是可以認為共用相同姓名、國籍和居住城市的兩個作者是同一作者。 本領域技術人員將清楚,當把本文所述的方法和系統用於特定應用時, 在不脫離本發明的總體範圍和精神的情況下,在此可以考慮這些和其他 解釋規則。
本領域技術人員將會意識到,可以並行、順序或者按照其他順序處 理來自不同數據源的訪問數據。例如,可以同時從所有可用數據源規則 地更新資料庫,和/或根據循環進度表定時地更新資料庫,例如根據由每 一個數據源獨立提供的源數據的更新有效性確定的循環進度表。來自數 據源的訪問數據可以是一個文件或者是多個/批文件。訪問數據可以在解 釋之前或者解釋過程中被剖析為相關的或者所需的元素。在一些實施例 中,利用以下系統自動地進行資料庫存入,其中該系統從一個或多個數 據源下載文件,並且自動地將文件轉換為用於解釋並存存資料庫的中間 標準。在一些實施例中,根據預定的進度表從數據源下載文件。進度表 可以基於相應數據源的更新時機。也可以手動地或者半自動地啟動存儲。
在一個實施例中,訪問數據可以為XML。在一些其他實施例中,訪 問數據可以轉換為用於標準化模塊的XML或者通過標準化模塊轉換為 XML。在其他實施例中,訪問數據可以為CSV,或者可以轉換為用於標 準化模塊的CSV或者通過標準化模塊轉換為CSV。本領域技術人員將會 意識到,訪問數據可以為不同的語言或結構,象得到的標準化數據一樣。
在一個實施例中,通過以下方式使至少一部分訪問數據標準化首 先讀取特定源格式的訪問數據,然後將其適用的每一個讀取數據元素與 可用於共同中間標準化格式的相應標準化元素(例如,數據的類別、類、 索引、項、記錄等)關聯。也就是說,在這種標準化中,有關的標準化模 塊等用於讀取和理解特定源格式的數據元素,以便與共同的標準化格式
的相應元素關聯。
在相同的或者可選的實施例中,通過以下方式使至少一部分訪問數 據標準化從共同的標準化格式中讀取可用元素(例如,數據的類別、類、 索引、項、記錄等),然後從訪問數據中檢索特定源格式的相應數據元素。 因此,這種方法涉及讀取和理解共同標準化格式,以及從特定源格式中 檢索相應的可用數據。在以下這種實施例中,可以根據可擴展樣式表語言轉換(XSLT)實現 關聯的標準化模塊,其中該實施例為至少對於數據源之一,根據可擴 展標記語言(XML)格式提供並格式化訪問數據。也就是說,可以通過 XSLT使特定源XML格式標準化以提供共同標準化中間格式(可以為 XML),或者使用更適合於下遊解釋的可選語言(例如,超文本標記語言 -HTML等)使特定源XML格式格式化。本領域技術人員將容易知道這些 和其他轉換協議,因此應當被認為它們是示例方式而不是限制方式。在一個實施例中, 一個或多個標準化模塊被編碼和/或包括用於從給 定的特定源格式組合數據以便與共同標準化格式一致的聲明和指令。例 如,在訪問數據提供專利相關數據的實施例中,可以提供特定源格式的 不同數據元素來識別文檔國家和文檔序列號,因此共同標準化格式更需 要這種元素的組合以按照特定國家的方式提供文檔序列號。例如,可以 以特定源格式提供美國專利申請序列號(US Patent Application Serial Number) 10/111,111,作為兩種不同的輸入US和 10/111,111 ,因此標準化格式可以提供以下格 式US 10/111,111 l,從而組合兩個數據輸入。 在一些實施例中,接著同一例子,可以重複利用相同的特定源數據元素 以便與標準化格式一致,例如當考慮到用於標準化格式的下遊解釋時, 特定源格式的國家代碼可以用於組合了申請序列號輸入的標準化格式、 單獨的國家代碼輸入(可以為相同格式,例如US,或者為可選格式,例 如United States)和/或其他適當輸入。因此,數據標準化可以包括一對一 關聯、 一對多關聯和/或組合;多對一關聯和/或組合;和/或多對多關聯 和/或組合。應當意識到,雖然以XML類型的格式提供上述實施例,但 是本領域技術人員容易理解,本文描述的本發明實施例不限於這種語言。圖3是根據本發明另一實施例的用於把來自不同數據源302的數據 存入資料庫的系統300的示意圖。在本實施例中,訪問數據304被判定 剖析器316處理,其決定使用哪一個標準化模塊306來標準化數據格式。 然後,通過解釋器310把標準化數據308解釋成與已存儲資料庫元素(例 如,現有數據)相關,再根據這種關係存入資料庫。已存儲資料庫元素可 以存儲在數據存儲器312中。資料庫可以包括數據存儲器,在一些實施例中還包括解釋器。在一 些實施例中, 一個或多個標準化模塊也可以構成資料庫的一部分。在包 括判定剖析器的實施例中,其可以構成或不構成資料庫的一部分。本領域技術人員將會清楚,系統可以是整套的,或者不同組成部分 或功能可以是遠程的。例如,多個標準化模塊可以位於一個位置,而解 釋器和數據存儲器可以位於另一個位置。多個標準化模塊也可以位於分 開的位置或者位於一個位置,解釋器和數據存儲器也是如此。數據存儲 器和/或解釋器也可以具有遠程功能。本領域技術人員將會意識到,這裡 可以考慮各種本地的、分布式的、網絡化的和/或其他這種系統結構,例 如,在不脫離本發明的總體範圍和精神的情況下,通過各種通訊媒介(例如,網際網路、乙太網、LAN等)並使用各種通訊算法和/或協議來相互連接。在一個實施例中,可以通過一個或多個用於提供用戶界面的計算機 從內部和/或外部進一步訪問系統,例如通過適當的監視器和用戶數據訪 問平臺(例如,對已存儲數據提供結構化和有組織訪問的應用程式界面 等,比如本地或網絡化桌面應用程式、基於網絡的應用程式等),從而能 夠對解釋數據進行查看、搜索、恢復、分類、分級、選取和/或其他的用 戶操作和消費以及它們之間的相互關係。可以通過例如桌上型計算機、 膝上型計算機和/或掌上計算機提供這種訪問,該訪問可以是系統本地的 (例如,包括一部分或者全部與標準化模塊和解釋器有關的處理器和數據 存儲介質)、區域性的(例如,包括與一部分系統模塊或部件的一些本地的 或區域性的網絡互聯)或遠程的(例如,包括經由一個或多個公共的、專用 的、私人的和/或安全的網絡連接的遠程網絡容量)。本領域技術人員將會意識到,通過不同的計算平臺、裝置等可以實現本發明不同實施例的各種部件和/或模塊。例如,可以通過能夠操作和 交換不同格式數據的相同或不同計算平臺來實現不同的模塊,並且通過一個或多個數據存儲器、處理器等支持不同的模塊。此外,可以通過一 個或多個用戶界面(例如,諸如監視器、鍵盤、印表機等本地和/或遠程外 圍設備)提供對這種模塊的管理訪問,從而不僅能夠通過處理來操作和/ 或修改數據和模塊本身,而且還可以獲得對最終產品(例如,存儲的並相互聯繫的解釋過的數據元素)的訪問。在一個實施例中,資料庫通常是可以規範化成各種形式的相關數據 庫。例如,本領域技術人員將會意識到,資料庫可以被規範化成一次、 兩次、三次或以上的規範形式,以便有效組織資料庫中的數據,並且通 過以參考其自身替換一些或全部重複元素的方式來消除或減少冗餘數 據。在一個實施例中。數據可以包括元數據。在一些實施例中,至少部 分地基於元數據的各個元素之間的相互關係存入資料庫。在一個實施例中,資料庫是文檔資料庫並包括涉及文檔的元數據以 及文檔本身。在一個實施例中,文檔是出版物,並且元數據可以包括出版日期、(多個)作者、語言、出版字體等。在一個實施例中,資料庫是專利資料庫。在本實施例中,元數據可 以包括申請狀態(公開、放棄、公布的專利等)、各種日期(例如,申請曰
公開日)、優先權數據、引用的現有技術等。每一個專利或專利申請的數 據之間的各種關係可以用於存入資料庫。連結可以建立在例如元數據與 其他專利之間。在一個實施例中,資料庫是規範化成三次規範形式的完全相關數據 庫,同時參考所述數據替換重複數據。例如,在專利資料庫的應用中, 如果單個數據集中的五個專利被劃分為相同的分類代碼,比如H01L-015/32,那麼來自數據源的訪問數據以及標準化數據會包括該數據 元素的五種情況。在解釋和存儲之後,單個H01L-015/32元素將從涉及 該類別的專利存儲在包括有與其連結的資料庫中。使用具有專利和類別 二者的一對多關係的連結表可以實現這種多對多關係。例如,還可以從 WIPO下載數據以列舉IPC類別代碼的分類以及名稱等,使得資料庫還 可以包含有關代碼的信息(比如,它的專利代碼、任何子代碼和代碼的名 稱/描述)。按照這種方式,與獲得自單個數據源的情況相比,五個專利可 以與更多數據連結。在根據一個實施例的有關專利資料庫的另一個例子中,把標準化數 據解釋成與包含有專利的已存儲資料庫元素相關,以便根據這種關係存19入資料庫。例如,如果訪問數據包含引用另一專利的專利,其中所述另 一專利已經在資料庫中作為已存儲資料庫元素(g卩,因為其包含在先前訪 問的數據中),那麼可以根據這種關係存入資料庫。例如,除了專利號以 外,訪問數據包含很少或者不包含有關引用專利的信息。然而,由於根 據這種關係存入的資料庫,來自訪問數據的專利的記錄與它的已存儲數 據庫元素的引用專利的記錄連結。因為它們在資料庫中連結,所以對引 用專利的向前引用分析很簡單,而如果沒有這種連結,那麼針對所有引 用專利的文獻必須對資料庫進行檢索。在該例子中,向前引用分析與向 後引用分析一樣簡單。因為首先把訪問數據標準化成共同中間標準化格 式,然後解釋成與已存儲資料庫元素相關,再根據所述關係把參考其自 身替換的至少一部分重複元素存入資料庫,所以資料庫可以包括有效連結。例如,如果一個數據源提供了引用EP專利的U.S.專利,其中EP專 利已經在資料庫中並且來自另一數據源,那麼該資料庫存儲方法(涉及把 來自標準化格式的這種數據解釋成與已存儲資料庫元素相關)允許這兩 個文檔在資料庫內有效連結。按照這種方式,因為這兩個文檔已經在數 據庫內連結,所以資料庫用戶不必為U.S.專利所引用的EP專利而檢索數 據庫。圖4給出了根據一個實施例的可用於相關專利資料庫環境的一部分 標準化中間數據結構的例子。該標準化數據結構包括專利與類別之間的 簡單的一對多關係。 一個專利可能具有多個類別,但是每一個類別只屬 於一個專利。如果存在與給定類別代碼有關的多個專利,那麼在分類表 中將存在多個重複輸入並且每一個輸入指向不同的專利。圖5給出了根據一個實施例的相關專利資料庫的一部分解釋的精製 數據結構的例子。通過連結表PatentClasses,這種規範化數據結構顯示 出專利與類別之間的多對多關係。分類表具有附加信息,比如母-子關係 和類別名稱。PatentCitations是另一連結表,用於創建Patents與Patents 之間的多對多關係,例如,包括專利與其引用專利之間的連結。下面提供了用於根據一個實施例的存入相關專利資料庫方法的有關 數據格式的例子。下面是來自European Patent Office's Open Patent Services (歐洲專利局的公開專利服務)網絡服務的響應,作為對EP1000000數據的請求的響應。訪問數據為特定源格式。 — —EP1000000A199203729NL199810105361010536H02P6/08; B28B1/29; B28B5/02B2; B28B7/00FB28B5/02; B28B1/29;>B28Bl/00; B28B5/00; B28B7/00; H02P6/08B28Bl/29; B28B5/02; B28B7/00; H02P6/08Apparatus for manufacturing green bricks for the brick manufacturing industryVorrichtung zur Herstellung von Stdnformlingen fiir die Ziegelindustrie Dispositif pour la fabrication de briques crues utilis6es dans l'industrie manufacturi6re des bHquesEP0680812 Al |A;NL9400663 AA;DE3546191 Al [A] The invention relates to an apparatus (1) for manufacturing green bricks from clay for the brick manufacturing industry, comprising a circulating conveyor (3) carrying mould containers combined to mould container parts (4), a reservoir (5) for clay arranged above the mould containers, means for carrying clay out of the reservoir (5) into the mould containers, means (9) for pressing and trimming clay in the mould containers, means (11) for supplying and placing take-off plates for the green bricks (13) and means for discharging green bricks released from the mould containers, characterized in that the apparatus further comprises means (22) for moving the mould container parts (4) filled with green bricks such that a protruding edge is formed on at least one side of the green bricks. BOER BE肌ER NIJMEGEN BV DE (NL)BEHEERMAATSCHAPPIJ DE BOER NIJMEGEN B.VKOSMAN WILHELMUS JACOBUS MARIA (NL) — 一EP1000000B199203729NL199810105361010536H02P6/08; B28B1/29; B28B5/02B2; B28B7/00FB28B5/02; B28B1/29; B28B7/00B28Bl/00; B28B5/00; B28B7/00; H02P6/08B28Bl/29; B28BS/02; B28B7/00; H02P6/08Vorrichtung zur Herstellung von SteinformliDgen fiir die Ziegelindustrie Dispositif pour la fabrication de briques crues utilises dans l'industrie manufacturi6re des briquesBEHEERMIJ DE BOER NIJMEGEN B V (NL)BEHEERMAATSCHAPPIJ DE BOER NIJMEGEN B.V KOSMAN WILHELMUS JACOBUS MARIA (NL)KOSMAN, WILHELMUS JACOBUS MARIA

</BIBLIO

下面是通過根據本實施例的共同中間標準化格式使上述訪問數據標 準化獲得的標準化中間數據。這種格式可用於來自其他數據源的數據,
例如在本實施例中,這種格式可用於美國專利商標局FTP伺服器。
-
Apparatus for manufacturing green bricks for the brick manufacturing industry 0 0 (K/SirFlag:> (K/ContProsApp> 0
0
0
0
EP
99203729

19991108
UNKNOWN
-
BEHEERMAATSCHAPPIJ DE BOER NIJMEGEN B.V


NL
ASSIGNEE
UNKNOWN
NON_EXAMINER -
KOSMAN, WILHELMUS JACOBUS MARIA


NL
APPLICANT
NON—ASSIGNEE
NON_EXAMINER -
IPC
B28B"001/29
8
20070101
〈Class"Name />
(K/ParentClassID> l -
IPC B28B-005/02
8 20070101
<ClassName 〉 0 0 -
IPC B28B-007 8 20070101 0 0 -
IPC H02P-006/08 8</Version〉 20070101 〈ClassName /i>
0
0 -
EPC
H02P-006/08
0
0
〈ClassN咖e />
0
l -
EPC
B28B-001/29
0
0

(K/ParentClassID>
0 -〈ClassC
EPC
B28B"005/02.B2
0
0

0
0 -
EPC
B28B-007/00.F0 0 〈ClassName />
0
Q -
〈Parent(3ountrj^NI/^/ParentCountrj^"
1010536
19981112
EP
99203729
19991108々ChildAppDate>
FOREIGN_PRIORITY
19991108
20191108
1000000
Bl
20030212
1000000
20000517
Al
The invention relates to an apparatus (1) for manufacturing green bricks from clay for the brick manufacturing industry, comprising a circulating conveyor (3) carrying mould containers combined to mould container parts (4), a reservoir (5) for clay arranged above the mould containers, means for carrying clay out of the reservoir (5) into the mould containers, means (9) for pressing and trimming clay in mould containers, means (11) for supplying and placing take-off plates for the green bricks (13) and means for discharging green bricks released from the mould containers, characterized in that the apparatus further comprises means (22) for moving the mould container parts (4) filled with green brici(s such that a protruding edge is formed on at least one side of the green bricks.

把上述標準化中間數據解釋成與已存儲資料庫元素相關,其中已存 儲資料庫元素包括來自至少另一數據源的資料庫元素,再根據上述關係 把參考重複元素替換的至少一部分所述重複元素存入資料庫。根據精製 資料庫數據結構使存入資料庫的數據規範化。雖然通常僅存在於資料庫
中,但是下面的是資料庫中的輸出返回至XML文件的相應數據的近似 值。


-
-l
Apparatus for manufacturing green bricks for the brick manufacturing
industry
0
0
false
false
false
24> 0
The invention relates to an apparatus①for manufacturing green br|cks from clay for the brick manufacturing industry, comprising a circulating conveyor (3) carrying mould containers combined to mould container parts (4), a reservoir (5) for clay arranged above the mould containers, means for carrying clay out of the reservoir (5) into the mould containers, means (9) for pressing and trimming clay in the mould containers, means (11) for supplying and placing take-off plates for the green bricks (13) and means for discharging green bricks released from the mould containers, characterized in that the apparatus further comprises means (22) for moving the mould container parts (4) filled with green bricks such that a protruding edge is formed on at least one side of the green bricks.
EP
1000000
Bl々GrantKind>
20030212
99203729
〈AppPrefix >
19991108々AppDate>
UNKNOWN
1000000
Al
20000517
false -
-2
NL
1010536
〈AppPrefix />
19981112
false -
-l
BEHEERMAATSCHAPPIJ DE BOER NIJMEGEN B.V


〈Countiy〉NL々Country〉
ASSIGNEE
UNKNOWN -
-2
KOSMAN, WILHELMUS JACOBUS MARIA


NL
APPLICANT
NON_ASSIGNEE
-
-l
-l
NON_EXAMINER -
25-l-2
NON—EXAMEVER-
-l
B28B-001/29
20070101
8
IPC-
-2
B28B^005/02
20070101
8
IPC-
-3
B28B^007
20070101
8
IPC-
-4
H02P-006/08
20070101
8
IPC-
-5
H02P-006/08
0
0
EPC-
-6
B28B~001/29
0
0
EPC-
-7
B28B-005/02.B2
0
0
EPC-
-8B28B-007/00.F
0
0
EPC-
-l
-l-
-l
-2-
-l
-3-
-l
-4-
-l
-5-
-l
-6-
-l
-7-
-l
-8々ClassID>-
-2
-l
FOREIGN—PRIORTTY
如上文所述,本發明的不同實施例可以應用於不同類型的著錄項目數據,例如應用於與來自不同類型的基於文檔的集合的文檔關聯的並相互聯繫的相關文檔數據。例如,雖然上文應用於專利資料庫集合,但是下面的例子涉及一般出版物,包括書籍和/或論文以及與其相關的著錄項目數據。在下一個例子中,沒有提供特定源數據格式,特別是在上面例子後,本領域技術人員將會意識到可以提供源數據的不同特定源數據格式。相反,下面的例子首先提供從不同數據源訪問的並且根據共同中間無關源格式獨立標準化的並列標準化中間數據。
-
-
Hitchhiker's Guide to the Galaxy--
AdamsDougIas〈MiddleN咖e />
Mr.
2005-04-01UKPan Books-
224
〈IdentityNumber>978-0330437981
-
Hitehhiker's Guide to the Galaxy--
AdamsDouglas
Mr.■
1979-10-12UKPan Books-
180
0-330-25864-8(Container type-"series" />
-
The Restaurant at the End of the Universe-
Adams
Douglas


〈Prefix />
Mr.
1980-01-01UKPan Macmillan-
208
〈IdentityNumber>0-345-39181-0〈Container />
-
《itle〉Ufe, the Universe and Everything-
Adaras^/LastName>
Douglas



Mr.
1982-01-01U'KPan Books-
160
0-330-26738~8〈Container >
-
So Long, and Thanks for All the Fish--
AdamsDouglas
〈Prefix />
Mr.
1984-01-01UKPan Books-
〈NumberOfPagePl92,umberOffages〉
0-330-28700-l
-TechNetMicrosoft Corporation 2009-07-01USUnited Business Media LLC - -<Name〉
Hoffman
Joshua


〈Prefix />
Mr. - -
Gravcn
Matthew
〈MiddleName 〉


Mr. - -
Terdeman
Sharon
〈MiddleName />


Ms.
"Binding>
64
〈IdentityNumber>1551-2770 -
5
7
-
Inside Windows 7 User Account Control -〈Author〉 -
Russinovich Mark

Mn
2009-07-01 US
United Business Media LLC -
7

-
<Work


<Worktype="book"
與第一個例子一樣,然後可以根據已存儲資料庫元素解釋上述取樣 的無關源中間數據,再根據精簡的無關源資料庫的數據結構把新的和/或
更新的數據存入該資料庫。
:〈StandardizedLiterary Works> :
l
series 々Container〉 :
l
2
l々OrderNumber> :
l
3
2 ;;
l
4
3 :
l
5
4
:;
l
book
Hitchhiker,s Guide to the Galaxy
2005-04-01
UK
hardcover
224
0
0 :
2book
Hitchhiker's Guide to the Galaxy
1979-10-12
UK
paperback
180
0
(K/Edition> 二
3
book
The Restaurant at the End of the Universe
1980-01-01
UK
paperback
208
0
0 :
_ 4
book
Life, the Universe and Everything
1982-01-01
UK
paperbaek
160
0
0 二
_ 5
book
So Long, and Thanks for All the Fish
1984-01-01
UK
paperback
192
0
0 :
_ 6
journal TechNet
2009-07-01
US々Country>
paperback
64
5
7 -7 artkIe
Inside Windows 7 User Account Control 2009-07-01 US paperback 7</NumberOfPages〉 0 0
:
l
lSBN-10 0330437984

:
_ l
ISB]V-13 9780330437981

:
—2
ISBN-10 0330258648

:
一 3
ISBN-10 034539181(K/IdentityCode>

:
一 4
ISBN-10 0330267388

:
一 5
ISBN-10 0330287001

:
—6
ISSN 15512770

:
_ l
person
Adams, Mr. Douglas :
2
company
Pan Books 二
3
company
Pan Macmillan :
4
company
Microsoft Corporation :
5
company
United Business Media LLC 二
6
person
Hoffman, Mr. Joshua :
_ 7
person
Graven, Mr. Matthew 二
8
person
Terdeman, Ms. Sharon 二
$K/EntityID>
person
Russinovkh, Mr. Mark :: _ l
l^/EntityID>
author :
l
2
publisher 二 _ 2
l
author 二 _ 2
2
publisher
_ 3 l author

::
_ 3 3 publisher

:
一 4 l author


_ 4 2 publisher


—5 l author

:
_ 5 2 publisher

:
_ 6 4 author

::
—6 5 publisher

:
一 6 6 editor

;:
一 6 7 editor

:
一 6 8 editor

7
9
author ::
7
〈EntitylD〉5^Entityn^
publisher :
2
l
republication :
6
7
container
本領域技術人員將會意識到,在不脫離本發明的總體範圍和精神的 情況下,可以考慮上述的和其他的資料庫存入方法和系統。
雖然根據目前被認為最實際並且優選的實施例描述了本發明,但是 必須理解,本發明不限於所公開的實施例。本領域技術人員將懂得,在 不脫離權利要求書限定的本發明的精神和範圍的情況下,可以有各種修 改形式以及等同結構和功能。因此,權利要求書限定的本發明必須給予 最寬泛的可能解釋,以涵蓋所有這些修改形式以及等同結構和功能。
權利要求
1.一種把與一個或多個基於文檔的集合關聯的著錄項目數據存入相關資料庫的方法,其中所述著錄項目數據來自具有不同特定源格式的兩個以上數據源,所述方法包括以下步驟訪問來自所述兩個以上數據源的源數據;根據由中間數據結構規定的共同中間無關源格式使來自所述兩個以上數據源的每一個數據源的所述訪問數據獨立標準化,使得來自不同特定源格式的相似數據元素被共同識別為所述中間格式;以及把所述標準化數據進一步解釋成與包括來自所述兩個以上數據源的每一個數據源的至少一部分資料庫元素的已存儲資料庫元素相關,再根據所述關係把參考其自身替換的至少一部分重複元素存入所述資料庫,以便與不同於所述中間數據結構的精製資料庫數據結構一致。
2. 根據權利要求l所述的方法,其中所述資料庫數據結構被規範化 成高於所述中間數據結構的規範形式。
3. 根據權利要求l所述的方法,其中所述中間數據結構被規範化成 一次規範形式,而所述資料庫數據結構被規範化成三次規範形式。
4. 根據權利要求1所述的方法,其中所述進一步解釋步驟通過一個 或多個數據元素與著錄項目數據相互關聯,所述著錄項目數據最初來自 不同的特定源格式並且與來自不同的基於文檔的集合的文檔關聯,所述 一個或多個數據元素為所述文檔的每一個文檔共用並通過所述標準化步 驟被共同識別為所述中間格式。
5. 根據權利要求l所述的方法,其中所述進一步解釋步驟包括基 於與所述不同文檔相關聯的其他數據元素之間的相似程度,把與所述不同文檔相關聯的相似數據元素解釋為相同。
6. 根據權利要求1所述的方法,其中所述進一步解釋步驟是通過用於所有獨立標準化數據的共用解釋器實現的。
7. 根據權利要求l所述的方法,其中所述至少一部分重複元素至少 存在於以下之一在來自單個數據源的所述標準化數據中、在來自多個 數據源的所述標準化數據中、在所述標準化數據與所述已存儲資料庫元 素之間以及同時在所述標準化數據中和在所述標準化數據與所述已存儲 資料庫元素之間。
8. 根據權利要求l所述的方法,其中以同時、順序和可用方式中的 至少一種方式進一步解釋來自不同數據源的獨立標準化數據。
9. 根據權利要求l所述的方法,其中所述訪問數據選自單個文件、多個文件和批文件。
10. 根據權利要求1所述的方法,其中所述資料庫被規範化成一次、 二次、三次和四次規範形式中的一種規範形式。
11. 根據權利要求l所述的方法,其中所述訪問數據包括元數據。
12. 根據權利要求1所述的方法,其中所述一個或多個基於文檔的 集合包括一個或多個基於專利文檔的集合。
13. 根據權利要求12所述的方法,其中所述已存儲資料庫元素包括 元數據和專利文檔。
14. 根據權利要求1所述的方法,其中用至少一種多對多關係規範 化所述資料庫。
15. 根據權利要求14所述的方法,其中使用具有一對多關係的連結 表實現所述至少一種多對多關係。
16. 根據權利要求1所述的方法,其中所述進一步解釋步驟根據所 述關係存入資料庫,使得在不能從所述兩個以上數據源的任一數據源獲 得的資料庫中單獨存在連結。
17. 根據權利要求1所述的方法,其中通過一個或多個計算機自動 地實現所述標準化和進一步解釋步驟,其中所述一個或多個計算機包括 與其中存儲有聲明和指令的一個或多個數據存儲器操作性連接的一個或 多個處理器,當所述一個或多個處理器執行聲明和指令時,自動地實現 所述標準化和進一步解釋步驟。
18. 根據權利要求1所述的方法,其中所述訪問步驟包括以下步驟 中的一步或幾步至少從所述數據源之一獲得所述源數據,和訪問在先獲得的源數據。
19. 根據權利要求1所述的方法,其中以不同特定源格式訪問來自 相同的基於文檔的集合的不同數據集。
20. —種把與一個或多個基於文檔的集合關聯的著錄項目數據存入 相關資料庫的系統,其中所述著錄項目數據來自具有不同特定源格式的 兩個以上數據源,所述系統包括一個或多個數據存儲器,用於限定中間數據結構和與其不同的精製 資料庫數據結構,並且根據所述精製資料庫數據結構存儲來自所述兩個以上數據源的每一個數據源的資料庫元素;獨立標準化模塊,用於根據由所述中間數據結構規定的共同中間無關源格式使從所述兩個以上數據源的每一個數據源訪問的數據獨立標準 化,使得來自不同特定源格式的相似數據元素被共同識別為所述中間格式;以及解釋器,用於把所述標準化數據進一步解釋成與來自所述兩個以上 數據源的每一個數據源的所述已存儲資料庫元素相關,再根據所述關係 把參考其自身替換的至少一部分重複元素存入資料庫,以便與所述精製 資料庫數據結構一致。
21. 根據權利要求20所述的系統,還包括判定剖析器,其基於所述 訪問數據關聯的特定源格式決定用於所述訪問數據的適當標準化模塊。
22. 根據權利要求20所述的系統,包括專利文檔資料庫系統。
23. —種把與一個或多個基於文檔的集合關聯的並且從不同特定源 格式的兩個以上數據源訪問的著錄項目數據存入相關資料庫的計算機可 讀介質,包括由執行以下步驟的計算機執行的聲明和指令根據由中間數據結構規定的共同中間無關源格式使來自所述兩個以 上數據源的每一個數據源的所述訪問數據獨立標準化,使得來自不同特 定源格式的相似數據元素被共同識別為所述中間格式;以及把所述標準化數據進一步解釋成與包括來自所述兩個以上數據源的 每一個數據源的至少一部分資料庫元素的已存儲資料庫元素相關,再根 據所述關係把參考其自身替換的至少一部分重複元素存入所述資料庫, 以便與不同於所述中間數據結構的精製資料庫數據結構一致。
24. 根據權利要求23所述的計算機可讀介質,還包括在選擇適當 標準化指令時,用於基於特定源格式剖析訪問數據的聲明和指令。
25. 根據權利要求23所述的計算機可讀介質,其中所述一個或多個 基於文檔的集合包括基於專利文檔的集合。
全文摘要
本發明公開一種把來自多個數據源的著錄項目數據存入資料庫的方法。所述方法包括以下步驟訪問來自兩個以上數據源的源數據;根據由中間數據結構規定的共同中間無關源格式使來自兩個以上數據源的每一個數據源的訪問數據獨立標準化,使得來自不同特定源格式的相似數據元素被共同識別為中間格式;以及把標準化數據進一步解釋成與包括來自兩個以上數據源的每一個數據源的至少一部分資料庫元素的已存儲資料庫元素相關,再根據所述關係把參考其自身替換的至少一部分重複元素存入資料庫,以便與不同於中間數據結構的精製資料庫數據結構一致。本發明還公開用於執行上述方法的系統和計算機可讀介質。
文檔編號G06F17/30GK101676917SQ20091017673
公開日2010年3月24日 申請日期2009年9月18日 優先權日2008年9月18日
發明者傑森·懷特, 阿薩德·阿巴斯 申請人:英賽特半導體有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀