新四季網

用於處理用於在xml資料庫中存儲的非xml文檔的方法和系統的製作方法

2023-06-02 05:17:31 2

專利名稱:用於處理用於在xml資料庫中存儲的非xml文檔的方法和系統的製作方法
技術領域:
本發明涉及一種用於處理用於在XML資料庫中存儲的非XML文檔的 方法和資料庫系統。
背景技術:
XML資料庫是現代信息社會中最重要的技術工具之一。這種資料庫 的高度靈活性允許以非常高效的方式來存儲和檢索數據。通常,XML數 據庫設計用於XML文檔。然而,在現有技術中也已知擴展XML資料庫使 得其能夠存儲其它類型的文檔。例如,申請人的XML資料庫Tamino適於 存儲非XML文檔,例如文本文件、MS Office文件、PDF文件、圖像和音 頻文件等。為了使得能從資料庫檢索這種非XML文檔,己知分析要存儲 的非XML文檔並且提取一些元數據,用於生成對應於該非XML文檔的所 謂XML影子(shadow)文檔。使用XQuery,可隨後搜索影子XML文檔 並且可檢索對應的非XML文檔。
通常由資料庫系統的一個軟體來執行對元數據的分析和提取,其中該 軟體專用於某種類型的非XML文檔。作為候選,可為處理非XML文檔提 供更通用的分析和提取軟體,該軟體包括若干組件,每個組件特定地設計 為處理預定義類型的非XML文檔。類似的方法和系統從US6, 549, 922 和己公開的US專利申請US 2005050086是已知的。
然而,現有技術用於處理用於在XML資料庫中存儲的非XML文檔的 所有方法和系統使用預定義格式或模式以用於所生成的XML文檔。換言 之,所有類型的非XML文檔將總是導致某種類型的影子XML文檔。例如 上述的申請人的Tamino資料庫使用固定XML模式,其依照"Dubin Core Metadata Initiative" (http:〃dubli勤re.org/)並且遵循OpenOffice格式 (http:〃or>enoffice.org)。結果,影子XML文檔的內容有時不是非常有
4用,如果固定XML模式不允許用有意義的信息在影子XML文檔上存儲元 數據的話。因此現有技術中己知的基於影子XML文檔搜索非XML文檔是 低效和緩慢的。
上面略述的用於處理非XML文檔的方法還導致一些問題,如果要處 理新類型的非XML文檔以供存儲和/或如果要使用不同供應商的軟體組件 來處理不同類型的非XML文檔的話。這尤其適用於如果新類型的文檔不 是標準的辦公文檔,而例如是圖像,其中要提取的元數據(例如顏色分 布、解析度、大小或圖像處理軟體的任何結果)與用於標準辦公文檔的的 元數據非常不同。
因此,本發明在一個方面基於技術問題提供了更靈活的方法用於生成 影子XML文檔,該方法克服了現有技術中上述缺點中的至少一些。

發明內容
在本發明的一個方面中,通過用於處理用於在XML資料庫中存儲的 非XML文檔的方法來解決該問題,該方法包括以下步驟
—根據預定XML模式生成用於非XML文檔的影子XML文檔,影子 XML文檔包括從非XML文檔提取的元數據,
一在XML資料庫中存儲影子XML文檔和非XML文檔;
其中XML模式包括適於包裝至少部分未定義XML結構的XML內容 的包裝元素。
因此,本發明的方法在XML資料庫中存儲兩個單獨文檔,非XML文 檔本身和對應的影子文檔。如在XML模式中定義的影子XML文檔的結 構,是靈活的並且可以變化。這是因為沒有完整地定義由本發明的XML 模式的包裝元素所包裝的XML內容的結構。相反,任何良構的XML內容 可布置在包裝元素之內。結果,所述方法為生成XML影子文檔的組件提 供了更多的靈活性,因為它們不再必須嚴格地遵守不靈活的、固定的 XML模式。
儘管包裝元素可包裝任何種類的良構XML內容,而不管其結構和內 容,適於使用具有通配符的XQuery來搜索包裝元素的XML內容。根據本發明的另一方面,方法還包括在影子XML文檔上創建索引的 步驟,其中在一個示例中在XML模式中定義了用於索引的信息。因此, 將包裝元素的XML內容的結構的靈活性與一些定義結合,這些定義適於 為影子XML文檔和它們的非XML對應物的隨後搜索和檢索提供索引。在 一個實施例中,影子XML文檔包括標識對應非XML文檔的唯一標識符。根據另一方面,本發明涉及一種XML資料庫系統,其具有適於分析 非XML文檔的分析器,以及適於從非XML文檔提取元數據並且根據預定 義XML模式生成用於非XML文檔的影子XML文檔的至少一個提取器, 其中影子XML文檔包括元數據。XML資料庫系統還包括適於包裝影子 XML文檔中所提取元數據的包裝器,其中所包裝元數據的結構是在XML 模式中至少部分未定義的。在一個實施例中,分析器、提取器和包裝器作為資料庫伺服器的擴展 來提供,該資料庫伺服器因此提供了用於結構化存儲非XML文檔和它們 各自的元數據的所有功能。另外,XML資料庫系統可進一步包括基於影子XML文檔內容的索 引。該索引可以基於影子XML文檔的所包裝元數據中的信息。在另外的從屬權利要求中定義了所述方法和XML資料庫系統的進一 步修改。


圖l:本發明的XML資料庫系統的示例性實施例; 圖2:根據本發明的實施例的靈活XML模式的示例; 圖3:根據圖1的XML模式的影子XML文檔的片斷;和 圖4:適用於索引的靈活XML模式的另一示例。
具體實施方式
在下面,描述本發明的XML資料庫系統和方法的示例性實施例。將 會理解下面描述的功能可通過許多候選方式實現,例如在單個資料庫服務 器上、在多個資料庫伺服器的分布式布置上,用集成存儲器或外部存儲器等。這些實現細節對於本發明不是必需的。圖1給出了示例性XML資料庫系統1的概觀。系統1通常用於存儲 和檢索XML文檔(圖l中未示出)。然而,圖1的XML資料庫系統也能 夠處理非XML文檔,例如圖1中所示的示例性媒體文件10。媒體文件IO 可以是任何類型的非XML文檔,例如視頻文件、音頻文件、視頻文件和 音頻文件的組合、圖像、MS Office文檔、諸如測量結果之類的任意集合 的二進位數據,等等。為處理媒體文件10,在一個實施例中,XML資料庫系統1包括文檔 處理器2。文檔處理器2驅動用於存儲文檔的過程。如圖1左側的虛線箭 頭所示,媒體文件10存儲在存儲裝置3中,例如XML資料庫系統1的 RAID陣列(未示出)或類似的存儲設備。本領域技術人員已知的任何易 失性或非易失性存儲裝置可用作為XML資料庫系統1的存儲裝置3。另外,媒體文件10轉送到模式處理器4。圖1右側示出的XML數據 庫系統1的模式處理器4和另外元件的操作用於處理媒體文件IO使得其可 象資料庫中存儲的其它XML文檔一樣被搜索和檢索。在圖1的示例性實 施例中,模式處理器4提供關於要調用的伺服器擴展5的信息,該伺服器 擴展5包括進一步的處理元件6 — 8。然而,要注意元件6 — 8以及模式處 理器4還可併入到整個XML資料庫系統的資料庫伺服器(圖1中未示 出)的標準處理引擎中,並且不必作為單獨的實體來提供。下面描述的服 務器擴展5的供應便利了將現有XML資料庫系統更新為具有用於操作非 XML文檔(例如媒體文件IO)的功能。在第一步驟中,分析器6分析媒體文件10並且確定要調用哪個提取 器7。每個提取器7處理媒體文件10並且生成用於影子XML文檔20的內 容。取決於媒體文件10的類型,可使用不同的提取器7。例如,可以有對 圖像執行圖像處理並且輸出關於圖像的元數據(例如其解析度、顏色分布 或任何其它類型的圖像相關信息)的提取器7。另一提取器7可適於處理 視頻文件並且可提供另外的提取器7用於提取關於音頻文件的元數據,例 如其長度、採樣頻率等。儘管在所述實施例中存在用於每種類型的媒體文 件10的不同提取器7,還可以有一個或多個能夠從超過一種類型的文件提取元數據的集成提取器7。最後,包裝器8創建根據所生成XML內容的公共文檔類型元素。要 注意,由一個或多個提取器7生成的該內容可以是任何良構的XML內 容,而不管其特定結構。因此,通過添加或修改提取器7,所述XML數 據庫系統的實施例可很快適合於新媒體文件,使得可處理新類型文件。儘管已描述並在圖1中作為單獨組件示出了模式處理器4、分析器6、 提取器7和包裝器8,但是也可以將這些組件中的一個或多個合併到所 述XML資料庫系統1的單個處理部件中。儘管由此得到的XML影子文檔20相對於由提取器7從媒體文件10 生成的XML元數據的結構和內容是充分靈活的,其仍然依照預定義的 XML模式。圖2中示出了用於XML資料庫系統的影子XML文檔的這種 靈活XML模式50的一個示例。如可看到的,XML模式50包括包裝元素 51等,包裝元素51把由提取器中的一個或多個提取器生成的XML內容包 含在對應的XML影子文檔中。更詳細地觀看,圖2的XML模式50引用伺服器擴展 "NewBloblndexer",其是圖1中所示的伺服器擴展5的一個可能實施 例。伺服器擴展NewBloblndexer為給定的非XML文檔調用合適的提取器7。 提取器7然後依照其特定實現生成用於影子XML文檔20的內容。為 此,伺服器擴展NewBloblndexer得到由一個或多個提取器7提供的XML 內容並且生成在該實施例中具有名稱"wrapping element (包裝元素)"的 根元素。沒有定義包裝元素的XML內容的結構,使得可包括任何任意結 構化的XML內容。在該實施例中,對於不同類型的媒體文件不會生成統 一結構的所生成XML影子文檔。除了圖2中示出的元素,用於影子XML文檔20的XML模式50可包 括另外的元素,例如以符合上述"Dubin Core Metadata Initiative"和/或 OpenOffice格式的要求。圖3中示出了如上所述生成的XML影子元素20的示例片斷。如可看 到的,它包括"wrapping dement",其包含具有關於照片的信息(例如其 寬度和高度、攝影的主題、攝影師等)的XML內容。如之前所述,影子XML元素20的包裝元素中的XML元數據的結構是任意的。例如,可在 包裝元素內不同地布置各種照片相關信息,或可以有其它關於照片的信 息,例如用於拍照的曝光時間或所選透鏡。不管包裝元素的XML內容的特定結構,仍可能執行對影子XML文檔 的查詢。這種査詢的一個選項是使用通配符,其不要求關於影子XML文 檔的XML內容的特定結構的信息。例如査詢嚴[〃authop "X"]將得到在 某處具有值為"X"的元素"author"的所有影子XML文檔。在另一示例 中,查詢/WrappingElement[〃CreatoF "X" or 〃Photographer= "X"]得到 在包裝元素的某處具有創建者或攝影師"X"的所有文檔。結果,不管用 於生成影子XML文檔20的增加的靈活性,仍可能執行有力的搜索並高效 地檢索相關影子XML文檔。 一旦檢索到期望的影子XML文檔20,還可 例如使用為每個影子文檔20標識對應的非XML文檔10的唯一標識符來 立即訪問相應的非XML文檔10。除了生成影子XML文檔20,圖1的XML資料庫系統1可包括索引 處理器ll,其為影子XML文檔20創建索引。在圖l的實施例中,索引處 理的結果也存儲在整個XML資料庫系統1的存儲裝置3中(參照圖1中 的對應虛線箭頭)。然而,這不是必需的。索引信息還可與媒體文件10 和對應的影子XML文檔20分離地存儲。存在各種如何在影子XML文檔20上生成索引的方式。在一個實施例 中,用於索引的一個或多個屬性和/或元素定義在用於影子XML文檔的 XML模式中。圖4中示出了用於這種擴展XML模式的示例。如可看到 的,定義了屬性52和元素53,其允許基於影子XML文檔上的索引。屬性 "mimetype"定義為字符串並且表示媒體文件10的類型,例如.jpeg文件 (也參照圖3的影子XML文檔)。元素"Photographer"也定義為字符串 並且可用於根據拍攝相應照片的攝影師為照片創建索引。使用在圖4的 XML模式中定義的屬性和元素,可定義查詢以獲得某個攝影師的所有.jpeg 文件。要注意,定義索引所需的信息不意味著包裝元素的內容的某種XML 結構,所以保持了上述的靈活性。相反,可不管包裝元素的XML內容的特定結構來定義圖4的示例中用於索引的屬性和元素。換言之,只要屬性和元素的搜索值符合影子XML文檔中的值,基於XML模式的所定義屬性 和所定義元素査詢索引將檢索到XML影子文檔。
權利要求
1.一種用於處理用於在XML資料庫中存儲的非XML文檔(10)的方法,包括步驟a.根據預定XML模式(50)生成用於非XML文檔(10)的影子XML文檔(20),所述影子XML文檔(20)包括從所述非XML文檔(10)提取的元數據;b.在所述XML資料庫中存儲所述影子XML文檔(20)和所述非XML文檔(10);c.其中所述XML模式(50)包括適於包裝至少部分未定義的XML結構的XML內容的包裝元素(51)。
2. 如權利要求1所述的方法,其中所述包裝元素(51)定義為所述 XML模式(50)的根元素。
3. 如權利要求l或2所述的方法,其中使用XML文檔類型定義來定 義所述包裝元素(51)。
4. 如任一前述權利要求所述的方法,其中適於使用具有通配符的 XQuery來搜索所述包裝元素(51)的所述XML內容。
5. 如任一前述權利要求所述的方法還包括在所述影子XML文檔 (20)上創建索引的步驟。
6. 如前一權利要求所述的方法,其中在所述XML模式(50)中定義 用於所述索引的信息(52, 53)。
7. 如任一前述權利要求所述的方法,其中所述非XML文檔(10)包 括圖像並且其中使用圖像處理軟體提取所述元數據。
8. 如任一前述權利要求所述的方法,其中所述非XML文檔(10)包 括文本,尤其是.pdf文檔或Microsoft Office文檔。
9. 如任一前述權利要求所述的方法,其中所述非XML文檔(10)包 括音頻和/或視頻文件。
10. 如任一前述權利要求所述的方法,其中所述非XML文檔(10) 是壓縮文件。
11. 如任一前述權利要求所述的方法,其中所述影子XML文檔 (20)包括標識所述對應非XML文檔(10)的唯一標識符。
12. 包括用於執行如任一前述權利要求所述的方法的指令的電腦程式。
13. —種XML資料庫系統(1),包括a. 適於分析非XML文檔(10)的分析器(6);b. 適於從所述非XML文檔(10)提取元數據並且根據預定義XML 模式(50)生成用於所述非XML文檔(10)的影子XML文檔(20)的至 少一個提取器(7),所述影子XML文檔(20)包括所述元數據;c. 適於包裝所述影子XML文檔(20)中的所提取元數據的包裝器 (8),其中所包裝元數據的結構是在所述XML模式(50)中至少部分未定義的。
14. 如權利要求13所述的XML資料庫系統(1)還包括適於存儲所 述非XML文檔(10)和所述影子XML文檔(20)兩者的存儲裝置(3)。
15. 如權利要求13或14所述的XML資料庫系統(1),其中所述分 析器(6)、所述提取器(7)和所述包裝器(8)作為資料庫伺服器的擴 展(5)來提供。
16. 如前述權利要求13到15中任意一個所述的XML資料庫系統 (1),還包括基於所述影子XML文檔(20)的內容的索引。
17. 如權利要求16所述的XML資料庫系統(1),其中所述索引基 於所述影子XML文檔(20)的所包裝元數據中的信息(52, 53)。
18. 如前述權利要求13到17中任意一個所述的XML資料庫系統 (1),其中所述影子XML文檔(20)包括標識所述對應非XML文檔 (10)的唯一標識符。
全文摘要
本發明公開了用於處理用於在XML資料庫中存儲的非XML文檔(10)的方法和系統。所述方法包括以下步驟根據預定XML模式(50)生成用於非XML文檔(10)的影子XML文檔(20),所述影子XML文檔(20)包括從所述非XML文檔(10)提取的元數據;在所述XML資料庫中存儲所述影子XML文檔(20)和所述非XML文檔(10);其中所述XML模式(50)包括適於包裝至少部分未定義XML結構的XML內容的包裝元素(51)。
文檔編號G06F17/30GK101320380SQ200810098199
公開日2008年12月10日 申請日期2008年5月26日 優先權日2007年5月25日
發明者米歇爾·蓋斯曼 申請人:軟體股份公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀