新四季網

本體數據導入/導出方法及裝置的製作方法

2023-10-31 08:40:17 1

專利名稱:本體數據導入/導出方法及裝置的製作方法
技術領域:
本發明涉及數據管理領域,更具體地,涉及一種靈活的本體數據 導入/導出方法及裝置,能夠導入/導出從公認標準格式到私有格式的 本體,使得本體管理系統能夠服務於更多的應用。
背景技術:
本體是一種重要的數據語義表示方法,本體數據管理是為了讓應 用更好地使用本體數據來達到智能化的目的,其中本體數據的導入和 導出是本體數據管理中的重要功能。導入能夠將來源不同的本體數據 存儲到本體管理系統中去,導出可以將本體管理系統中的本體數據表 示成不同的格式,供不同的應用使用。本體信息可以被組織成多種形式,包括工業界公認的標準格式, 企業內部廣泛使用的企業內部格式以及特定應用使用的私有格式。在本體導入方面,如何處理未知的私有格式的導入;在本體導出方面,如何根據不同的條件導出成私有格式;是當前本體數據管理中困難但重要的未解決問題。目前已經存在一些和本體導入/導出相關的工作和方法。US0156253,該系統可以導入已知格式的本體,並且可以根據XML (可擴展置標語言)查詢語言(XQL, XML Query Language)來導出符 合查詢條件的本體數據,導出的格式也是固定的已知格式。圖12示出了 US0156253的整體操作流程,其中這個系統能夠接 受的格式固定,為已知格式1;導出的格式也己經固定,為已知格式2; 該系統的格式判斷器判斷輸入的格式是否為格式1,如果不是,則簡 單地拒絕導入。對於導出,該系統支持不帶條件的全部導出和利用査 詢語言的導出。因為該系統的本體表示語言為XML,所以採用了 XML
資料庫來存儲本體,同時導出語言採用了 XML的査詢語言XQL。US0163450,該系統可以導入固定格式1的本體,導出固定格式2的本體,其中不對本體進行存儲,導入和導出在一個流水線上完成。 JP10333952,該方法可以將某個應用內部的數據自動的用分隔符分隔成表格形式或者列表形式的數據,然後導出給別的應用使用。 JP8190479,該方法在資料庫轉換的時候根據資料庫列類型的取值範圍以及取值長度來進行數據轉換,決定轉換源和轉換目的的列之 間如何對應。綜合現有的本體導入/導出方法,它們可以對已知固定格式的本 體進行導入/導出,同時在導出的時候,可以根據查詢語言導出符合查詢條件的本體數據,但是,仍有如下的問題沒有解決(1) 不能導入私有的未知格式的本體,私有未知格式本體的導入 包括數據切分以及對屬性取值範圍和屬性值類型的確定,目前方法可 以進行數據切分,但無法進行屬性取值範圍和屬性值類型的確定;(2) 不能根據關鍵詞的搜索條件導出已知格式和私有的未知格 式的本體;(3) 不能根據關鍵詞和查詢語言相結合的方式導出已知格式和 私有的未知格式的本體。基於文本和資料庫的導入導出方法可以根據數據類型來進行格 式的轉換,但是文本和資料庫和本體數據具有較大的不同,主要體現 在文本和資料庫是一種數據載體,而本體數據中存在概念、屬性和實 例,在轉換本體數據的時候,需要分別考慮概念、屬性和實例的轉化。 所以,基於文本和資料庫的數據轉化方法在使用到本體導入的時候需 要較大的改變。發明內容考慮到上述問題,本發明提出了一種靈活的本體數據導入/導出 方法及裝置。不但可以處理己知格式的本體數據導入/導出,還可以處 理未知格式的本體數據導入/導出,並且能夠結合關鍵詞和査詢語句導 出一部分符合條件的本體數據,存儲成已知或者未知格式。因為對格
式的良好的適應性,根據本發明的本體數據導入/導出方法及裝置能夠 滿足更多種類的應用的需要。根據本發明的第一方案,提出了一種本體數據導入裝置,包括 本體數據格式分析器,用於分析輸入的本體格式,如果為私有未知格 式,則利用存儲己成功導入的本體的格式的本體格式庫進行格式的確 定;未知格式導入器,用於根據本體數據格式分析器的格式確定結果, 對數據進行切分並且導入存儲本體的關係資料庫的本體庫。根據本發明的第二方案,提出了一種本體數據導入方法,包括 分析輸入的本體格式,如果為私有未知格式,則利用存儲已成功導入 的本體的格式的本體格式庫進行格式的確定;根據格式確定結果,對 數據進行切分並且導入存儲本體的關係資料庫的本體庫。根據本發明的第三方案,提出了一種本體數據導出裝置,包括 基於關鍵詞和查詢語言相結合的本體導出器,用於接收關鍵詞和/或導 出格式,處理成查詢語言後,對存儲本體的關係資料庫的本體庫中所 存儲的本體數據進行査詢,以及向本體數據導出格式分析器請求導出 格式;本體數據導出格式分析器,用於根據基於關鍵詞和查詢語言相 結合的本體導出器的請求,直接返回導出格式,或通過利用存儲己成功導入的本體的格式的本體格式庫的査詢,獲得導出格式;基於關鍵詞和查詢語言相結合的本體導出器還用於按照本體數據導出格式分析 器返回的導出格式,輸出從本體庫返回的查詢結果。根據本發明的第四方案,提出了一種本體數據導出方法,包括接收關鍵詞和/或導出格式,處理成査詢語言後,對存儲本體的關係資料庫的本體庫中所存儲的本體數據進行査詢,並請求導出格式;根據 導出格式請求,直接返回導出格式,或通過利用存儲已成功導入的本體的格式的本體格式庫的查詢,獲得導出格式;按照本體數據導出格式分析器返回的導出格式,輸出從本體庫返回的查詢結果。 根據本發明的第五方案,提出了一種本體數據導入/導出裝置,包括根據上述本發明的本體數據導入裝置;以及根據上述本發明的本體數據導出裝置。


通過下面結合

本發明的優選實施例,將使本發明的上述 及其它目的、特徵和優點更加清楚,其中圖1描述了根據本發明的本體數據導入/導出裝置100的整體方 框圖。圖2給出了利用關係型資料庫110'表示本體庫110的示意性結構圖。圖3示出了根據本發明的本體格式庫120的示意性結構圖。 圖4a和4b是分別示出了未知格式本體數據的兩種輸入情況的示 意圖。圖5a示出了本體數據格式分析器130的未知格式導入操作的流 程圖。圖5b是給出了用於詳細說明圖5a所示步驟S504的示例的示意圖。圖6示出了已知格式導入器140的示意圖。 圖7示出了未知格式導入操作的具體示例。 圖8a 8c示出了查詢輸入界面的示意圖。圖9示出了根據本發明的關鍵詞和査詢語言相結合的導出方法的 流程圖。圖IO是示出了本體數據的兩種導出情況的示意圖。圖11示出了本體數據導出格式分析器170的操作流程。圖12示出了 US0156253的整體操作流程。
具體實施方式
下面參照附圖對本發明的優選實施例進行詳細說明,在描述過程 中省略了對於本發明來說是不必要的細節和功能,以防止對本發明的 理解造成混淆。圖1描述了根據本發明的本體數據導入/導出裝置100的整體方 框圖。
如圖1所示,根據本發明的本體數據導入/導出裝置100包括本體庫110,用於存儲本體的關係資料庫;本體格式庫120,該本體格 式庫120包含了導入成功的私有格式的本體的格式,並且包含對這些 格式所包含的分隔符進行統計的結果;本體數據格式分析器130,用 於分析輸入的本體格式,如果為標準的已知格式,則直接返回該格式, 如果為私有的未知格式,則需要利用本體格式庫120進行格式的確定; 己知格式導入器140,用於對已知格式的本體進行導入;未知格式導 入器150,用於根據本體數據格式分析器130的結果,對數據進行切 分並且導入,在導入的時候需要生成屬性的值範圍和對屬性值的類型 進行確定;基於關鍵詞和查詢語言相結合的本體導出器160,用於接 收一個或者多個關鍵詞和/或導出格式,處理成查詢語言後,對本體數 據進行查詢,以及向本體數據導出格式分析器170請求導出格式;本 體數據導出格式分析器170,用於根據基於關鍵詞和查詢語言相結合 的本體導出器160的請求,直接返回導出格式,或通過利用本體格式 庫120的査詢,獲得導出格式;基於關鍵詞和查詢語言相結合的本體 導出器160還用於按照本體數據導出格式分析器170返回的導出格式, 輸出從本體庫110返回的査詢結果。以下將結合附圖,對本發明的本體數據導入/導出裝置100的各 個組成部分及其相應的操作方法進行詳細的描述。本體庫110圖2給出了利用關係型資料庫110'表示本體庫110的示意性結 構。如圖2所示,在本體庫中,概念、屬性和實例都可以利用三元組 來進行表示,其中三元組可以表示成主語(Subject)、謂語(Predicate) 和賓語(Object)。在關係資料庫中,利用不同的列分別表示主語、謂 語和賓語,如圖2所示。本體庫包含概念、屬性和實例,這三者都用 三元組來表示,而一個三元組包括了主語、謂語和賓語。在實際表示 中, 一個概念和屬性都能夠用一個三元組來表示,但是一個實例可能 會用多個三元組來表示。1)概念部分
所有的概念都必須是i^/^zch"的實例,也就是說,任何概念義,在本體庫中,都會存在一個如下的三元組「x7^/.'ty/ er(/^.'c7ass入 而概念之間的繼承關係通過rttfs.^t^67sss0/表示,也就是說,如果 義是/的子類,那麼存在三元組Oro^.'s"6C7a"^V入例如,在圖 2中,條目200是概念Company的定義。表示概念的三元組的謂語和 賓語已經確定,可以表示為(?x rdf:type rdf s : class),其中?x就是所表示的概念的名字。2) 屬性部分屬性定義了概念的性質以及概念和概念之間的關係。其中表示概 念性質的屬性稱作數值類型屬性,表示概念和概念之間關係的屬性稱 作對象屬性,其中無論是數值屬性還是對象屬性,都有定義域和值域, 定義域指的是該屬性作用在哪些概念上,比如"年齡"這個屬性的定 義域是"人"這個概念,也就是說,"年齡"是"人"這個概念的屬性 而不是其他概念的屬性。值域則確定了該屬性的取值的範圍,如果是 數值類型的屬性,值域可以是數據類型,比如整數,實數或者字符串, 如果是對象屬性,那麼值域則為概念。比如"朋友"這個對象屬性的 定義域為"人",值域也為"人"。例如,在圖2中,條目201和202 是屬性hasProduct和revenue的定義。表示屬性的三元組的謂語和賓 語已經確定,可以表示為(?x rdf:type rdfs.'property),其中?x就 是所表示的屬性的名字。3) 實例部分實例是某個概念下的具體事務,比如"Jack"是人的一個實例。 某個概念的實例具有定義域在該概念上的屬性的屬性值。比如"Jack" 具有"年齡"為35歲的屬性值。例如,在圖2中,條目210和條目 220是Co即any的實例幼CT和存6b/7y的定義。實例由多個三元組組成, 分別表示實例類型和實例所具有的屬性的取值。在導入的時候,根據輸入的本體數據,分別將概念、屬性和實例 生成相應的三元組,並且將這些三元組存儲到本體庫中去。導出的時 候,將符合條件的三元組的記錄導出。
本體格式庫120本體格式庫120用于格式分析,其中本體格式庫120存放的信息 包括如下三種類型,如圖3所示1. 已經註冊的己知本體類型和格式310,比如OWL, MISP等;2. 歷史上使用過的私有未知格式320;3. 統計信息330,包括導入私有未知格式的本體的記錄3310, 還有用於私有未知格式的分隔符的統計記錄3320。私有未知格式320 —般被組織成用某種分隔符分隔的三元組模 式,分別對應本體中三元組的主語、屬性和賓語, 一個私有格式的例 子如下這個私有未知格式所對應的分隔的三元組模式就是 5T;Zu'ectW7^opert/W(9/u'ect,在存儲私有未知格式的同時,本體格式 庫120也會把每個分隔符在這些格式中所使用的次數進行存儲,比如 在這個格式進入本體格式庫後,"$"的使用頻率將會被加1 (參見統 計信息330中的統計記錄3320)。本體數據格式分析器130本體數據格式分析器130負責分析輸入的本體的格式,根據輸入 本體格式的不同選用已知格式導入器140或者未知格式導入器150來 導入本體數據,其中本體數據格式分析器130的操作總流程如下(1) 如果該本體數據為已知的格式,則返回該本體的格式;(2) 如果該本體數據為未知的格式,則分析該未知格式,其中未 知格式的輸入可以有兩種情況如圖4a和圖4b所示,其中一種情況是 在未知格式導入命令中包含本體內容和該格式的說明,例如圖4a;另 外一種情況是在未知格式導入命令中只包含本體內容,沒有包含格式 說明,例如圖4b。更具體地,本體數據格式分析器130的未知格式導入操作如圖5a所示步驟S501.如果該未知格式的輸入包含了格式信息(圖4a所
示),則進行到步驟S505,直接提取出格式信息,並將格式添加到本 體格式庫120中,把內容和格式信息直接輸入到未知格式導入器150 中;步驟S502.如果未知格式的輸入沒有包含格式信息(圖4b所 示),則首先從本體格式庫120中的未知格式表中取出所有的未知格 式,利用未知格式來進行分析,如果成功,則該格式就是所輸入的本 體的格式,跳轉到步驟S505,把內容和該格式信息直接輸入到未知格 式導入器150中;步驟S503.如果所有的本體格式庫120中的歷史未知格式都不 能滿足要求,則從分隔符庫中取出最常用的"個分隔符,比如"$",《tf # ,,W , ,," * ,," % ,, 等 步驟S504.分別針對這/7個字符的每一個字符,重複進行如下操作在輸入內容中的某一行(對應於單一實例),用這個字符進行査 找,如果能夠找到相應的出現位置,則從該位置開始不斷地進行前向 和後向分隔符探測。具體地,如圖5b所示示例,對於例子 7V2a賴s^^oo^c"'Kei^3"W,如果在位置3上發現了 "$",則首先, 在小於3的位置(位置2)上查找,此時發現'C'(不在常用的字符 集中);然後,在大於3的位置(位置4)上査找,此時發現字符(在常用字符集中),繼續向後查找,發現字符'h'(不在常用的字 符集中)。於是,把(位置3,位置4)當作一個分隔區域,在針對該實 例的繼續搜索中,已經成為分隔區域的位置,將不再進行搜索。也就 是說,在針對該實例的隨後的搜索中,跳過上面的(位置3,位置4)。 如果針對該實例能夠找到2個分隔區域,則生成相應的分隔格式;並 執行步驟S505,並將所生成的分隔格式和內容一起輸入到未知格式導 入器150中。步驟S505.返回提取出的、解析得到的或是通過格式探測而生成 的格式。已知格式導入器140
每個己知格式都會在已知格式導入器140中註冊一個導入模塊, 所以對於已知格式導入器140來說,只需要根據輸入的格式調用相應 的導入模塊進行導入即可,參見圖6。在圖6中,OWL是已知的公開標 準,MISP是企業內部的已知標準,己知格式導入器140隻需要調用相 應的模塊進行導入即可(例如,OWL格式標準可參見參考文獻 http:〃www. w3. org/TR/owl-features/)。因為標準是公開的,所以已知格式導入器140能夠從輸入的本體 內容中提取出概念、屬性和實例,生成相應的三元組,然後導入到本 體庫110中。未知格式導入器150未知格式導入器150從本體數據格式分析器130接收到格式和內 容信息後,需要對主語、謂語和賓語進行分析,以確定導入方式。其 中對於主語、謂語和賓語將採取不同的處理。具體的處理方法如下1. 對於主語,都處理成2Y/ZV2^sowrce,因為主語必然是一個 實體;2. 對於謂語,將定義域處理成!^f.了eso〃rce,以便與主語相對應,但是確定值域的時候需要進行以下判斷1) 分析出現了該謂語的三元組中,是否針對該謂語出現了數 值,包括整數、實數,如果針對該謂語出現過數值,則將該謂語的值 域定義為數值型,同時把該謂語生成為數值類型屬性。2) 如果針對該謂語的取值並沒有出現過數值,那麼還存在兩 種情況第一種情況是針對該謂語的取值為某個rcy/Vre"i/7Y7e的URI (統 一資源標識),這時候該謂語的值域為2^/Vresowrce的對象類型屬性。 (可參見參考文獻hUp:〃www, w3. org/TR/owl-features/)。第二種情況是該謂語是值域為字符串的數值類型屬性;其中圖7中的①表示第一種情況,②表示第二種情況。 通過以下分析來確定該謂語的取值屬於上述兩種情況中的哪一種
得到該謂語的所有取值,如果這些取值的URI部分或者全部能夠 在主語中找到,那麼該謂語應該為對象類型屬性,在主語中存在的URI對應著主語的相應!^/Vresowce,而不存在於主語中的URI則對應著 新的/^/Vresowxe,需要在本體庫中創建出這些新的T^/Vr"o"rce。 如果這些URI的取值全部無法在主語中找到,那麼將它們輸入本體庫 中查找,因為URI是全局唯一的,所以如果能夠在本體庫中查找到相 應的i^/Vw^)W^e,那麼仍然將其認為是對象類型屬性。如果還是找 不到,則將其認為是值域為字符串的數值類型屬性。3.對於賓語,①當謂語被識別為數值類型屬性(包括值域為整 數或實數的數值類型屬性和值域為字符串的數值類型屬性)時,直接 導入該三元組;②當謂語被識別為對象類型屬性時,如果賓語的URI 在本體庫中存在,則直接導入該三元組;如果賓語的URI在本體庫中 不存在,則需要創建該7^/:2^ 0"2^^,然後再導入該三元組。在上面的步驟完成後,未知的本體格式將被導入到本體庫110中。 圖7示出了未知格式導入操作的具體示例。參考圖7,對於未知 格式的本體數據-首先,取得主語NEC,因為主語NEC還未存在,創建相應的( VFC r,.加e rc/ZVi^owrceJ 然後,取得謂語hasProduct,並進行類型判斷取得賓語 Versal100,因為VersallOO也出現在主語中,因此hasProduct為對象類型,生成對應的對象類型屬性之後,取得賓語Versal100,因為VersallOO未存在,創建相應 最後,導入NEC的這個屬性值
另一方面,對於未知格式的本體數據Ke,7滿糊as屍"'ceU, 首先,取得主語P^rss77^ ,因為主語已經存在,不用創建該然後,取得謂語/ s^^i'ce,並進行類型判斷取得賓語M^^, 因為7WW為數值類型,因此,創建數值類型屬性之後,取得賓語"0W,最後,導入^wa77W的這個屬性值基於關鍵詞和查詢語言相結合的本體導出器160在本體數據的導出中,有兩種類型的導出, 一類是導出所有的本 體數據,這可以看作是不帶條件的導出;還有一類是導出部分的本體 數據,這可以看作帶條件的導出。其中,條件可以通過關鍵詞和査詢 語句進行,在這裡首先定義關鍵詞和査詢語句。關鍵詞指的是一個或者多個由自然語言組成的詞彙,關鍵詞的輸 入比較簡單,適合初級用戶使用,系統中關鍵詞的輸入界面可參見圖 8a。由圖8a可知,關鍵詞的輸入形式比較簡單,沒有本體知識的普通 用戶也可以使用關鍵詞進行本體導出。關鍵詞的例子包括"清華大學"、 "日電公司"等。査詢語句指的是具有某種查詢語言的語法,能夠進行複雜的條件 指定,對特定結構的數據進行査詢的一種査詢方式,系統中査詢語句 的輸入界面可參見圖8b。由圖8b可知,査詢語句具有一定的語法, 需要很強的專業知識才可以使用。 一個簡單的查詢語句的例子如下所 示& & w/ are , & 乂 這個語句的查詢目標是本體中的所有三元組。 關鍵詞的查詢優點是簡單,普通用戶也可以輕鬆使用,缺點是能 夠指定的査詢目標不夠明確,不能很好地利用本體中的語義。比如查
詢"清華大學"的時候,並不能指定這個"清華大學"出現在實例的 哪個位置上。而查詢語句能夠清晰地指定出"清華大學"具體的語義。 考慮如下的兩個實例-工nstancel, name:清華大學,location:北京中關村東路1號 Instance2, name:倉ll新大廈,location:清華大學 在利用關鍵詞進行導出的時候,輸入"清華大學",則這兩個實例都滿足條件,可以被導出,所以,關鍵詞不能夠很好的利用本體的語義。因為它不能表達如下的這種導出目標名字為"清華大學"的實例。但是查詢語言可以完成這個任務,名字為"清華大學"的實例,可以被表示成如下的查詢語言Wect x由re卩& ,舉丈學".乂同時,査詢語言還能夠進行AND、 0R、 NOT等複雜的條件操作,能夠充分地利用本體數據中的語義。在本發明中,綜合了這兩者的優勢,提供了關鍵詞和查詢語句相結合的查詢方式(參見圖8c),能夠讓普通用戶方便的輸入關鍵詞,又能夠利用查詢語句對本體數據的査詢優勢。圖9示出了根據本發明的關鍵詞和査詢語言相結合的導出方法的流程圖。步驟S901.取得本體庫中的所有領域本體,列出給用戶,等待用 戶選擇;步驟S902.用戶選擇了某一個領域本體後,得到該領域本體中的 所有概念,列出給用戶,等待用戶選擇查詢目標;步驟S903.用戶選擇某一個概念作為查詢目標,這時候,得到該!=",對於數值類、對象類屬性都起作用,嚴格的不等於;
小於或者等於,"〈=",對於取值為整數或者實數的數值類型起作 用,小於或者等於;大於或者等於,"二>",對於取值為整數或者實數的數值類型起作用,大於或者等於;小於,"<",對於取值為整數或者實數的數值類型起作用,嚴格的小於;大於,"〉",對於取值為整數或者實數的數值類型起作用,嚴格 的大於;包含,"contain",對於取值為字符串的數值類型起作用,包含 某個字符串。然後,對選中的屬性和條件,輸入關鍵詞,或者數值。 步驟S906.刪除或編輯査詢條件,對已經添加的査詢條件可以進 行刪除或編輯;步驟S907.如果所有的査詢條件已經編輯完畢,則可以進行查 詢,否則退回到步驟S904。步驟S908.得到滿足條件的本體數據並進行導出。比如用於查詢名字為"清華大學"的實例,就可以通過以上步驟 進行。在步驟S901.首先選擇"MISP"本體; 在步驟S902.在"MISP"本體中,列出了所有的類別; 在步驟S903.選擇其中的類別"學校"; 在步驟S904.開始添加查詢條件;在步驟S905.選擇"name"屬性,然後選擇"等於",然後填入 關鍵詞"清華大學";在步驟S907.所有査詢條件已經編輯完畢,可以進行查詢; 在步驟S908. 得到導出結果。可見在這個過程中,用戶只需要選擇和輸入關鍵詞,這樣就使得 用戶可以不需要對本體查詢語言具有了解,擴大了能夠使用本體語義 的用戶群。
系統接收到查詢條件和關鍵詞後,會生成相應的查詢語句在本體 庫110中査詢,得到滿足查詢條件的本體部分,從而進入基於關鍵詞和查詢語言相結合的本體導出器160。在上面的例子中,系統根據用戶的一系列動作所產生的最後結果,生成如下的查詢語句-se7e" & r力ere x "獰華;t學〃,乂 通過該査詢語句得到了滿足條件的本體數據,然後進行導出。導出的格式由本體數據導出格式分析器170確定。導出的數據也有兩種格式,如圖10所示。對第一種格式而言,因為用戶在導出命令中已經帶有導出格式,所以導出的數據不再需要攜帶格式;對第二種格式而言,因為用戶在導出命令中並沒有說明格式,所以需要把系統推薦的格式提供給用戶,以方便用戶利用該格式對本體數據進行操作。本體數據導出格式分析器170符合導出條件的本體數據也可能被導出成為已知的業界標準格 式(比如OWL)或者已知的企業內部標準格式(比如MISP),也可以導出未知的格式。其中在要求數據導出的時候,導出命令包括導出條件 和導出的格式,導出命令的一個例子如下所示這是一個不帶導出條件但要求導出格式為0WL的導出命令,因此, 本體數據將會導出成OWL文件。另一個導出命令的例子如下所示 (Criteria, select xwhere{ x清華大學};9 這是一個只有導出條件但沒有導出格式的導出命令,在接到這種 命令的時候,。本體數據導出格式分析器170的操作流程如圖11所示步驟S1101.判斷導出命令中是否要求了導出格式,如果要求了導出格式,則執行步驟S1103,直接返回該格式;步驟S1102.如果導出命令中未要求導出格式,則需要進行格式推薦,推薦方法可以基於最近最常用的導入格式進行,需要兩個參數,一個是時間段/7, 一個是閾值threshold;
a)在時間段/7內,從本體格式庫120中選出所有曾經被用來成功導入過未知格式本體的格式,記為格式集合/^;W對于格式集合^中的每個格式r ,計算使用率,使用率rate: "te二潛式r ^使賴遊汰教/潛式桌合"^遊,萄遊式凝使厲腺總汰 教'.c)選出最高使用率r"e^,如果2^z^J二^res力o7A則該條格式將被使用來作為導出本體數據的格式;如果最高使用率 rate證"Ares力oJd,貝U令/7二/7氺人5 Z^res力oJ(/二Z^res力(x/a^0. 5",返回 子步驟a),重新執行;當然,以上推薦操作僅作為示例,本領域普通技術人員完全可以 根據需要進行調整。例如,為了降低操作複雜度,也可以直接選擇與 最高使用率"&^相對應的格式作為導出格式,而不必進行循環操作。步驟S1103.返回導出命令中所包含的導出格式或通過步驟 S1102而選中的導出格式。至此己經結合優選實施例對本發明進行了描述。應該理解,本領 域技術人員在不脫離本發明的精神和範圍的情況下,可以進行各種其 它的改變、替換和添加。因此,本發明的範圍不局限於上述特定實施 例,而應由所附權利要求所限定。
權利要求
1. 一種本體數據導入裝置,包括本體數據格式分析器,用於分析輸入的本體格式,如果為私有未知格式,則利用存儲已成功導入的本體的格式的本體格式庫進行格式的確定;未知格式導入器,用於根據本體數據格式分析器的格式確定結果,對數據進行切分並且導入存儲本體的關係資料庫的本體庫。
2. 根據權利要求l所述的本體數據導入裝置,其特徵在於 所述本體庫中包括採用由主語、謂語和賓語構成的三元組表示的概念、屬性和實例。
3. 根據權利要求2所述的本體數據導入裝置,其特徵在於 如果本體數據格式分析器分析確定輸入的本體格式為標準的已知格式,則直接返回該格式,所述本體數據導入裝置還包括已知格式導入器,用於將己知格 式的本體數據導入本體庫;其中-本體格式庫所存儲的已成功導入的本體的格式包括 己經註冊的已知本體類型和格式、歷史上使用過的私有未知格式和統計信息,其中所述統計信息包括已成功導入的私有未知格式和用於私有未知格式的分隔符的統計記錄。
4. 根據權利要求3所述的本體數據導入裝置,其特徵在於私有未知格式表示為由特定分隔符分隔的三元組模式。
5. 根據權利要求l所述的本體數據導入裝置,其特徵在於本體數據格式分析器在分析輸入的本體格式時,針對私有未知格 式,如果所述私有未知格式包含格式信息,則直接提取所述格式信息, 並將所述私有未知格式添加到本體格式庫中,將本體數據的內容和格 式信息直接提供給未知格式導入器。
6. 根據權利要求5所述的本體數據導入裝置,其特徵在於 本體數據格式分析器在分析輸入的本體格式時,針對私有未知格式,如果所述私有未知格式不包含格式信息,則提取本體格式庫中已 存儲的所有私有未知格式,當所輸入的私有未知格式與已存儲的任一 私有未知格式匹配時,確定採用該匹配私有未知格式,並將本體數據 的內容和格式信息提供給未知格式導入器。
7. 根據權利要求6所述的本體數據導入裝置,其特徵在於本體數據格式分析器在分析輸入的本體格式時,針對私有未知格 式,如果所述私有未知格式不包含格式信息,則提取本體格式庫中已 存儲的所有私有未知格式,當所輸入的私有未知格式與己存儲的任一私有未知格式均不匹 配時,從所述本體格式庫中的分隔符庫中取出最常用的"個分隔符,分別針對這/7個字符的每一個字符,重複進行如下操作在輸入的內容中,用這個字符進行查找,如果能夠找到相應的出 現位置,則從該位置開始不斷地進行前向和後向分隔符探測,將連續 的分隔符區域確定為一個分隔區域,當找出兩個分隔區域時,確定並 生成相應的分隔格式,作為探測出的私有未知格式,並將本體數據的 內容和格式信息提供給未知格式導入器。
8. 根據權利要求2 4之一所述的本體數據導入裝置,其特徵在於在導入輸入數據時,未知格式導入器首先導入主語,然後確定謂 語的類型屬性,並生成該屬性的值域,最後根據所確定的謂語的類型 屬性,導入賓語。
9. 根據權利要求8所述的本體數據導入裝置,其特徵在於 未知格式導入器分析出現了該謂語的三元組中,是否針對該謂語出現了數值,如果針對該謂語出現過數值,則確定該謂語為數值類型 屬性,並將該屬性的值域定義為數值型。
10. 根據權利要求9所述的本體數據導入裝置,其特徵在於 未知格式導入器分析出現了該謂語的三元組中,是否針對該謂語出現了數值,如果針對該謂語未出現過數值,則判斷與該謂語關聯的 賓語是否部分能夠在主語中找到,如果能夠找到,則確定該謂語為對象類型屬性;如果未能找到,則確定該謂語為數值類型屬性,並將該屬性的值域定義為字符串型。
11. 一種本體數據導入方法,包括分析輸入的本體格式,如果為私有未知格式,則利用存儲已成功導入的本體的格式的本體格式庫進行格式的確定;根據格式確定結果,對數據進行切分並且導入存儲本體的關係數 據庫的本體庫。
12. 根據權利要求ll所述的本體數據導入方法,其特徵在於 所述本體庫中包括採用由主語、謂語和賓語構成的三元組表示的概念、屬性和實例。
13. 根據權利要求12所述的本體數據導入方法,其特徵在於 如果本體數據格式分析器分析確定輸入的本體格式為標準的已知格式,則直接返回該格式,所述本體數據導入方法還包括將已知格式的本體數據導入本體庫;g中-本體格式庫所存儲的已成功導入的本體的格式包括 已經註冊的已知本體類型和格式、歷史上使用過的私有未知格式和統計信息,其中所述統計信息包括已成功導入的私有未知格式和用於私有未知格式的分隔符的統計記錄。
14. 根據權利要求13所述的本體數據導入方法,其特徵在於私有未知格式表示為由特定分隔符分隔的三元組模式。
15. 根據權利要求l所述的本體數據導入方法,其特徵在於 在分析輸入的本體格式時,針對私有未知格式,如果所述私有未知格式包含格式信息,則直接提取所述格式信息,並將所述私有未知 格式添加到本體格式庫中。
16. 根據權利要求15所述的本體數據導入方法,其特徵在於 在分析輸入的本體格式時,針對私有未知格式,如果所述私有未 知格式不包含格式信息,則提取本體格式庫中已存儲的所有私有未知 格式,當所輸入的私有未知格式與己存儲的任一私有未知格式匹配時, 確定釆用該匹配私有未知格式。
17. 根據權利要求16所述的本體數據導入方法,其特徵在於在分析輸入的本體格式時,針對私有未知格式,如果所述私有未 知格式不包含格式信息,則提取本體格式庫中已存儲的所有私有未知 格式,當所輸入的私有未知格式與已存儲的任一私有未知格式均不匹 配時,從所述本體格式庫中的分隔符庫中取出最常用的/7個分隔符, 分別針對這/7個字符的每一個字符,重複進行如下操作在輸入的內容中,用這個字符進行查找,如果能夠找到相應的出 現位置,則從該位置開始不斷地進行前向和後向分隔符探測,將連續 的分隔符區域確定為一個分隔區域,當找出兩個分隔區域時,確定並 生成相應的分隔格式,作為探測出的私有未知格式。
18. 根據權利要求12 14之一所述的本體數據導入方法,其特 徵在於在導入輸入數據時,首先導入主語,然後確定謂語的類型屬性, 並生成該屬性的值域,最後根據所確定的謂語的類型屬性,導入賓語。
19. 根據權利要求18所述的本體數據導入方法,其特徵在於分析出現了該謂語的三元組中,是否針對該謂語出現了數值,如 果針對該謂語出現過數值,則確定該謂語為數值類型屬性,並將該屬 性的值域定義為數值型。
20. 根據權利要求19所述的本體數據導入方法,其特徵在於 分析出現了該謂語的三元組中,是否針對該謂語出現了數值,如果針對該謂語未出現過數值,則判斷與該謂語關聯的賓語是否部分能夠在主語中找到,如果能夠找到,則確定該謂語為對象類型屬性;如果未能找到,則確定該謂語為數值類型屬性,並將該屬性的值域定義 為字符串型。
21. —種本體數據導出裝置,包括基於關鍵詞和查詢語言相結合的本體導出器,用於接收關鍵詞和 /或導出格式,處理成查詢語言後,對存儲本體的關係資料庫的本體庫 中所存儲的本體數據進行查詢,以及向本體數據導出格式分析器請求導出格式;本體數據導出格式分析器,用於根據基於關鍵詞和查詢語言相結 合的本體導出器的請求,直接返回導出格式,或通過利用存儲已成功導入的本體的格式的本體格式庫的查詢,獲得導出格式;基於關鍵詞和查詢語言相結合的本體導出器還用於按照本體數 據導出格式分析器返回的導出格式,輸出從本體庫返回的查詢結果。
22. 根據權利要求21所述的本體數據導出裝置,其特徵在於所述本體庫中包括釆用由主語、謂語和賓語構成的三元組表示的 概念、屬性和實例。
23. 根據權利要求22所述的本體數據導出裝置,其特徵在於 本體格式庫所存儲的已成功導入的本體的格式包括-已經註冊的已知本體類型和格式、歷史上使用過的私有未知格式和統計信息,其中所述統計信息包括已成功導入的私有未知格式和用於私有未知 格式的分隔符的統計記錄。
24. 根據權利要求23所述的本體數據導出裝置,其特徵在於私有未知格式表示為由特定分隔符分隔的三元組模式。
25. 根據權利要求21所述的本體數據導出裝置,其特徵在於 基於關鍵詞和查詢語言相結合的本體導出器通過執行以下操作,生成查詢語言取得並列出本體庫中的所有領域本體;得到並列出用戶所選領域本體中的所有概念;得到並列出用戶所選概念的所有屬性;添加由用戶所選屬性和用戶針對該屬性而輸入的關鍵詞所構成 的查詢條件;根據用戶所添加的全部查詢條件,生成査詢語言。
26. 根據權利要求25所述的本體數據導出裝置,其特徵在於 基於關鍵詞和査詢語言相結合的本體導出器還通過執行以下操作,生成查詢語言在用戶已確定添加了全部查詢條件之前,刪除或編輯用戶所選的 任一已添加查詢條件,直至用戶確定已添加了全部査詢條件時,才生 成查詢語言。
27. 根據權利要求21所述的本體數據導出裝置,其特徵在於本體數據導出格式分析器判斷查詢語言中是否包含導出格式,如 果包含導出格式,則直接返回該導出格式。
28. 根據權利要求27所述的本體數據導出裝置,其特徵在於 如果本體數據導出格式分析器判斷查詢語言中未包含導出格式,則返回本體格式庫中最近最常用的導入格式。
29. 根據權利要求28所述的本體數據導出裝置,其特徵在於本體數據導出格式分析器如下確定最近最常用的導入格式 從本體格式庫中選出在預定時間段/7內,所有曾經被用來成功導 入過未知格式本體的格式,記為格式集合i^;對于格式集合w中的每個格式r,計算該格式的使用率w"; 選出與最高使用率"k,相對應的格式,作為導出格式,返回給基於關鍵詞和查詢語言相結合的本體導出器。
30. 根據權利要求29所述的本體數據導出裝置,其特徵在於 若且唯若最高使用率raz^M大於預設閾值z^^力oW時,本體數據導出格式分析器才將與最高使用率rste^相對應的格式作為導出格 式。
31. 根據權利要求30所述的本體數據導出裝置,其特徵在於 當最高使用率raz^M不大於預設閾值"7^WWJ時,本體數據導出格式分析器增加預定時間段"的長度,減小預設閾值"re^ o7A 然後,重新執行導出格式的選擇。
32. —種本體數據導出方法,包括接收關鍵詞和/或導出格式,處理成查詢語言後,對存儲本體的 關係資料庫的本體庫中所存儲的本體數據進行查詢,並請求導出格式;根據導出格式請求,直接返回導出格式,或通過利用存儲己成功 導入的本體的格、式的本體格式庫的查詢,獲得導出格式;權利要求書第7/8頁按照返回的導出格式,輸出從本體庫返回的査詢結果。
33. 根據權利要求32所述的本體數據導出方法,其特徵在於 所述本體庫中包括採用由主語、謂語和賓語構成的三元組表示的概念、屬性和實例。
34. 根據權利要求33所述的本體數據導出方法,其特徵在於本體格式庫所存儲的已成功導入的本體的格式包括 已經註冊的已知本體類型和格式、歷史上使用過的私有未知格式和統計信息,其中所述統計信息包括已成功導入的私有未知格式和用於私有未知格式的分隔符的統計記錄。
35. 根據權利要求34所述的本體數據導出方法,其特徵在於私有未知格式表示為由特定分隔符分隔的三元組模式。
36. 根據權利要求32所述的本體數據導出方法,其特徵在於生成査詢語言的步驟包括以下子步驟 取得並列出本體庫中的所有領域本體; 得到並列出用戶所選領域本體中的所有概念; 得到並列出用戶所選概念的所有屬性;添加由用戶所選屬性和用戶針對該屬性而輸入的關鍵詞所構成 的查詢條件;根據用戶所添加的全部査詢條件,生成查詢語言。
37. 根據權利要求36所述的本體數據導出方法,其特徵在於生成查詢語言的步驟還包括以下子步驟在用戶已確定添加了全部査詢條件之前,刪除或編輯用戶所選的 任一已添加查詢條件,直至用戶確定已添加了全部查詢條件時,才生 成査詢語言。
38. 根據權利要求32所述的本體數據導出方法,其特徵在於 判斷查詢語言中是否包含導出格式,如果包含導出格式,則直接返回該導出格式。
39. 根據權利要求38所述的本體數據導出方法,其特徵在於如果判斷査詢語言中未包含導出格式,則返回本體格式庫中最近 最常用的導入格式。
40. 根據權利要求39所述的本體數據導出方法,其特徵在於 確定最近最常用的導入格式的步驟包括以下子步驟 從本體格式庫中選出在預定時間段/7內,所有曾經被用來成功導入過未知格式本體的格式,記為格式集合r^對于格式集合rs中的每個格式i",計算該格式的使用率ra";選出與最高使用率^&_相對應的格式,作為導出格式。
41. 根據權利要求40所述的本體數據導出方法,其特徵在於 若且唯若最高使用率rate^大於預設閾值z^re^ Wd時,才將與最高使用率ra^,相對應的格式作為導出格式。
42. 根據權利要求41所述的本體數據導出方法,其特徵在於 當最高使用率raZie,不大於預設閾值t力2^s力o2^時,增加預定時間段/7的長度,減小預設閾值^^m力oJA然後,重新執行導出格式 的選擇。
43. —種本體數據導入/導出裝置,包括 根據權利要求1 10之一所述的本體數據導入裝置;以及 根據權利要求21 31之一所述的本體數據導出裝置。
全文摘要
本發明提出了一種靈活的本體數據導入/導出方法及裝置。具體地,根據本發明的本體數據導入裝置,包括本體數據格式分析器,用於分析輸入的本體格式,如果為私有未知格式,則利用存儲已成功導入的本體的格式的本體格式庫進行格式的確定;未知格式導入器,用於根據本體數據格式分析器的格式確定結果,對數據進行切分並且導入存儲本體的關係資料庫的本體庫。此外,根據本發明的本體數據導出裝置包括基於關鍵詞和查詢語言相結合的本體導出器和本體數據導出格式分析器,其中基於關鍵詞和查詢語言相結合的本體導出器按照本體數據導出格式分析器返回的導出格式,輸出從本體庫返回的查詢結果。
文檔編號G06F17/27GK101398831SQ20071016292
公開日2009年4月1日 申請日期2007年9月27日 優先權日2007年9月27日
發明者豐強澤, 梁邦勇, 齊紅威 申請人:日電(中國)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀