新四季網

一種非結構化數據管理的全過程建模方法

2023-06-17 17:26:16 3

專利名稱:一種非結構化數據管理的全過程建模方法
技術領域:
本發明涉及非結構化數據管理領域,尤其涉及一種非結構化數據管理的全過程建模方法。
背景技術:
隨著網際網路和多媒體技術的發展,出現了海量的非結構化數據,如網際網路中的HTML文件,視頻、音頻、圖像等多媒體數據,工業生產中的傳感器數據等。非結構化數據類型豐富,結構複雜、多樣,沒有統一定義的數據約束條件,傳統的關係型數據管理系統難以滿足應用對非結構化數據有效管理的要求,網際網路、新聞媒體、流 程工業等行業對非結構化數據管理系統的需求非常強烈。對於非結構化數據管理系統來 說,數據管理過程的建模十分重要,但目前尚無成熟的方法。 目前複雜數據建模主要有以下兩種方法
1、擴展關係模型在關係模型基礎上增加新的數據類型和相應操作,但不支持數據嵌套和類型繼承,使模型難以重用、複雜數據建模低效;
2、利用面向對象的模型支持數據嵌套和類型繼承,但非結構化數據在原始數據、基本信息、特徵等層面上均有數據建模的需求,直接利用面向對象的模型難以對不同層面的數據進行區分,進而影響整個非結構化數據管理系統的效率。此外,以上兩種方法均只能進行數據存儲建模,而非結構化數據系統不僅包含數據存儲功能,還有對原始數據進行特徵抽取和分析、基於特徵的索引、樣例查詢等管理功能,這些功能與數據間均存在一定的關聯,功能本身的實現複雜、多樣,因此也需要建模方法的支持。

發明內容
本發明的目的是針對現有技術的不足,提供一種非結構化數據管理的全過程建模方法(R-A-I-S-E),本發明的方法可以用來管理包含文本、音頻、視頻、圖像等的非結構化數據,以滿足用戶對非結構化數據存儲、關聯和檢索等管理需求。本發明的目的是通過以下技術方案來實現的一種非結構化數據管理的全過程建模方法(R-A-I-S-E),該方法包括以下步驟
(I)建立Repository存儲模型,該步驟由以下子步驟來實現
(I. O如果是一個新的非結構化數據管理應用,則建立一個新的命名空間NameSpace,指定命名空間NameSpace的名稱;否則,直接跳到I. 2 ;
(I. 2)進入應用的命名空間;
(1.3)是否需要創建UType,如果不需要則存儲模型創建結束,否則創建UType,指定UType的名稱;
(I. 4)查看模型中是否有需要的UType,可以對模型中的UType進行復用和擴展,如果沒有則跳到I. 5,否則繼承模型中滿足需求的UType,UType支持多重繼承,繼承UType將繼承父UType的所有特徵和分析、索引模型;
(I. 5)向UType中添加特徵,查看模型中是否有滿足條件的特徵類型,如果有則直接向UType中添加特徵,指定特徵名和特徵類型,否則跳到I. 6,創建新的特徵類型;
(I. 6)基於模型提供的Integer、String、Blob、Vector、Matrix等基本數據類型建立特徵類型,指定特徵類型的名稱和基本數據類型;本步驟中的過程又可以分為以下子步驟(I. 6. I)指定基本數據類型時,如果FeatureType的類型是Vector,則需要指定基本數據類型Integer或Float或Double和Vector的維數;
(I. 6. 2)如果FeatureType的類型是Matrix,則需要指定基本數據類型Integer或Float或Double和Matrix的行數、列數; (I. 6. 3)如果FeatureType是Link類型,若Link類型需要指定關聯的UType,如果該UType不存在,則需要跳到I. 4先創建非結構化數據類型UType,再將FeatureType關聯到該UType ;若Link類型是無指定UType類型的,則繼續重複I. 5、I. 6向UType中添加FeatureType,直到添加 FeatureType 結束;
(I. 7)建立UType的實例化對象集合Collection,需要指定數據集合的名稱和對應的UType類型,並選擇對象集合的存儲方式,如果應用希望支持事務等操作而數據量又不大,則應該選擇關係型資料庫;如果應用具有海量的數據,則應該選擇分布式鍵值資料庫;繼續重複I. 4^1. 7創建UType和數據集合,直到結束;
(2)建立Analysis分析模型,該步驟由以下子步驟來實現
(2. I)進入命名空間;
(2. 2)如果用於分析的插件已存在系統中,則直接跳到2. 3,否則先上傳分析插件;上傳插件的步驟又可以具體分為以下幾步
(2. 2. I)指定分析插件名稱和分析算法;
(2. 2. 2)指定插件輸入輸出的名稱和特徵類型列表;
(2. 2. 3)指定分析插件運行的主文件,便於運行時調用插件;
(2. 2. 4)如果插件需要指定可配置的參數,則指定可配置參數的名稱和類型,否則上傳插件完成;
(2. 3)選擇合適的算法進行分析,選擇2. 2. I中指定的分析插件名稱,如果分析算法有可配置的參數,則跳到2. 4,否則直接跳到2. 5 ;
(2. 4)指明步驟2. 3中指定需要配置參數的名稱和值;
(2. 5)指定分析算法數據輸入,即UType和特徵列表,按照插件的輸入列表順序指定;(2. 6)指定分析算法數據輸出,即UType及其中的特徵列表,按照插件的輸出列表順序指定;
(2. 7)對於輸出的特徵列表可以指定UType中已經存在的特徵,也可以在UType中添加新的特徵,按照存儲模型中的步驟I. 6指定特徵名稱和特徵類型,方便模型的擴展;
(3)建立Index索引模型,該步驟由以下子步驟來實現
(3. I)進入命名空間;
(3. 2)指定UType名稱;
(3. 3)選擇非結構化管理系統中合適的索引方式;
(3. 4)指定索引方式的距離計算參數;(3. 5)指定需要索引的UType和特徵列表,對於可以支持一次索引多個項的索引可指定多個特徵;
(4)建立Search搜索模型,該步驟由以下子步驟來實現
(4. I)進入命名空間;
(4. 2)指定查詢的UType名稱;
(4. 3)選擇合適的查詢方式,包括屬性查詢、樣例查詢、全文查詢、XML查詢及其混合查詢,查詢方式需要該UType上的索引模型的支持;如果特徵建立了多個索引,每一種查詢方式可以指定合適的索引完成,每一種查詢方式的含義是
(4. 3. I)屬性查詢,對數值和簡單文字的屬性判斷;
(4. 3. 2)樣例查詢,用圖像、視頻等樣例來查詢相似樣例;
(4. 3.3)全文查詢,複雜文字的精確匹配和模糊匹配;
(4. 3. 4) XML 查詢,XQuery 查詢;
(4. 4)指定對各查詢條件的權重,用來計算查詢結果排名;
(4. 5)定義查詢相關性反饋,接收用戶對查詢結果的評價,為用戶提供二次查詢服務;如果用戶從查詢結果中選擇正相關樣例,則加上這些正相關樣例的相似查詢反饋給用戶;如果用戶從查詢結果中選擇反相關樣例,則加上這些反相關樣例的非相似查詢反饋給用戶。(5)建立Environment環境模型,該步驟由以下子步驟來實現
(5. I)進入命名空間;
(5. 2)指定UType名稱;
(5.3)如果UType實例化的數據集合需要進行分析,則創建分析模型,否則直接跳到
5.4 ;
(5. 4)如果UType實例化的數據集合需要建立索引,則創建索引模型,如果分析模型的輸出結果為索引模型的輸入,則系統將對分析模型和索引模型的執行順序進行排序;否則直接跳到5. 5 ;
(5. 5)如果沒有分析模型或者索引模型,則直接跳到5. 6,否則需要設定在數據集合上執行分析或索引模型定義的具體方式,包括增量式和批量式兩種方式;
(5. 5. I)如果需要創建增量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型,這樣在用戶插入一條數據的時候就會根據分析或索引模型的定義對數據對象執行增量式分析或索引任務;
(5. 5. 2)如果需要創建批量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型,如果不立即執行批量式任務,則需要指定執行任務的時間,在到達指定時間後可以根據分析或索引模型的定義對指定的Collection中所有的數據執行分析或索引任務;
(5.6)如果需要創建搜索模型,則創建搜索模型。本發明的有益效果是,
第一,存儲、分析、索引和搜索及其之間的執行流程覆蓋了非結構化數據管理系統的全過程,使用該建模方法應用可快速方便建立應用系統,這也是本發明的一個創新之處;
第二,存儲、分析、索引和搜索模型間鬆散耦合,可通過環境模型靈活組織執行流程,滿足應用的不同需求;
第三,存儲模型中的數據類型UType的繼承特性和特徵類型FeatureType的提出,提高了模型的復用率和擴展性;
第四,存儲模型中的基本數據類型Vector、Matrix和Blob能夠滿足對非結構化數據特徵描述的需求;
第五,特徵類型和分析模型的提出,可以方便表示和挖掘非結構化數據複雜的特徵; 第六,搜索模型中豐富的查詢類型可以滿足各種非結構化數據管理系統的需求;
第七,提供數 分析處理的不同方式,分析算法採用靈活的插件方式,滿足不同應用場景的需求。


圖I是本發明的方法流程 圖2是圖I中存儲模型的組成框 圖3是建立存儲模型流程 圖4是建立分析模型流程 圖5是建立索引模型流程 圖6是建立搜索模型流程 圖7是建立環境模型流程圖。
具體實施例方式本發明非結構化數據管理的全過程建模方法(R-A-I-S-E),包括建立Itepository存儲模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment環境模型五個步驟,將模型的內容作為元數據進行存儲,並將其映射到具體的數據引擎進行操作,具體包括以下步驟
I、建立Repository存儲模型
存儲模型描述了非結構化數據在邏輯上的存儲形式,採用基於面向對象的存儲建模方法,支持數據關聯和類型繼承。將特徵類型分為原始數據、基本屬性、底層特徵和語義特徵,提供了 Blob類型來表示原始數據和複雜的語義特徵,Vector和Matrix類型來表示底層特徵和簡單的語義特徵。除此之外,還提供了 Link類型來表示對象之間的關聯,支持對象集合的嵌套。類型繼承同時繼承了 UType中的特徵和定義在UType上的分析模型和索引模型。存儲模型的建立主要包括命名空間NameSpace、非結構化數據類型UType (Unstructured data Type)、特徵類型 FeatureType 和基本數據類型 ValueType 幾個要素。用戶在命名空間中,建立特徵類型和非結構化數據類型UType,將這些信息作為元數據存儲;接下來根據需求指定合適的數據存儲引擎,創建模型的實例化數據集合Collection。非結構數據管理系統可以提供不同的的數據存儲引擎,如關係型資料庫、分布式鍵值存儲系統和XML資料庫等,以滿足不同應用對物理存儲的不同需求。存儲模型的框架圖如圖2所示,主要分為四層,從下到上依次為基本數據類型ValueType、特徵類型FeatureType、非結構化數據類型UType和命名空間NameSpace。在闡述存儲模型建模過程之前,先介紹幾個重要的定義。基本數據類型ValueType :模型中的基本數據類型ValueType包括Integer、String、Float、Double、Decimal、Uri、Blob、Link、Date、DateTime、Vector 和 Matrix,及其這些類型的集合和列表類型。基本數據類型中需要詳細說明的有以下幾點
A、Integer、Float、Double、Uri用法和一般資料庫類似,Date表示日期,如2012-05-23,DateTime 表示日期時間,如 2012-05-23T12:30:00 ;
B、Decimal用來表示高精度的數值;
C、String類型的長度限制為64K,超過64K的文本可採用Blob類型表示; D、Vector和Matrix能滿足一般特徵類型的描述需要,可指定其基本類型為3種Integer、Float 和 Double ;
E、Blob用來表示原始非結構化原數據和複雜的特徵類型,其結構為名稱、類型、長度和二進位塊,文件二進位塊中的內容無定義,用戶可根據需要來表示複雜的特徵類型,也可以存放原始數據。因此Blob根據類型不同又可分為FeatureTypeBlob、XMLBlob、ImageBlob、TextBlob、AudioBlob、VideoBlob 等;
F、Link用來表示UType之間的關聯,保存了連結到的UObject的唯一標識,這是UType關聯的實現方式;
G、集合表示無序無重複元素的數據集,列表表示有序元素可重複的數據集,和Link相結合,都可用來表示對象集合的嵌套。特徵類型FeatureType :特徵類型包括特徵類型名稱及其基本數據類型,用來定義非結構化數據對象中的特徵,包括非結構化原始數據、附帶的基本屬性、底層特徵和語義特徵。非結構化原始數據是指視頻、圖像等的Blob文件,附帶的基本屬性是指圖像的解析度、壓縮方式等元數據,底層特徵是指非結構化數據的簡單特徵,如圖像的顏色直方圖、邊緣直方圖等,語義特徵是指更複雜和抽象的特徵,如圖像的人臉識別、場景識別等。特徵類型的提出方便了特徵類型的重複利用,利用特徵發現各數據類型之間的關係。特徵類型與分析模型中的分析算法相關,每一種特徵類型對應了相應的特徵分析算法,它們是分析算法的輸出。當FeatureType的基本數據類型為Link時,是一種特殊的特徵類型,可以指定連結到的UType,實現UType之間的關聯,也可以不指定連結到的UType,實現UType之間混合類型的關聯。在權限允許的條件下,可以實現不同NameSpace之間的關聯。非結構化數據類型UType (Unstructured data Type) :UType用於定義非結構化數據類型,包括UType名稱、若干由特徵類型定義的特徵以及繼承的UType。UType支持繼承和關聯。UType的繼承特性可以提高UType的利用率和方便性。UType的繼承方式,同時繼承了父UType中的特徵和定義在父UType上的分析模型和索引模型,並且支持多重繼承。在訪問UType中,當UType的繼承導致特徵重名時,訪問父UType的特徵時需要在特徵前加上父UType的名字作為前綴,即superUType. featureName。UType的關聯由Link類型的特徵類型實現。UType的實例化為數據對象UObject,包括若干具體的特徵名和特徵值。若干同種類型的UObject形成數據對象集合Collection, —個UType類型可以實例化多個Collection。Collection包括數據集合名稱、對應的UType和存儲引擎名稱。
應用可以根據需要指定存儲引擎,常用的存儲引擎第一類為關係型存儲引擎,如MySQL,支持事務、連接查詢等,但是數據量方面不能滿足非結構化數據的需要;第二類為分布式鍵值存儲引擎,如HBase,能夠存儲海量數據;第三類為XML存儲引擎。因此用戶可以指定數據的存儲方式,以滿足特定的需求。非結構化數據管理系統提供存儲模型到存儲引擎的映射關係。命名空間NameSpace NameSpace用來隔離不同的非結構化數據應用系統,保持不同應用數據的相對獨立性。NameSpace中包含FeatureType、UType、Collection以及依賴於UType的其餘四種模型。命名空間、UType、特徵類型、數據集合的信息作為元數據進行存儲,具體的數據對象將按照元數據到存儲引擎的映射規則,存儲到指定的存儲引擎。存儲模型支持命名空間、UType、特徵類型、數據集合的增刪查改操作。 建立存儲模型的流程圖如圖3所示,包括以下步驟
I.I、如果是一個新的非結構化數據管理應用,則建立一個新的命名空間NameSpace,指定命名空間NameSpace的名稱;否則,直接跳到I. 2 ;
I.2、進入應用的命名空間;
I.3、是否需要創建UType,如果不需要則存儲模型創建結束,否則創建UType,指定UType的名稱;
I.4、查看模型中是否有需要的UType,可以對模型中的UType進行復用和擴展,如果沒有則跳到I. 5,否則繼承模型中滿足需求的UType,UType可以支持多重繼承,繼承UType將繼承父UType的所有特徵和分析、索引模型;
I.5、向UType中添加特徵,查看模型中是否有滿足條件的特徵類型,如果有則直接向UType中添加特徵,指定特徵名和特徵類型,否則跳到I. 6,創建新的特徵類型;
I. 6、基於模型提供的Integer、String、Blob、Vector、Matrix等基本數據類型建立特徵類型,指定特徵類型的名稱和基本數據類型。本步驟中的過程又可以分為以下子步驟
1.6. I、指定基本數據類型時,如果FeatureType的類型是Vector,則需要指定基本數據類型Integer或Float或Double和Vector的維數;
I.6. 2、如果FeatureType的類型是Matrix,則需要指定基本數據類型Integer或Float或Double和行數、列數;
I. 6. 3、如果FeatureType是指定UType的Link類型,若Link類型需要指定關聯的UType ;如果該UType不存在,則需要跳到I. 4先創建非結構化數據類型UType,再將FeatureType關聯到該UType,若Link類型是無指定UType類型的,則繼續重複I. 5、L 6向UType 中添加 FeatureType,直到添加 FeatureType 結束;
I.7、建立UType的實例化對象集合Collection,需要指定數據集合的名稱和對應的UType類型,並選擇對象集合的存儲方式,如果應用希望支持事務等操作而數據量又不大,則應該選擇關係型資料庫;如果應用具有海量的數據,則應該選擇分布式鍵值資料庫;繼續重複I. 4^1. 7創建UType和數據集合,直到結束。2、建立Analysis分析模型
分析模型是建立在存儲模型的基礎之上,描述了分析任務的組成,主要是為了充分挖掘非結構化數據內在的語義和價值。分析模型的輸入輸出的數據類型對應存儲模型中的特徵類型。分析模型的建立主要包括指定UType、分析插件,並且指定分析的UType和輸入輸出特徵。在存儲模型中定義的底層特徵和語義特徵通常需要通過分析原始數據及其屬性得至丨J,建立分析模型進行管理。分析模型定義在數據類型UType上,由數據集合Collection觸發執行,用於定義對數據對象UObject的分析方法,包括分析輸入、輸出數據,分析算法等。分析模型的信息作為元數據進行存儲,在數據集合觸發執行分析任務時,會根據分析模型的定義執行。分析算法將以插件的形式加入系統,保證系統的易擴展性。分析模型支持增刪查改操作。建立分析模型的流程圖如圖4所示,包括以下步驟
2. I、進入命名空間;
2. 2、如果用於分析的插件已存在系統中,則直接跳到2. 3,否則先上傳分析插件。上傳插件的步驟又可以具體分為以下幾步
2. 2. I、指定分析插件名稱和分析算法;
2. 2. 2、指定插件輸入輸出的名稱和特徵類型列表;
2.2. 3、指定分析插件運行的主文件,便於運行時調用插件;
2.2. 4、如果插件需要指定可配置的參數,則指定可配置參數的名稱和類型,否則上傳插件完成。比如圖像的顏色直方圖特徵算法可以指定結果的向量維度可配置,則需要指定參數維度和數據類型。2. 3、選擇合適的算法進行分析,選擇2. 2. I中指定的分析插件名稱,如果分析算法有可配置的參數,則跳到2. 4,否則直接跳到2. 5 ;
2.4、指明參數的名稱和值,比如步驟2. 3中指定顏色直方圖提取算法的結果維度可配置,則指定需要配置的參數和具體的值;
2.5、指定分析算法數據輸入,即UType和特徵列表,按照插件的輸入列表順序指定;
2.6、指定分析算法數據輸出,即UType和特徵列表,按照插件的輸出列表順序指定;
2.7、對於輸出的特徵列表可以指定UType中已經存在的特徵,也可以在UType中添加新的特徵,按照存儲模型中的步驟I. 6指定特徵名稱和特徵類型,方便模型的擴展。3、建立Index索引模型
建立Index索引模型索引模型也建立在分析模型的基礎之上,描述了索引任務的組成,主要是為了提高查詢服務的效率。索引模型的建立主要包括指定索引方式、UType和索引的特徵。創建索引模型可以給應用提供更靈活的索引方式,從而提高查詢服務的效率。索引模型定義在數據類型UType上,由數據集合Collection觸發執行,包括索引特徵、索引方式等。索引模型的信息作為元數據進行存儲,在數據集合觸發執行索引任務時,會根據索引模型的定義執行。索引模型支持增刪查改操作。建立索引模型的流程圖如圖5所示,包括以下步驟
3.I、進入命名空間;
3.2、指定UType名稱;
3.3、選擇合適的索引方式,非結構化管理系統中可以包含常用的索引方式,如B樹、倒排索引、M樹、LSH (Locality Sensitive Hashing)哈希索引、R樹等,能夠滿足非結構化數
據管理的基本需要;
3.4、指定索引方式的參數,比如支持向量索引的M樹,可以支持多種向量之間的距離計算公式,如歐氏距離等;
3.5、指定需要索引的UType和特徵列表,對於可以支持一次索引多個項的索引可以指定多個特徵,如B樹、倒排索引;對於M樹、LSH和R樹則只能指定一個特徵作為索引項。4、建立Search搜索模型
搜索模型建立在索引模型的基礎之上,描述了影響查詢結果的各個因素,供用戶設置一種有針對性的查詢配置。 搜索模型的建立主要包括指定查詢方式及其使用的索引模型,包括屬性查詢、全文查詢、樣例查詢、XML查詢及其混合查詢,制定對查詢條件的偏好和對結果排名的定義,並且可以根據用戶行為進行查詢相關性反饋;
搜索模型提供了更好地查詢和展示非結構化數據的方式。搜索模型與用戶搜索數據和界面展示數據緊密相關,依賴於分析模型和索引模型。搜索模型的信息作為元數據進行存儲,每當有查詢到達時,按照搜索模型中的定義和用戶新的查詢內容執行查詢,返回查詢結果。建立搜索模型的流程圖如圖6所示,包含以下步驟
4.I、進入命名空間;
4.2、指定查詢的UType名稱;
4.3、選擇合適的查詢方式,包括屬性查詢、樣例查詢、全文查詢、XML查詢及其混合查詢,查詢方式需要在該UType上定義的索引模型的支持。如果特徵建立了多個索引,每一種查詢方式可以指定合適的索引完成,每一種查詢方式的含義是
4.3. I、屬性查詢,對數值和簡單文字的屬性判斷;
4.3. 2、樣例查詢,如以圖像樣例來查詢相似的圖像;
4.3. 3、全文查詢,複雜文字的精確匹配和模糊匹配;
4.3. 4、XML 查詢,XQuery 查詢。四種查詢方式的靈活組合可滿足應用對管理和展示的需求;
4.4、指定對查詢條件的偏好,比如圖像的樣例查詢,對圖像的底層特徵設定權重,如設定顏色特徵的權重為2,而形狀特徵的顏色為I ;也可以是文字和圖像不同查詢條件間的權重設定,權重的不同設定使得排名結果受影響;
4.5、定義查詢相關性反饋,接收用戶對查詢結果的評價,為用戶提供二次查詢服務。如果用戶從查詢結果中選擇正相關樣例,則加上這些正相關樣例的相似查詢反饋給用戶;如果用戶從查詢結果中選擇反相關樣例,則加上這些反相關樣例的非相似查詢反饋給用戶。5、建立 Environment 環境模型
環境模型是對前面4種模型的執行順序和方式進行定義,使數據管理儘可能靈活、高效。環境模型的建立主要包括對分析模型、索引模型和搜索模型的選擇,以及對分析模型和搜索模型執行方式的定義,包括增量式和批量式兩種方式。執行方式的定義建立在模型實例化的數據集合Collection上。環境模型是應用組織非結構化數據管理流程的關鍵步驟,將全過程中各個環節串起來,根據不同應用場景的需求,組織各個環節的執行和連接方式,以滿足各種應用的需求。環境模型的內容作為元數據保存,主要定義了分析、索引和搜索模型的具體組合和執行方式,一方面組合模型的流程,另一方面在數據集合Collection上定義模型的執行方式。建立環境模型的流程圖如圖7所示,包含以下步驟
5.I、進入命名空間;
5.2、指定UType名稱;
5.3、如果UType實例化的數據集合需要進行分析,則創建分析模型,否則直接跳到
5.4 ;
5.4、如果UType實例化的數據集合需要建立索引,則創建索引模型,如果分析模型的輸出結果為索引模型的輸入,則系統將對分析模型和索引模型的執行順序進行排序;否則直接跳到5. 5 ;
5.5、如果沒有分析模型或者索引模型,則直接跳到5. 6,否則需要設定在數據集合上執行分析或索引模型定義的具體方式,包括增量式和批量式兩種方式。5. 5. I、如果需要創建增量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型,這樣在用戶插入一條數據的時候就會根據分析或索引模型的定義對數據對象執行增量式分析或索引任務;
5.5. 2、如果需要創建批量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型名稱,如果批量任務不立即執行,則可以指定執行任務的時間,在到達指定時間後可以根據分析或索引模型的定義對指定的Collection中所有的數據執行分析或索引任務;
5.6、如果需要創建搜索模型,則創建搜索模型。本發明不僅能對應用所涉及的非結構化數據存儲、分析、索引和搜索過程分別進行建模,還能通過環境模型描述各部分間的連接和相應的系統行為,滿足了非結構化數據應用系統的需求,為這些應用提供了方便和靈活的管理方法。
權利要求
1.一種非結構化數據管理的全過程建模方法,其特徵在於,該方法包括以下步驟 (1)建立Repository存儲模型,該步驟由以下子步驟來實現 (I. O如果是一個新的非結構化數據管理應用,則建立一個新的命名空間NameSpace,指定命名空間NameSpace的名稱;否則,直接跳到I. 2 ; (I. 2)進入應用的命名空間; (1.3)是否需要創建UType,如果不需要則存儲模型創建結束,否則創建UType,指定UType的名稱; (I. 4)查看模型中是否有需要的UType,可以對模型中的UType進行復用和擴展,如果沒有則跳到I. 5,否則繼承模型中滿足需求的UType,UType支持多重繼承,繼承UType將繼承父UType的所有特徵和分析、索引模型; (I. 5)向UType中添加特徵,查看模型中是否有滿足條件的特徵類型,如果有則直接向UType中添加特徵,指定特徵名和特徵類型,否則跳到I. 6,創建新的特徵類型; (I. 6)基於模型提供的Integer、String、Blob、Vector、Matrix等基本數據類型建立特徵類型,指定特徵類型的名稱和基本數據類型;本步驟中的過程又可以分為以下子步驟(I. 6. I)指定基本數據類型時,如果FeatureType的類型是Vector,則需要指定基本數據類型Integer或Float或Double和Vector的維數; (I. 6. 2)如果FeatureType的類型是Matrix,則需要指定基本數據類型Integer或Float或Double和Matrix的行數、列數; (I. 6. 3)如果FeatureType是Link類型,若Link類型需要指定關聯的UType,如果該UType不存在,則需要跳到I. 4先創建非結構化數據類型UType,再將UType關聯到該FeatureType ;若Link類型是無指定UType類型的,則繼續重複I. 5、I. 6向UType中添加FeatureType,直到添加 FeatureType 結束; (1.7)建立UType的實例化對象集合Collection,需要指定數據集合的名稱和對應的UType類型,並選擇對象集合的存儲方式,如果應用希望支持事務等操作而數據量又不大,則應該選擇關係型資料庫;如果應用具有海量的數據,則應該選擇分布式鍵值資料庫;繼續重複I. 4^1. 7創建UType和數據集合,直到結束; (2)建立Analysis分析模型,該步驟由以下子步驟來實現 (2. I)進入命名空間; (2. 2)如果用於分析的插件已存在系統中,則直接跳到2. 3,否則先上傳分析插件;上傳插件的步驟又可以具體分為以下幾步 (2. 2. I)指定分析插件名稱和分析算法; (2. 2. 2)指定插件輸入輸出的名稱和特徵類型列表; (2. 2. 3)指定分析插件運行的主文件,便於運行時調用插件; (2. 2. 4)如果插件需要指定可配置的參數,則指定可配置參數的名稱和類型,否則上傳插件完成; (2. 3)選擇合適的算法進行分析,選擇2. 2. I中指定的分析插件名稱,如果分析算法有可配置的參數,則跳到2. 4,否則直接跳到2. 5 ; (2. 4)指明步驟2. 3中指定需要配置參數的名稱和值; (2. 5)指定分析算法數據輸入,即UType和特徵列表,按照插件的輸入列表順序指定;(2. 6)指定分析算法數據輸出,即UType及其中的特徵列表,按照插件的輸出列表順序指定; (2. 7)對於輸出的特徵列表可以指定UType中已經存在的特徵,也可以在UType中添加新的特徵,按照存儲模型中的步驟I. 6指定特徵名稱和特徵類型,方便模型的擴展; (3)建立Index索引模型,該步驟由以下子步驟來實現 (3. I)進入命名空間; (3. 2)指定UType名稱; (3. 3)選擇非結構化管理系統中合適的索引方式; (3. 4)指定索引方式的距離計算參數; (3. 5)指定需要索引的UType和特徵列表,對於可以支持一次索引多個項的索引可指定多個特徵; (4)建立Search搜索模型,該步驟由以下子步驟來實現 (4. I)進入命名空間; (4. 2)指定查詢的UType名稱; (4. 3)選擇合適的查詢方式,包括屬性查詢、樣例查詢、全文查詢、XML查詢及其混合查詢,查詢方式需要該UType上的索引模型的支持;如果特徵建立了多個索引,每一種查詢方式可以指定合適的索引完成,每一種查詢方式的含義是 (4. 3. I)屬性查詢,對數值和簡單文字的屬性判斷; (4. 3. 2)樣例查詢,用圖像、視頻等樣例來查詢相似樣例; (4. 3.3)全文查詢,複雜文字的精確匹配和模糊匹配;(4. 3. 4) XML 查詢,XQuery 查詢; (4. 4)指定對各查詢條件的權重,用來計算查詢結果排名; (4. 5)定義查詢相關性反饋,接收用戶對查詢結果的評價,為用戶提供二次查詢服務;如果用戶從查詢結果中選擇正相關樣例,則加上這些正相關樣例的相似查詢反饋給用戶;如果用戶從查詢結果中選擇反相關樣例,則加上這些反相關樣例的非相似查詢反饋給用戶; (5)建立Environment環境模型,該步驟由以下子步驟來實現 (5. I)進入命名空間; (5. 2)指定UType名稱; (5. 3)如果UType實例化的數據集合需要進行分析,則創建分析模型,否則直接跳到·5. 4 ; (5. 4)如果UType實例化的數據集合需要建立索引,則創建索引模型,如果分析模型的輸出結果為索引模型的輸入,則系統將對分析模型和索引模型的執行順序進行排序;否則直接跳到5. 5 ; (5. 5)如果沒有分析模型或者索引模型,則直接跳到5. 6,否則需要設定在數據集合上執行分析或索引模型定義的具體方式,包括增量式和批量式兩種方式; (5. 5. I)如果需要創建增量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型,這樣在用戶插入一條數據的時候就會根據分析或索引模型的定義對數據對象執行增量式分析或索引任務;(5. 5. 2)如果需要創建批量式任務,需要指定數據集合Collection的名稱,對應的分析或索引模型,如果不立即執行批量式任務,則需要指定執行任務的時間,在到達指定時間後可以根據分析或索引模 型的定義對指定的Collection中所有的數據執行分析或索引任務; (5. 6)如果需要創建搜索模型,則創建搜索模型。
全文摘要
本發明公開了一種非結構化數據管理的全過程建模方法,包括建立Repository存儲模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment環境模型五個步驟,將模型的內容作為元數據進行存儲,並將其映射到具體的數據引擎進行操作;本發明的方法可以用來管理包含文本、音頻、視頻、圖像等非結構化數據,以滿足用戶對非結構化數據存儲、關聯和檢索等管理需求。
文檔編號G06F17/30GK102779186SQ20121022682
公開日2012年11月14日 申請日期2012年6月29日 優先權日2012年6月29日
發明者唐燕琳, 孫建伶, 莊越挺, 潘雲鶴, 邵健, 陳嶺, 陳根才, 魏寶剛, 魯偉明 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀