新四季網

一種模式信息損失最小化的序列類數據隱私保護方法

2023-11-04 04:30:42

專利名稱:一種模式信息損失最小化的序列類數據隱私保護方法
技術領域:
本發明涉及資料庫系統、數據隱私與模式信息提取技術,特別是涉及一種模式信 息損失最小化的序列類數據隱私保護方法。
背景技術:
時間序列數據被公認為是自然界和人類社會中一類非常重要的數據,其應用範圍 包括金融分析和社交行為追蹤等重要領域。近幾年來,傳感器網絡,RFID和無線定位設備 的快速發展,更加凸顯了時間序列數據的重要性。但是,值得注意的是,時間序列數據中也 包含著大量的隱私信息,如果不加以適當的保護,數據擁有者對數據隱私的擔憂將極大的 桎梏相關應用的發展。目前,時間序列數據的隱私保護問題還沒有得到很好的解決。主要原因是時間序 列數據與傳統表數據相比,其數據特徵相對複雜。時間序列數據的各個屬性在時間上存在 一種前後依賴的關係,整體表現為一種模式信息。模式匹配是時間序列數據的一類重要查 詢。k匿名是傳統表數據領域的一類重要的隱私保護技術。但是,如果將這種方法直接 應用於時間序列數據,其缺陷十分明顯。因為k匿名所要求的屬性值泛化會使時間序列的 模式信息遭到嚴重破壞,從而使得數據可用性大大降低。目前,一些與時間序列相關的隱私 保護技術也各自存在缺陷。TGA是一種基於幹擾的匿名技術,首先將時間序列進行分組,然 後在組內隨機重建時間序列,這種方法導致的模式信息損失也非常之大。BFP2KA是一種基 於字符串的隱私保護技術,通過構建前綴樹並對其進行剪枝來實現k匿名。雖然BFP2KA號 稱能夠保留模式,但其所謂的模式僅限於字符串的精確匹配,通用性受到很大的限制。

發明內容
本發明的目的在於提供一種模式信息損失最小化的序列類數據隱私保護方法,基 於k匿名技術,構建出一個新的匿名模型,S卩(k,P)匿名模型,在有效保護隱私的同時達到 模式信息損失最小化的效果,有效的解決了時間序列的隱私保護問題。本發明採用的技術方案的步驟如下1)建立一個廣義的時間序列模式定義模型,根據這個模型以及實際應用的模式挖 掘任務需求,選擇符合實際應用需求的模式定義函數集;2)根據步驟1)中提出的模式定義函數集,確定模式映射函數,時間序列的屬性分 為標識屬性,QI屬性和敏感屬性三種,時間序列的模式特徵由模式映射函數基於QI屬性來 進行提取;3)根據時間序列的屬性值以及時間序列的模式特徵,定義隱私攻擊類型,構建 (k,P)匿名模型以保護時間序列數據隱私;4)根據上述步驟2)中所述的時間序列的模式特徵,衡量整個原始數據集中任意 兩條時間序列之間的模式相似性,構建P子組,以達到模式信息損失最小化的效果;
5)基於步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性, 以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數據集最終滿足(k,P) 匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,並分析其隱私洩露概率,完成對(k, P)匿名模型的可用性評估,同時根據分組結果,對時間序列數據進行屬性值的泛化,完成數 據發布。步驟1)中選用的模式定義模型,兼容已有文獻中所有的模式定義方式,對於一條 具體的時間序列r,其模式定義函數集形式化為ρ (r) =,m為系統變量,其 中,fi(l彡i彡m)為任意兩個或兩個以上屬性的相關性函數。步驟2)中的模式特徵應滿足以下兩個條件a)由原始時間序列經過特定的模式 映射函數得出;b)可根據該模式特徵對原始時間序列的模式進行重建。模式特徵從QI屬 性中提取,並作為一種獨立的形式發布。要求模式映射函數能夠使得重建後的模式與原始 時間序列模式的差異最小。步驟3)中構建的(k,P)匿名模型是一個雙層隱私保護模型,其具體含義如下a)在第一層約束中,整個原始數據集被要求在QI屬性上滿足k匿名的條件;b)在第二層約束中,在每一個k匿名組內,要求每一條時間序列的模式特徵都至 少與其他P-I條時間序列相同。步驟4)中提到的模式特徵的相似性衡量方式嚴重依賴於模式映射函數以及攻擊 者的背景知識。步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分,屬性 值信息損失由於屬性值泛化而產生,模式信息損失是指原始時間序列的模式與根據模式特 徵重建的模式之間的差異,在(k,P)匿名模型約束下,證明在最壞情況下的隱私洩露概率 為 1/P。本發明具有的有益效果是本發明充分利用了傳統表數據領域的隱私保護模型以及現有的時間序列模式特 徵提取技術,將兩者進行融合,為時間序列構建出一個新的隱私保護模型,(k,p)匿名模型。 該模型將時間序列的各個屬性區間以及整條序列的模式特徵分別作為獨立的形式發布,能 夠在充分保證數據隱私的基礎上,將時間序列的模式信息最小化,充分保證了數據的可用 性。


圖1是本發明實施步驟流程圖。圖2是(k,P)匿名模型構造示意圖。
具體實施例方式下面結合附圖和具體實施對本發明的技術方案作進一步說明。1、如圖1與圖2所示,本發明具體實施過程和工作原理如下1)建立一個廣義的時間序列模式定義模型,根據這個模型以及實際應用的模式挖 掘任務需求,選擇合適的模式定義函數集(即符合實際應用需求的模式定義函數集);
2)根據步驟1)中提出的模式定義函數集,確定模式映射函數。時間序列的屬性分 為標識屬性,QI屬性(即聯合標識屬性)和敏感屬性三種。原始時間序列的模式特徵由模 式映射函數基於QI屬性來進行提取;3)根據時間序列的屬性值以及模式特徵,定義隱私攻擊類型,構建(k,P)匿名模 型以保護時間序列數據隱私;4)根據上述步驟2)中所述的模式特徵,衡量時間序列兩兩之間(即原始數據集中 任意兩條時間序列之間)的模式相似性,構建P子組(P子組的大小由參數P確定,在同一 個P子組中的時間序列都具有相同的模式特徵),以達到模式信息損失最小化的效果;5)基於步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性, 以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數據集最終滿足(k,P) 匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,並分析其隱私洩露概率,完成對(k, P)匿名模型的可用性評估。同時根據分組結果,對時間序列數據進行屬性值的泛化,完成數 據發布。步驟1)中選用的模式定義模型,可以兼容已有文獻中所有的模式定義方式。對於 一條具體的時間序列r,其模式定義函數集可形式化為ρ (r) = ,m為系統變 量。其中,^(1 ^m)為任意兩個或兩個以上屬性的相關性函數。步驟2)中的模式特徵應滿足以下兩個條件a)由原始時間序列經過特定的模式 映射函數得出;b)可根據該模式特徵對原始時間序列的模式進行重建。模式特徵從QI屬 性中提取,並作為一種獨立的形式發布。要求模式映射函數能夠使得重建後的模式與原始 時間序列模式的差異最小。鑑於模式信息的重要性,現有文獻中有大量廣為人知的模式特 徵提取技術,包括SAX,PAA,PLA和APCA等。步驟1)中定義的模式定義模型可以完全兼容 這些模式特徵提取技術。由於SAX的直觀性和易操作性,以下幾個步驟的具體實施方式
將 在SAX的基礎上進行闡述。SAX技術將時間序列的屬性值進行離散化,最終將其模式特徵表 示為一條字符串,其參數level用於控制模式特徵的精確程度,即與原始時間序列模式的 匹配程度。level值越大,模式信息損失越小。步驟3)中,根據時間序列的屬性值以及模式特徵,分析攻擊者的背景知識,定義 隱私攻擊類型。由於最終發布的數據中包含最大化保留的模式信息,所以攻擊者的背景知 識可以分為兩大類,一類是關於時間序列屬性值的背景知識,定義為Kv,另一類是關於模式 信息的背景知識,定義為κρ。相應的,攻擊者的隱私攻擊類型可以劃分為三大類a)基於Kv 的隱私攻擊;b)基於Kp的隱私攻擊;c)基於Kv U Kp的隱私攻擊。(k,P)匿名模型基於上 述定義的三種隱私攻擊類型進行構建,能夠有效的抵禦隱私攻擊,從而保證用戶隱私。(k,P)匿名模型將時間序列的各個屬性區間,以及整條序列的模式特徵分別作為 獨立的形式發布,力求達到模式信息損失最小化的效果。(k,P)匿名模型是一個雙層隱私 保護模型,其具體含義如下a)在第一層約束中,整個時間序列原始數據集被要求在QI屬性上滿足k匿名的條 件,在數據發布時發布每個k匿名組各個屬性的泛化區間;b)在第二層約束中,在每一個k匿名組內,要求每一條時間序列的模式特徵都至 少與其他P-I條時間序列相同,在數據發布時發布每條時間序列的模式特徵。(k,P)匿名模型的構造示例如圖2所示,在圖2中,我們根據一個包含8條時間序列的原始數據集來構 建(k,P)匿名模型,首先可將其分為2個k匿名組(k匿名組1和k匿名組2),每個k匿名 組中包含四條時間序列,發布每個k匿名組的各個屬性的泛化區間,然後,將每個k匿名組 各進一步劃分為兩個P子組,發布各個P子組的模式特徵。步驟4)中提到的模式特徵的相似性衡量方式嚴重依賴於模式映射函數以及攻擊 者的背景知識,需具體問題具體分析,不可一概而論。對於SAX而言,我們將模式特徵的相 似性定義為兩條模式特徵字符串之間的歐式距離。在進行分組以滿足(k,P)匿名模型約束 時,首先根據模式特徵的相似性,在整個原始數據集中以一種自頂向下的方式來構造P子 組,進一步保證模式信息損失最小化的需求。步驟5)中,基於步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值 的相似性,以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數據集最終 滿足(k,p)匿名模型的要求。步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分。屬性 值信息損失由於屬性值泛化而產生。對於一條有η個屬性的時間序列r而言,其屬性區間 上限可表示為<,<,...,<,屬性區間下限表示為〈,『2_,...,(。基於上述定義,r的屬性值信息 損失可形式化為 模式信息損失是指原始時間序列的模式與根據模式特徵重建的模式之間的差異。 在(k,p)匿名模型約束下,能夠證明在最壞情況下的隱私洩露概率為1/P。
權利要求
一種模式信息損失最小化的序列類數據隱私保護方法,其特徵在於該方法的步驟如下1)建立一個廣義的時間序列模式定義模型,根據這個模型以及實際應用的模式挖掘任務需求,選擇符合實際應用需求的模式定義函數集;2)根據步驟1)中提出的模式定義函數集,確定模式映射函數,時間序列的屬性分為標識屬性,QI屬性和敏感屬性三種,時間序列的模式特徵由模式映射函數基於QI屬性來進行提取;3)根據時間序列的屬性值以及時間序列的模式特徵,定義隱私攻擊類型,構建(k,P)匿名模型以保護時間序列數據隱私;4)根據上述步驟2)中所述的時間序列的模式特徵,衡量整個原始數據集中任意兩條時間序列之間的模式相似性,構建P子組,以達到模式信息損失最小化的效果;5)基於步驟4)中形成的P子組,分析任意兩個P子組之間的QI屬性值的相似性,以自底向上的聚類方式對P子組進行聚類,形成k匿名組,使得原始數據集最終滿足(k,P)匿名模型的要求;6)定義(k,P)匿名模型的信息損失衡量策略,並分析其隱私洩露概率,完成對(k,P)匿名模型的可用性評估,同時根據分組結果,對時間序列數據進行屬性值的泛化,完成數據發布。
2.根據權利要求1所述的一種模式信息損失最小化的序列類數據隱私保護方法,其特 徵在於步驟1)中選用的模式定義模型,兼容已有文獻中所有的模式定義方式,對於一條 具體的時間序列r,其模式定義函數集形式化為ρ (r) = ,m為系統變量,其 中,fi(l彡i彡m)為任意兩個或兩個以上屬性的相關性函數。
3.根據權利要求1所述的一種模式信息損失最小化的序列類數據隱私保護方法,其特 徵在於步驟2)中的模式特徵應滿足以下兩個條件a)由原始時間序列經過特定的模式映 射函數得出;b)可根據該模式特徵對原始時間序列的模式進行重建。模式特徵從QI屬性 中提取,並作為一種獨立的形式發布。要求模式映射函數能夠使得重建後的模式與原始時 間序列模式的差異最小。
4.根據權利要求1所述的一種模式信息損失最小化的序列類數據隱私保護方法,其特 徵在於步驟3)中構建的(k,P)匿名模型是一個雙層隱私保護模型,其具體含義如下a)在第一層約束中,整個原始數據集被要求在QI屬性上滿足k匿名的條件;b)在第二層約束中,在每一個k匿名組內,要求每一條時間序列的模式特徵都至少與 其他P-I條時間序列相同。
5.根據權利要求1所述的一種模式信息損失最小化的序列類數據隱私保護方法,其特 徵在於步驟4)中提到的模式特徵的相似性衡量方式嚴重依賴於模式映射函數以及攻擊 者的背景知識。
6.根據權利要求1所述的一種模式信息損失最小化的序列類數據隱私保護方法,其特 徵在於步驟6)中提到的信息損失,包括屬性值信息損失以及模式信息損失兩部分,屬性 值信息損失由於屬性值泛化而產生,模式信息損失是指原始時間序列的模式與根據模式特 徵重建的模式之間的差異,在(k,P)匿名模型約束下,證明在最壞情況下的隱私洩露概率 為 1/P。
全文摘要
本發明公開了一種模式信息損失最小化的序列類數據隱私保護方法。基於一個廣義的模式定義模型以及實際應用需求來確定模式定義函數集,在此基礎上選擇能夠實現模式信息損失最小化的模式映射函數以提取模式特徵。同時基於攻擊者的背景知識來確定隱私攻擊類型,基於k匿名技術,對時間序列的QI屬性值和模式特徵施加(k,P)匿名模型,該模型將時間序列的屬性泛化區間以及模式特徵分別作為獨立的形式發布,在保證數據隱私的基礎上,將時間序列的模式信息最小化,保證數據的可用性。(k,P)匿名模型能夠兼容各種模式定義方式並擁有一套完整的可用性評估機制,其完善性和有效性使得(k,P)匿名模型能夠在最大程度上博得信賴,獲得廣泛應用。
文檔編號G06F17/30GK101964034SQ201010298698
公開日2011年2月2日 申請日期2010年9月30日 優先權日2010年9月30日
發明者壽黎但, 尚璇, 胡天磊, 陳剛, 陳珂 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀