新四季網

一種隱私保護數據共享發布方法

2023-10-07 10:57:14 1

專利名稱:一種隱私保護數據共享發布方法
技術領域:
本發明涉及一種數據處理方法,特別是一種隱私保護數據共享發布方法。
背景技術:
近年來聚類挖掘已在一些深層次數據應用中取得較大進展,但隨著人們對數據隱 私的日益關注,對數據進行共享挖掘也帶來了隱私保護方面的問題。例如,通過對電子病歷 進行挖掘可以得到病症的聚類,但醫療機構若直接將原始數據提供給挖掘者,會導致病例 數據暴露,洩露患者隱私。保險公司的理賠信息、銀行卡交易等數據中隱含的聚類模式,對 政府和企業決策具有重要意義,同時又都可能涉及個人隱私。隱私保護數據發布需要在保護數據隱私和維持數據可用性間尋求一種折中,目前 數據隱藏技術的主要思想是通過對原始個體數據取值的修改實現對微數據隱私安全的保 護,這種修改將以較大的概率造成數據個體差異的改變;而聚類挖掘恰恰通過分析數據個 體的相似和相異性,按照屬於同一聚簇的數據對象具有較低的相異性,屬於不同聚簇的數 據對象間具有較高相異性的思想將數據劃分成簇,聚類過程嚴重依賴於個體數據間的相異 性。某種程度上,聚類與隱藏在原理上存在依賴數據個體差異與弱化數據個體差異的衝突, 導致面向聚類的數據隱藏有別於面向其它數據應用的隱藏。面向聚類的數據隱藏發布更是 由於以下幾方面原因變得困難(1)保持聚類可用性的困難較之面向計數查詢或關聯、分類挖掘時隱藏處理中需保持的數據可用性特徵和約 束,聚類可用性與數據分布及個體數據內部結構相似性的關係更為緊密。而數據隱藏正是 通過修改個體數據特徵實現保護數據隱私,這種修改極易引起個體數據內部結構相似性和 數據分布的連鎖變化。(2)數值型數據的約束數值型數據是聚類分析常見的數據類型。不同於類別型數據,數值型數據缺少顯 式的屬性類別層次,數據匿名隱藏方法常用的泛化和抑制操作將失效或造成較大的信息丟 失。對數值型數據集進行聚類分析,歐式距離是評價數據間相似性和相異性的基本指標,隱 藏方法需要保證隱藏前後任意數據記錄間的歐式距離關係不變,以確保隱藏發布後數據的 聚類質量不變或改變較小。已有的一些數據隱藏發布方法存在不適用於數值型數據隱藏或難以兼顧隱藏後 數據聚類可用性與數據隱私安全性的不足。

發明內容
發明目的針對上述現有技術無法很好的解決面向聚類挖掘的隱私保護數據共 享發布問題,本發明的目的是提供一種基於阿基米德螺線旋轉的隱私保護數據共享發布方 法,以實現web環境下多數據源數據的安全共享與聚類可用性。技術方案為實現上述發明目的,本發明採用的技術方案為一種隱私保護數據共享發布方法,包括如下步驟(如

圖1所示)(1)用戶向伺服器提交包含η條記錄的原始數據集D,D包含m個屬性列I1,12,...,I .
丄m 『(2)若所述步驟(1)中的m為奇數,則轉到步驟(3),若m為偶數,則轉到步驟(4);(3)為D生成第m+1個屬性列Im+1,D中η條記錄在屬性列Im+1上的取值均為0 ;(4)將D中屬性列隨機兩兩分組,得到m/2或(m+l)/2個屬性列對(Ii, Ij), 1彡i乒j彡m+1 ;對於一個屬性列對(Ii, Ij),Ii稱為Ij的配對屬性列,Ij也為Ii的配對 屬性列;(5)對D中任意三個滿足AB彡AC彡BC的不同的數據點A、B、C,生成基於阿基 米德螺線旋轉數據變換後保持所述三個數據點距離關係保持穩定的旋轉參數取值範圍 β,, ke [1,2,3, ... ,^3];這裡保持穩定的意思是,原來A、B、C三個數據點距離關係是 AB ^ AC ^ BC,則生成基於阿基米德螺線旋轉數據變換後三個數據點距離關係原則上仍保 持不變,僅在取等號時可能發生微小的變化;(6)生成原始數據集D的阿基米德螺線旋轉參數取值範圍β ^ P=IcIlPk-,(7)選取滿足ε X α e 的螺距參數ε與旋轉角度α,對D中各屬性對的投 影數據子集進行阿基米德螺線旋轉,生成變換後投影數據子集;(8)若m為奇數,將變換後Im+1屬性列及其配對屬性列合併,並與其它變換後投影 數據子集進行並操作,生成D的變換後數據集D';若m為偶數,對變換後所有投影數據子 集進行並操作,生成D的變換後數據集D'。所述步驟(5)中旋轉參數取值範圍β k的生成方法可為假設1、2屬性列組成一 對,3、4屬性列組成一對,…,m-l、m屬性列組成一對,任意數據點A、B、C向量表示如下A(A1, A2, ... , Am),B(B1; B2, ... , Bm),C(C1, C2, ... , Cm);其中線段AA、B1B2與原點0的夾角為θ n, A3A4, B3B4與0的夾角為θ 12,..., AnrlAm、BnrlBm與0的夾角為θ 1(m/2);線段A1A2> C1C2與0的夾角為θ 21,A3A4, C3C4與0的夾角 為 θ 22' · · · 『 Am-!Am> Cm^1Cm 與 0 的夾角為 θ
2(m/2) ° 其中 Q 11、Q 12、· · ·、Q 1 (m/2) 『 Q 21、^ 22、· · ·、
θ 2(ffl/2) e
,假設
m/2M = 2^(cosi92i. - cos(9b.),
i=l
m/2N =- Ci + ay(cos(92i. - cos(9b.) + c. cos02j - cos6u\
i=l則旋轉變換後AB和AC距離關係保持穩定的阿基米德旋轉參數取值範圍《的生成 方法如下①M= 0,N = 0 時,《=(0, + α>);②M = 0,N 乒 0 時,允=(0, (ABl-ACX );③M > 0 樹,βΙ=(0,(-Ν-·^Ν2 -4M(AB2-AC2))/2M );④M < 0 時,^=(0,(-, +J,2 -4M(AB2-AC2))/2M);對AC ^ BC進行類似分析生成旋轉變換後AC和BC距離關係保持穩定的阿基米德旋轉參數取值範圍Λ2 l)M = 0,N = 0 時,/¢=(0,+00);
2)M=0,N ≠ 0時,
權利要求
1.一種隱私保護數據共享發布方法,其特徵在於,包括如下步驟(1)用戶向伺服器提交包含η條記錄的原始數據集D,D包含m個屬性列I1,12,…,Im;(2)若所述步驟(1)中的m為奇數,則轉到步驟(3),若m為偶數,則轉到步驟;(3)為D生成第m+1個屬性列Im+1,D中η條記錄在屬性列Im+1上的取值均為0;(4)將D中屬性列隨機兩兩分組,得到m/2或(m+1)/2個屬性列對(Ii, Ij),1≤i≠j≤m+1 ;(5)對D中任意三個滿足AB彡AC彡BC的不同的數據點A、B、C,生成基於阿基米德螺線 旋轉數據變換後保持所述三個數據點距離關係保持穩定的旋轉參數取值範圍0k,ke [1, 2,3,· · ·,Cn ];(6)生成原始數據集D的阿基米德螺線旋轉參數取值範圍β" ^o=I £ A;(7)選取滿足εX α e 的螺距參數ε與旋轉角度α,對D中各屬性對的投影數 據子集進行阿基米德螺線旋轉,生成變換後投影數據子集;(8)若m為奇數,將變換後Im+1屬性列及其配對屬性列合併,並與其它變換後投影數據 子集進行並操作,生成D的變換後數據集D';若m為偶數,對變換後所有投影數據子集進 行並操作,生成D的變換後數據集D'。
2.根據權利要求1所述一種隱私保護數據共享發布方法,其特徵在於,所述步驟(5)中 旋轉參數取值範圍β k的生成方法為假設1、2屬性列組成一對,3、4屬性列組成一對,…, m-l、m屬性列組成一對,任意數據點A、B、C向量表示如下A (A1, A2, -,Am), B (B1, B2,…,Bm),C(C1; C2,-,Cm);其中線段ΑΑ、ΒΑ與原點0的夾角為θ n,A3A4^B3B4與0的夾角為θ 12,...,Am_1Am>Bm_1Bm 與0的夾角為θ工W2);線段A1AyC1C2與0的夾角為θ 21,A3A4、C3C4與0的夾角為θ四,…, Am—iAm、Cm—A 與0的夾角為 Q 2 (m/2) ° 其中 Q 11、Q 12、 .··、^ 1 (m/2),^ 21、^ 22、 .··、^ 2 (m/2) ^rp · cos (rp/ ε + δ ) = χ-0χ rp · sin(rp/ ε + δ ) = y-0yX'與y'由下式求得 χ 『 = (rp+ ε α ) cos (rp/ ε + α + δ ) +Ox y 『 = (rp+ ε α ) sin (rp/ ε + α + δ ) +Oy其中,rp表示P(x,y)到螺心坐標為(0X,Oy)的歐幾裡德距離,
4.根據權利要求1所述一種隱私保護數據共享發布方法,其特徵在於,所述步驟(8) 中,若m為奇數,對變換後Im+1屬性列及其配對屬性列合併方法如下Ilrt屬性列的配對屬性列為屬性列Ii, 1彡i彡m,生成屬性列對(Ii, Im+1),其投影數據子集對應阿基米德螺線螺心坐標為(Ox,0),假設Q' (x' ,y')為對該投影數據子集實施阿基米德螺線旋轉變換生成數據集中的任意數據記錄,則
全文摘要
本發明公開了一種隱私保護數據共享發布方法,包括如下步驟用戶通過伺服器接口提交數據集,伺服器判斷數據集維數,若為奇數,則增加一個屬性,該維數據屬性值置零,將屬性隨機兩兩分組;分析數據集中數據點間的距離關係,確定阿基米德螺線旋轉參數,藉助阿基米德螺線的幾何性質,對原始數據中屬性值對進行阿基米德螺線旋轉變換,生成變換後數據集。本發明通過維持原始數據集任意三個數據記錄間距離關係穩定實現隱藏前後數據集聚類效果相同(或相似),實現有效兼顧聚類可用性和數據隱私安全性的隱私保護數據共享發布。
文檔編號G06F21/00GK102147814SQ20111009792
公開日2011年8月10日 申請日期2011年4月19日 優先權日2011年4月19日
發明者倪巍偉, 崇志宏, 陸介平, 黃茂峰 申請人:東南大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀