數據集的可視化方法和系統的製作方法
2023-06-17 11:01:31 2
專利名稱:數據集的可視化方法和系統的製作方法
技術領域:
本發明涉及數據處理領域,具體地,涉及數據集的可視化方法和系統。
背景技術:
社會網絡是由多個節點(通常代表個人或組織)構成的社會結構,其中的節點相 互之間通過一種或多種特定類型的依賴關係聯結起來。節點之間的依賴關係例如是金融關 系、人際關係、社會關係等。社會網絡,作為自然結構出現在我們的日常生活中,節點之間的 關係能夠揭示關於該結構的諸多信息。1964年以來,社會網絡分析便成為一個重要的研究方向,目前已經發展成為具有 其自身的理論說明、方法、社會網絡分析軟體及研究人員等的範型。對於社會網絡分析來說,可視化是能夠提供極大便利的重要技術。目前,社會網絡 的可視化主要分為兩種類型第一種類型是如圖1(a)所示的節點連結圖那樣僅呈現節點 之間的依賴關係而忽視了節點的背景信息的可視化方法,第二種類型是如圖1(b)所示的 那樣不僅呈現了節點之間的依賴關係而且還呈現了節點的背景信息的可視化方法。在社會網絡分析中,分析人員對於社會網絡的研究不僅專注於社會網絡的拓撲, 而且還要考慮社會網絡中各個節點背後的背景信息。因此,上述第一種類型的社會網絡的可視化方法,由於不能夠呈現節點背後的背 景信息,所以存在著不利於社會網絡分析的順利開展的問題。此外,在上述第二種類型的社會網絡的可視化方法中,即使呈現了節點的背景信 息,但是也會由於呈現方式的混亂,而存在著不能夠有效地引導社會網絡分析的順利開展 的問題。例如就圖1(b)所示的可視化方法而言,可以看出,由於呈現方式的不適當,在單個 視圖上同時呈現了大量節點的多種背景信息,引起了極度的視覺混亂。此外,網絡的數據集通常是多維的,即包含多種屬性的信息,但在上述第二種類型 的可視化方法中,除了可能出現圖1(b)所示的呈現方式混亂的情況之外,還存在著將高維 度(多種屬性)的背景信息壓縮為低維度(少數一種或幾種屬性)的背景信息的情況。在 此情況下,由於節點的大部分背景信息的省略,將引起呈現內容的失真。上述這些問題不僅僅存在於社會網絡的可視化的情況,而且還存在於其他諸如 SMS (Short Message krvice,短消息服務)網絡、網際網路等基於內容的網絡的可視化情況。
發明內容
鑑於上述問題,本發明提供一種數據集的可視化方法和系統,以便通過分別從數 據集的不同信息維度呈現數據集的不同概況來可視化數據集,在確保向數據集分析人員呈 遞數據集的全面信息的同時,防止呈現內容的失真以及視覺混亂。根據本發明的一個方面,提供了一種數據集的可視化方法,包括將數據集基於不 同信息維度劃分為多個信息層;以及分別將基於不同信息維度劃分的上述多個信息層進行 可視化處理,以用於呈現該多個信息層的各自的視圖。
根據本發明的另一個方面,提供了一種數據集的可視化系統,包括分層單元,其 將數據集基於不同信息維度劃分為多個信息層;以及可視化單元,其分別將基於不同信息 維度的上述多個信息層進行可視化處理,以用於呈現該多個信息層的各自的視圖。如果採用本發明,則通過分別從數據集的不同信息維度呈現數據集的不同概況來 可視化數據集,使數據集分析人員能夠根據自身的需要從不同的角度獲得關於數據集的不 同信息,從而有助於數據集分析的開展。
相信通過以下結合附圖對本發明具體實施方式
的說明,能夠使人們更好地了解本 發明上述的特點、優點和目的。圖1是現有的社會網絡的可視化方法的圖示說明;圖2是根據本發明實施例的網絡的可視化方法的流程圖;圖3是圖2中的步驟205的圖示說明;圖4是圖2中的步驟210的圖示說明;圖5是圖2中的步驟210的詳細流程圖;圖6是圖5中的步驟510的詳細流程圖;圖7是圖6中的步驟605的詳細流程圖;圖8是圖5中的步驟515的詳細流程圖;以及圖9是根據本發明實施例的網絡的可視化系統的方框圖。
具體實施例方式下面就結合附圖對本發明的各個優選實施例進行詳細說明。圖2是根據本發明實施例的網絡的可視化方法的流程圖。如圖2所示,本實施例的網絡的可視化方法,在步驟205,將網絡的數據集基於不 同信息維度劃分為多個信息層。其中,每一信息維度的信息層是由上述網絡的數據集中該 信息維度的數據組成的。在本步驟中,可以根據網絡的數據集中所包含的任何信息維度,來對網絡進行信 息層的劃分。例如,在一個與論文有關的網絡的情況下,可以理解,論文數據集中將會包含 諸如論文信息、作者、會議等多種維度的信息。在此情況下,可以如圖3(a)所示,將與論文 有關的網絡劃分為基於論文信息維度的信息層、基於作者維度的信息層和基於會議維度的 fn息層。此外,在一個實施例中,在網絡的數據集中包含較少的信息維度時,在本步驟中, 也可以如圖3(b)所示,簡單地將網絡劃分為基於網絡拓撲的信息層和在網絡拓撲的基礎 上附加了背景信息的信息層。其中,基於網絡拓撲的信息層僅包含與網絡拓撲有關的信息, 即網絡中的各個節點以及各個節點之間的連結關係。此外,在網絡拓撲的基礎上附加了背 景信息的信息層,則除了包含與網絡拓撲有關的信息之外,還包含該網絡中的多個節點的 屬性描述。此外,在本步驟中,也可以基於網絡的數據集中隱含而非直接存在的信息維度來 生成信息層。例如,在與文檔有關的網絡的情況下,可以根據文檔中所隱含的關鍵字,生成基於關鍵字維度的信息層。在此情況下,如果與文檔有關的網絡的數據集僅給出文檔而並 沒有直接給出文檔中所包含的關鍵字,則在本步驟中,需要首先採用適合的內容提取模型、 諸如TF-IDF和LDA等,從各個文檔中提取出關鍵字信息,然後再根據所提取的關鍵字信息, 劃分成基於關鍵字維度的信息層。在步驟210,分別對基於不同信息維度的上述多個信息層進行可視化處理,以用於 呈現該多個信息層的各自的視圖。在本步驟中,可以採用本領域中任何一種已有的可視化方法來分別為上述多個信 息層生成視圖。例如,可以採用等高線圖生成方法來分別生成上述多個信息層的等高線圖。此外,在分別將上述多個信息層可視化時,該多個信息層的各自的視圖的呈現方 式也可以是多種的。例如在一個實施例中,可以將該多個信息層的各自的視圖組合為一個視圖,來呈 現給分析人員,並且使得分析人員能夠在上述多個信息層的各自的視圖之間進行切換。在此情況下,可以利用alpha bending(透明色處理)技術,來進行多個信息層的 視圖的組合。具體地,當分析人員聚焦於整個網絡時,調整各個信息層的色彩alpha值,被 聚焦的信息層採用較大的alpha值,而其他信息層採用較小的alpha值,從而使各個信息層 能夠重疊在一起,而在分析人員希望聚焦於多個信息層中的某一個信息層從而切換到該信 息層時,改變該信息層的視圖的色彩alpha值,將其設置為非透明,同時將其他信息層的視 圖設置為背景視圖而不可見。此外,關於該多個信息層的視圖之間的切換,可以通過提供切換按鈕或菜單來實 現瞬時切換,也可以通過提供滾動條,採用過渡的色彩alpha值的平滑方式來實現。通過提 供滾動條,能夠實現多個信息層的視圖之間的平滑切換。此外,在另一個實施例中,在本步驟中,也可以將上述多個信息層的視圖作為單獨 的視圖呈現給分析人員,使分析人員無需切換便能夠同時觀看到網絡的不同信息層的視 圖。此外,在本步驟中,除了能夠採用本領域中任何一種已有的可視化方法來分別為 上述多個信息層生成視圖之外,也可以採用根據本發明一個實施例的基於密度的等高線圖 生成方法,來為上述多個信息層中的至少一個生成基於密度的等高線圖。關於根據本發明一個實施例的基於密度的等高線圖生成方法,為了能夠直觀地理 解,圖4(a) (c)分別示出了對於某一與論文有關的網絡,在將該網絡分別劃分為基於會 議維度的信息層、基於作者維度的信息層和基於關鍵字維度的信息層的情況下,採用根據 本發明一個實施例的該基於密度的等高線圖生成方法,分別將各個信息層可視化而得到的 示例性視圖。如上所述,這些視圖可以利用alpha bending技術進行處理,組合為一個視圖, 並使分析人員能夠通過切換來觀看各個視圖。此外,這些視圖也可以作為單獨的視圖分別 呈現給分析人員。此外,圖4(d) (e)示出了對於某一網絡,在簡單地將該網絡劃分為基於網絡拓 撲的信息層和在網絡拓撲的基礎上附加了背景信息的信息層的情況下,採用根據本發明一 個實施例的該基於密度的等高線圖生成方法分別將各個信息層可視化而得到的示例性視 圖。同樣,這些視圖可以組合地呈現,也可以單獨地呈現。在根據本發明一個實施例的該基於密度的等高線圖生成方法中,採用等高線以及顏色的結合來表示節點之間的關係。具體地,在該方法中,僅提取並布局重要的節點,並且 利用等高線來表示未提取出的潛在節點及其之間的關係,而等高線內的填充顏色則用於表 示節點之間的不同等級的關係。例如,等高線內的填充顏色越深,表示該等高線內的節點之 間的關係越緊密。此外,等高線內的填充顏色還用於表示等高線內的信息密度,該信息密度 是利用等高線內圍繞著被布局的重要節點的、其他未呈現節點計算出的。下面關於根據本發明一個實施例的該基於密度的等高線圖生成方法,結合圖5-8 進行詳細描述。圖5-8是示出在圖1的步驟210中採用根據本發明一個實施例的該基於密 度的等高線圖生成方法將上述基於不同信息維度的多個信息層中的至少一個可視化的過 程的詳細流程圖。具體地,如圖5所示,首先在步驟505,從上述基於不同信息維度的多個信息層中, 選擇主信息層。在本步驟中,可以採用本領域中任何一種已有的布局方法,對於上述多個信息層 的每一個,分別根據該信息層所包含的數據集,生成視圖,進而根據所生成的視圖選擇出能 夠得到最佳布局效果的視圖的信息層,作為主信息層。具體地,可以根據以下條件來衡量視 圖的布局效果a)具有較佳的拓撲結構,能夠清晰地劃分為幾個部分;b)具有良好的對稱結構,所謂良好的對稱結構,是這樣來評價的選擇視圖的中 心點(到視圖的四周距離都相同或近似的節點),以該中心點為中心畫一個十字,將視圖分 成四份,如果每一份中節點的數量都相同,那麼視圖就具有良好的對稱結構;c)平均路徑長度短,所謂平均路徑長度,是這樣計算得到的在視圖中選擇任意 兩個節點組成一個節點對,計算它們之間的最短距離,進而計算視圖中所存在的所有節點 對的最短距離的平均值;d)視圖的規模較小,即視圖中所包含的節點的數目較少。在步驟510,對上述主信息層所包含的數據集進行概括,以構成包含中心節點及其 之間的連結關係的樣本數據集。該樣本數據集,用作為在為各個信息層生成視圖時的布局 樣本。一般而言,網絡的數據集的信息量都是非常大的,進而根據網絡的數據集所得到 的各個信息層的信息量也都是非常大的,這樣,如果將各個信息層的所有信息都直接呈現 在視圖上,則會造成視覺混亂。所以,在本步驟中,在生成視圖之前,對作為各個信息層的視 圖的布局樣本的主信息層的數據集進行採樣。當然,採樣後的樣本數據集,應該由能夠體現 原主信息層的數據集概況的典型數據、即重要的節點及其之間的連結構成。關於該步驟,結合圖6進行詳細描述。如圖6所示,首先,在步驟605,對上述主信息層的數據集進行節點概括,以獲得包 含多個中心節點的中心節點集。在一個實施例中,在本步驟中,根據節點的中心度對上述主信息層的數據集進行 節點概括。也就是說,從該主信息層的數據集中提取出多個分別處於其他節點所包圍的中 心的中心節點,構成中心節點集。具體地,首先,根據節點的中心度,確定一個最重要的節點,然後以該最重要的節 點為基準,計算節點之間的最短距離,來選擇相互之間距離最遠的多個節點,將這些節點作為中心節點。也就是說,可以認為相互之間距離最遠的多個節點是均勻地分布在視圖的不 同部分上的,所以通過提取這些節點作為中心節點,不會導致某一部分信息的丟失,從而不 會導致所生成的視圖的極大失真。本領域技術人員可以理解,上述節點的中心度,可以是等 級(degree)中心度、接近性(closeness)中心度、中間性(betweenness)中心度等。關於該步驟,可以利用圖7所示的過程來實現。在圖7所示的過程中,假設需要從 上述主信息層的數據集V中概括出包含m個中心節點的中心節點集P。如圖7所示,首先在步驟705,根據節點的中心度,從上述主信息層的數據集V中選 擇出一個最重要的節Ap1,將其移動到中心節點集P中。接著,在步驟710,對於中心節點集P中的中心節點Pi,計算其與當前主信息層的 數據集V中的各個節點的最短距離向量Cli [1,. . . η],其中η是當前主信息層的數據集V中 的節點數量。在此,在各個中心節Api的最短距離向量屯[1,...η]中,分別保存了該中心節點 Pi到數據集V中的各個節點的最短距離,S卩屯[1]保存了 Pi到數據集V中的第1個節點的 最短距離,Cli [2]保存了 Pi到數據集V中的第2個節點的最短距離,等等。在步驟715,在中心節點集P中的所有中心節點相互之間,進行最短距離向量的比 較,以從當前主信息層的數據集V中選擇出一個節點,將其從V移動到P中,該選擇的節點 到中心節點集P中的中心節點的最短距離大於數據集V中的其他節點。具體而言,首先針對中心節點集P中的各個中心節點Pi,根據其最短距離向量 ...η],在數據集V中確定一個距離該中心節點Pi最遠的節點X,即與Pi的最短距離φ[χ]最大的節點,進而在各個中心節點Pi的最遠節點χ相互之間,進行最短距離djx]的 比較,從而最終確定出一個最短距離djx]最大的節點X,將其從數據集V移動到P中。例如,假設中心節點集P中存在a和b兩個節點,則首先根據節點a、b的最短距離 向量,在數據集V中為節點a確定一個最遠的節點al,為節點b確定一個最遠的節點bl,然 後對節點a、al之間的距離與節點b、bl之間的距離進行比較,選擇其中較大的距離所對應 的那個節點(al或bl),將其從數據集V移動到中心節點集P中。在步驟720,判斷中心節點集P中的中心節點數是否達到m,如果是,則該過程結 束,否則返回到步驟710。以上圖7的過程就是對圖6中的步驟605的進一步詳細化。接著,返回到圖6,在步驟610,根據主信息層的原始數據集,為中心節點集中的各 個中心節點進行連結概括,以獲得包含中心節點之間的連結關係的中心節點連結集。由於通過步驟605中的節點的概括,使中心節點集中的中心節點作為與其相關的 周圍節點的代表而被選擇出,所以也應該將這些相關的周圍節點之間的連結概括並綁定到 其相應的中心節點上。具體地,在本步驟中,對於中心節點集中的任意兩個中心節點P1和P2,利用廣度優 先搜索(Breadth-First-Search,BFS)算法在上述主信息層的原始數據集中尋找所有連接 這兩個中心節點的路徑、即邊,並且對這些邊中長度小於預定的最大長度λ的邊進行加權 合併,作為直接連接中心節點集中的這兩個中心節點P1和P2的邊,添加到中心節點連結集 中。例如,假設中心節點pl、p2之間有10條邊el,e2,. . . en,每條邊的權值為wl,w2,. . . wn, 則利用一條權值為. . +wn的邊e來代替這10條邊,將該邊e添加到中心節點連結集中,同時將上述10條邊el,e2,. . . en從主信息層的原始數據集中刪除。並且,在獲得了中心節點連結集之後,該中心節點連結集與上述的中心節點集一 起構成了樣本數據集。以上圖6的過程就是對圖5中的步驟510的進一步詳細化。接著,返回到圖5,在步驟515,以上述概括出的樣本數據集為布局樣本,為上述主 信息層生成基於密度的等高線圖。關於該步驟,下面結合圖8進行詳細描述。如圖8所示,首先在步驟805,計算生成等高線圖所需的高度矩陣的維數。高度矩陣是任何一種等高線生成算法都需要的輸入。為了生成NXN維高度矩陣, 在本步驟中,根據屏幕的尺寸,基於下式(1)來計算高度矩陣的維數N:N =* hei^L(1)ratio其中,width和height分別是屏幕的寬度和高度,ratio是常量。考慮到高度矩陣的維數N越大,所生成的等高線越平滑,但所花費的計算時間也 越多這一事實,根據本發明的發明人的經驗,將上面的常量ratio設置為10是適宜的。接著,在步驟810,將上述樣本數據集中的各個中心節點布局到屏幕上。也就是說, 根據樣本數據集中所包含的中心節點和中心節點之間的連結關係,確定各個中心節點在屏 幕上的布局。在該步驟中,可以採用本領域中任何一種已有的布局方法將上述樣本數據集中的 中心節點布局到屏幕上。在步驟815,為上述樣本數據集中的各個中心節點,以其周圍未被選擇到上述樣本 數據集中的節點的數量作為該中心節點的質量,計算該中心節點的密度分布。由於樣本數據集中的各個中心節點是從原始的主信息層的數據集中、作為其周圍 節點的代表被概括出來的,所以在本步驟中,將圍繞著中心節點的周圍節點的數量作為中 心節點的質量,計算出中心節點的密度分布,以便將周圍節點體現在中心節點的密度分布 中。具體地,將主信息層的數據集中未被選擇到樣本數據集中的各個節點分別指派給 距離該節點最近的中心節點,在此,假設主信息層的數據集中指派給中心節點i的未選擇 節點的數量為Hii,則利用下式(2)來計算中心節點i的密度分布f(x)1 mf ν Λ/ω^Σ ^ψ) ⑵n i=\ n \ n J其中,x表示屏幕上的某個位置的二維坐標,&表示中心節點i在屏幕上的二維坐 標,η是原始的主信息層中的總節點數,m是樣本數據集中的中心節點數,h是帶寬,KO是 核函數。對於上式O)中的核函數K,可以使用本領域中已有的分布函數,例如具有0平 均數和最小的整數變量的高斯分布函數,即N(0,1)。此外,上式O)中的帶寬h,是用於控制所獲得的密度分布f(x)的平滑程度的常 量。h越小,所得到的分布f(x)越將出現窄而陡峭的波峰,h越大,f(x)的分布越均勻及平 滑。對於帶寬h,可以通過交叉驗證來得到。
在此,在優選實施例中,根據下式C3)所示的評估器,通過棄一法交叉驗證來評估 出帶寬h的最佳值
0085]
權利要求
1.一種數據集的可視化方法,包括將數據集基於不同信息維度劃分為多個信息層;以及分別對基於不同信息維度的上述多個信息層進行可視化處理,以用於呈現該多個信息 層的各自的視圖。
2.根據權利要求1所述的方法,其中進行可視化處理的步驟進一步包括利用透明色處理技術對上述多個信息層的各自的視圖進行處理,以將其組合為一個視 圖,並且使得上述多個信息層的各自的視圖之間能夠進行切換。
3.根據權利要求1所述的方法,其中進行可視化處理的步驟進一步包括 從上述基於不同信息維度的多個信息層中,選擇主信息層;對上述主信息層所包含的數據集進行概括,以構成包含中心節點及其之間的連結關係 的樣本數據集;以及以上述樣本數據集為布局樣本,為上述主信息層生成基於密度的等高線圖。
4.根據權利要求3所述的方法,其中上述概括的步驟進一步包括對上述主信息層的數據集進行節點概括,以獲得包含多個中心節點的中心節點集;以及根據上述主信息層的數據集,為上述中心節點集中的中心節點進行連結概括,以獲得 包含中心節點之間的連結關係的中心節點連結集。
5.根據權利要求4所述的方法,其中對上述主信息層的數據集進行節點概括的步驟進 一步包括從上述主信息層的數據集中,根據節點的中心度,選擇出一個最重要的節點,將其移動 到中心節點集中;依次執行以下步驟,直到中心節點集中的中心節點數達到預定的值 對於中心節點集中的各個中心節點,計算其與上述主信息層的數據集中未被選擇到中 心節點集中的節點之間的最短距離向量;以及從主信息層的數據集中未被選擇到中心節點集中的節點中選擇出一個與中心節點的 最短距離是最短的這樣的節點,移動到中心節點集中。
6.根據權利要求4所述的方法,其中為上述中心節點集中的中心節點進行連結概括的 步驟進一步包括對於上述中心節點集中的任意兩個中心節點利用廣度優先搜索算法在主信息層的數據集中尋找所有連接這兩個中心節點的路徑;以及對上述路徑中長度小於預定的最大長度的路徑進行加權合併,作為直接連接上述任意 兩個中心節點的連結,添加到上述中心節點連結集中。
7.根據權利要求3所述的方法,其中為上述主信息層生成基於密度的等高線圖的步驟 進一步包括 為上述樣本數據集中的各個中心節點,以其周圍的未被選擇到上述樣本數據集中的節 點的數量作為該中心節點的質量,計算該中心節點的密度分布;將上述樣本數據集中的各個中心節點的密度分布結合到用於生成等高線的高度矩陣中;利用上述高度矩陣,為上述各個中心節點生成等高線並填充顏色,以為上述主信息層 生成基於密度的等高線圖;以及將上述主信息層中、與上述各個中心節點相對應的背景信息布局到上述基於密度的等 高線圖上。
8.根據權利要求3所述的方法,其中進行可視化處理的步驟還包括將非主信息層中與上述主信息層中的中心節點的背景信息對應的信息布局到非主信 息層的等高線圖上,其中非主信息層的等高線圖與主信息層的等高線圖一致。
9.根據權利要求7所述的方法,其中上述計算中心節點的密度分布的步驟進一步包括對於上述樣本數據集中的各個中心節點,根據下式計算密度分布
10.根據權利要求9所述的方法,其中上述帶寬h是通過交叉驗證而得到的、使下式的 結果最小的值
11.根據權利要求9所述的方法,其中上述密度分布結合步驟進一步包括根據下式對上述樣本數據集中的各個中心節點的密度分布進行合成,以生成高度矩陣 的每一坐標處的合成密度分布
12.—種數據集的可視化系統,包括分層單元,其將數據集基於不同信息維度劃分為多個信息層;以及可視化單元,其分別對基於不同信息維度的上述多個信息層進行可視化處理,以用於 呈現該多個信息層的各自的視圖。
13.根據權利要求12所述的系統,其中上述可視化單元,利用透明色處理技術對該多 個信息層的各自的視圖進行處理,以將其組合為一個視圖,並且使得上述多個信息層的各 自的視圖之間能夠進行切換。
14.根據權利要求12所述的系統,其中上述可視化單元進一步包括主信息層選擇單元,其從上述基於不同信息維度的多個信息層中,選擇主信息層;數據集概括單元,其對上述主信息層所包含的數據集進行概括,以構成包含中心節點 及其之間的連結關係的樣本數據集;以及視圖生成單元,其以上述樣本數據集為布局樣本,為上述主信息層生成基於密度的等 高線圖。
15.根據權利要求14所述的系統,其中上述數據集概括單元進一步包括節點概括單元,其對上述主信息層的數據集進行節點概括,以獲得包含多個中心節點 的中心節點集;以及連結概括單元,其根據上述主信息層的數據集,為上述中心節點集中的中心節點進行 連結概括,以獲得包含中心節點之間的連結關係的中心節點連結集。
16.根據權利要求15所述的系統,其中上述節點概括單元從上述主信息層的數據集中,根據節點的中心度,選擇出一個最重要的節點,將其移動 到中心節點集中;依次進行以下處理,直到中心節點集中的中心節點數達到預定的值對於中心節點集中的各個中心節點,計算其與上述主信息層的數據集中未被選擇到中 心節點集中的節點之間的最短距離向量;以及從主信息層的數據集中未被選擇到中心節點集中的節點中選擇出一個與中心節點的 最短距離是最短的這樣的節點,移動到中心節點集中。
17.根據權利要求15所述的系統,其中上述連結概括單元對於上述中心節點集中的任 意兩個中心節點利用廣度優先搜索算法在主信息層的數據集中尋找所有連接這兩個中心節點的路徑;以及對上述路徑中長度小於預定的最大長度的路徑進行加權合併,作為直接連接上述任意 兩個中心節點的連結,添加到上述中心節點連結集中。
18.根據權利要求14所述的系統,其中上述視圖生成單元進一步包括密度分布計算單元,其為上述樣本數據集中的各個中心節點,以其周圍的未被選擇到 上述樣本數據集中的節點的數量作為該中心節點的質量,計算該中心節點的密度分布;密度分布結合單元,其將上述密度分布計算單元所計算出的各個中心節點的密度分布 結合到用於生成等高線的高度矩陣中;等高線生成單元,其利用上述高度矩陣,為上述各個中心節點生成等高線並填充顏色, 以為上述主信息層生成基於密度的等高線圖;以及信息布局單元,其將上述主信息層中與上述各個中心節點相對應的背景信息布局到上 述基於密度的等高線圖上。
19.根據權利要求14所述的系統,其中上述視圖生成單元,將非主信息層中與上述主 信息層中的中心節點的背景信息對應的信息布局到非主信息層的等高線圖上,其中非主信 息層的等高線圖與主信息層的等高線圖一致。
20.根據權利要求18所述的系統,其中上述密度分布計算單元,對於上述樣本數據集 中的各個中心節點,根據下式計算密度分布,m/ν \ Μ h \ h )其中,X表示屏幕上的某個位置的二維坐標,Xi表示中心節點i在屏幕上的二維坐標, η是上述主信息層中的總節點數,m是上述樣本數據集中的中心節點數,Hii是上述主信息層中未被選擇到樣本數據集中的、中心節點i的周圍節點的數量,h是帶寬,KO是核函數。
21.根據權利要求20所述的系統,其中上述帶寬h是通過交叉驗證而得到的、使下式的 結果最小的值hn2 L h Jhnyj其中,K*(x) =K⑵(x)-2K(x),K(2)(x) =S K(x-y)K(y)dy, K(χ)為高斯分布函數 Ν(0, 1), Κ(2) (χ)為高斯分布函數Ν(0,2)。
22.根據權利要求20所述的系統,其中上述密度分布結合單元根據下式對上述樣本數 據集中的各個中心節點的密度分布進行合成,以生成高度矩陣的每一坐標處的合成密度分 布/W= Σ"。G中的所有其中,G表示上述樣本數據集,Ps表示樣本數據集G中的某個中心節點,fs (χ)是中心節 點Ps的密度分布。
全文摘要
本發明提供一種數據集的可視化方法和系統,該方法包括將數據集基於不同信息維度劃分為多個信息層;以及分別將基於不同信息維度的上述多個信息層進行可視化處理,以用於呈現該多個信息層的各自的視圖。在本發明中,通過分別從數據集的不同信息維度呈現數據集的不同概況來可視化數據集,在確保向數據集分析人員呈遞數據集的全面信息的同時,防止呈現內容的失真以及視覺混亂。
文檔編號G06F17/30GK102053988SQ20091021131
公開日2011年5月11日 申請日期2009年10月30日 優先權日2009年10月30日
發明者劉世霞, 孫冀萌, 時磊, 曹楠, 錢偉江 申請人:國際商業機器公司