一種考慮用戶分布的空域流量特徵提取方法與流程
2023-09-12 18:56:50

本發明屬於無線通信網絡技術領域,涉及一種用戶分布的空域流量特徵提取方法。
背景技術:
在無線蜂窩網絡中,SINR統計量對網絡性能相關的研究至關重要,接收信號和幹擾的強度非常依賴網絡的集合特性,即發送方和接收方的相對位置,因此,空間中的流量特性對網絡性能產生著直接的影響。
在無線蜂窩網絡中,時域的流量建模已經開展過很多研究,而對空域中的流量建模研究較少,空域中的流量主要反映為用戶的空間分布。已有研究將從運營上處獲得的基站分布和用戶的數據進行擬合,通過分析擬合後的閉合表達式,發現現實部署的基站和用戶在一定程度上服從泊松分布。因此,結合隨機幾何和泊松過程對用戶分布進行流量建模具有一定的合理性。
有研究指出時域中的流量模型可以看作空域中的流量模型在一維空間中的一個特例。空域中的流量模型與時域中的流量模型具有一定相似性,以時域一維過程為例:若採用「區間技術」的方法,將整個時域或空域劃分為一個個小窗口,對每個小窗口中的點進行計數,理論上窗口內點的個數都應該服從泊松分布,這是一種基於密度的指標,找到合適的窗口大小對流量的準確建模是十分重要的。若採用時域內兩個鄰居節點的距離進行建模也是一種可行的方案。而在空域中,由於各點之間沒有類似於時域內各點之間的明確順序關係。因此針對空域內這種基於距離的建模方法還有待探索。空域流量建模的前提是對空域流量樣本的特徵提取,用合理的特徵來區分不同的空間流量形態。
技術實現要素:
本發明的目的在於提出一種考慮用戶分布的空域流量特徵提取方法,旨在有效地捕捉用戶在空間中成簇分布的特徵,在保證計算複雜度低的同時提高特徵提取的準確性,為流量形態分類任務提供前期保證。
為實現上述技術目的,本發明的技術方案是,
一種考慮用戶分布的空域流量特徵提取方法,包括以下步驟:
S1基於已有的流量形態分布建立XOY二維平面坐標系,獲取1600*1600平面區域內的用戶坐標。
S2採用網格劃分的方法對1600*1600平面區域進行N*N區域劃分,統計每個網格區間內的用戶個數,並將其存入矩陣a(N,N)。
S3對矩陣a(N,N)內各參數採用滑動窗口進行單位重疊滑動提取特徵,並將新的特徵存入矩陣b(N-1,N-1)。
S4將更新的矩陣b(N-1,N-1)內各參數作為每個樣例新的流量形態分布特徵,並對所有樣例進行無監督分類。
S5取各類的類中心表徵一類流量模式,獲取基站部署狀態,並將其帶入到各類類內所有樣例中,測試每個樣例的用戶覆蓋率。
優選地,本發明S2的具體方法為:對1600*1600平面區域進行N*N網格劃分,則單位網格寬度為1600/N;將每個用戶的X、Y坐標同時除以1600/N並進行向上取整;基於取整後的X,Y坐標統計位於第i行第j列網格的用戶個數,並將其存入矩陣a(N,N)中的a(i,j)中,矩陣a(N,N)的大小為N*N,則矩陣a(N,N)內各參數直觀反映了用戶流量形態的空域分布特徵。
優選地,本發明S3中採用滑動窗口進行單位重疊滑動提取特徵按如下步驟進行:首先,採用2*2的單元滑動窗口對矩陣a(N,N)統計的用戶分布的空域流量特徵進行單位重疊滑動,再對單元滑動窗口內的用戶總數進行求和計數,並將其存於矩陣b(N-1,N-1),該過程可通過以下運算實現:
b(i,j)=a(i,j)+a(i+1,j)+a(i,j+1)+a(i+1,j+1)
顯然,經滑動窗口提取的特徵數較直接經單元網格提取的特徵數要少2N-1個。
優選地,本發明S4中採用經典的K均值算法對所有樣例進行無監督分類,具體通過如下步驟實現:
S41為確定最佳聚類數,對代價函數J(K)進行統計分析,並根據肘部法則,找到代價函數曲線的拐點即為最佳聚類個數。其中,代價函數J(K)表示每個樣例到其所屬類內質心的距離平方和。
本發明主要目的為了測試特徵提取方法的優效性,為了使得測試數據更加全面準確,本發明選取的最佳K值是拐點處的某個區間,這裡使得K={6,8,10,12}。
S42在確定的最佳K值區間下,採用滑動窗口提取的流量分布空域特徵表徵訓練樣例,再對訓練樣例進行K均值聚類。其實現原理主要是根據訓練樣例到規定的K個類中心的距離和最小來進行樣例歸類。
優選地,本發明S5通過如下步驟實現:
S51對所有訓練樣例進行K均值聚類後,獲取每個聚類的類中心空域特徵;
S52將類中心樣例的流量分布空域特徵進行1600*1600平面區域內用戶流量分布還原,獲取每類類中心用戶流量分布情況下的基站狀態,同時使用這些基站狀態表徵所屬類內所有樣例的基站狀態;
S53基於類中心流量分布表徵的基站狀態,測試每個類內所有樣例的用戶覆蓋率。
本發明的有益效果是:
本發明在直接進行單位網格提取用戶流量分布空域特徵的基礎上,採用2*2滑動窗口對用戶流量分布空域特徵進行單位重疊滑動實現特徵的再提取,雖然該特徵提取方法明顯較直接網格提取的特徵減少了2N-1個特徵數,但可以很好地保留空間用戶流量分布的邊緣細節信息,且在一定程度上減小了計算複雜度,測試結果也表明該特徵提取方法甚至比直接網格提取特徵方法具有更高的準確性,更利於對所有樣例進行高準確度無監督分類。
本發明提出了一種基於滑動窗口重疊提取用戶分布的空域流量特徵提取方法,所設計的特徵向量有效保留了用戶成簇分布的信息,能夠有效地對空間流量形態進行模式識別,特性維數小且計算複雜度低,有利於處理高密度的用戶分布場景,進而指導基站的部署規劃。
附圖說明
圖1為本發明的流程圖;
圖2本發明用戶流量分布的空域特徵網格提取示意圖;
圖3基於本發明提取的空域特徵進行無監督聚類分析,尋找最佳聚類數目的示意圖;
圖4基於本發明在固有聚類數目和網格劃分情況下所有樣例的用戶覆蓋率示意圖;
圖5基於本發明對所有樣例在覆蓋率為[0,0.9],[0.9,0.98],[0.98,1]的範圍內進行頻數統計的統計圖;
圖6基於本發明對比平滑窗口及單位網格兩種提取特徵方法的用戶覆蓋率對比圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述。
圖1是本發明特徵提取及用於流量形態分類的流程圖。
S1基於已有的流量形態分布建立XOY二維平面坐標系,獲取劃定平面區域內的用戶坐標。
本實施例中:對1600*1600平面區域進行N*N網格劃分,則單位網格寬度為1600/N。將每個用戶的X、Y坐標同時除以1600/N並進行向上取整。基於取整後的X,Y坐標統計位於第i行第j列網格的用戶個數,並將其存入矩陣a(N,N)中的a(i,j)中,矩陣a(N,N)的大小為N*N,則矩陣a(N,N)內各參數直觀反映了用戶流量形態的空域分布特徵。
S2採用網格劃分的方法對劃定平面區域進行N*N區域劃分,統計每個網格區間內的用戶個數,並將其存入矩陣a(N,N),作為某樣例的流量分布特徵。
對1600*1600平面區域進行N*N網格劃分,則單位網格寬度為1600/N;將每個用戶的X、Y坐標同時除以1600/N並進行向上取整;基於取整後的X,Y坐標統計位於第i行第j列網格的用戶個數,並將其存入矩陣a(N,N)中的a(i,j)中,矩陣a(N,N)的大小為N*N,則矩陣a(N,N)內各參數直觀反映了用戶流量形態的空域分布特徵。
S3對矩陣a(N,N)內各參數採用滑動窗口進行單位重疊滑動提取特徵,並將新的特徵存入矩陣b(N-1,N-1),作為再提取的新的流量分布特徵。
採用2*2的單元滑動窗口對矩陣a(N,N)統計的用戶分布的空域流量特徵進行單位重疊滑動,再對單元滑動窗口內的用戶總數進行求和計數,並將其存於矩陣b(N-1,N-1),該過程可通過以下運算實現:
b(i,j)=a(i,j)+a(i+1,j)+a(i,j+1)+a(i+1,j+1)
顯然,經滑動窗口提取的特徵數較直接經單元網格提取的特徵數要少2N-1個。
S4將更新的矩陣b(N-1,N-1)內各參數作為每個樣例新的流量形態分布特徵,並對所有樣例進行無監督分類。
S41本發明主要基於滑動窗口提取的流量分布空域特徵採用經典的K均值算法對所有樣例進行無監督分類,為確定最佳聚類數,對代價函數J(K)進行統計分析,並根據肘部法則,找到代價函數曲線的拐點即為最佳聚類個數,本發明主要目的為了測試特徵提取方法的優效性,為了使得測試數據更加全面準確,本發明選取的最佳K值是拐點處的某個區間,這裡使得K={6,8,10,12}。其中,代價函數J(K)表示每個樣例到其所屬類內質心的距離平方和。
S42在確定的最佳K值區間下,採用滑動窗口提取的流量分布空域特徵表徵訓練樣例,再對訓練樣例進行K均值聚類。其實現原理主要是根據訓練樣例到規定的K個類中心的距離和最小來進行樣例歸類。
S5取各類的類中心表徵一類流量模式,獲取基站部署狀態,並將其帶入到各類類內所有樣例中,測試每個樣例的用戶覆蓋率。
S51對所有訓練樣例進行K均值聚類後,獲取每個聚類的類中心空域特徵。
S52將類中心樣例的流量分布空域特徵進行1600*1600平面區域內用戶流量分布還原,獲取每類類中心用戶流量分布情況下的基站狀態,同時使用這些基站狀態表徵所屬類內所有樣例的基站狀態。
S53基於類中心流量分布表徵的基站狀態,測試每個類內所有樣例的用戶覆蓋率。
圖2是本發明用戶流量分布的空域特徵網格提取方法。本實施例主要是對劃定平面區域進行N*N網格劃分後得到的用戶流量特徵進行滑動窗口的特徵單元重疊提取的過程,這裡總共進行了4組測試,N值分別為{4,8,16,32}。
圖3是基於本發明提取的空域特徵進行無監督聚類分析,找最佳聚類數目。實施例中,取k=1~30,基於4組網格{4*4,8*8,16*16,32*32}劃分方式提取的樣例特徵對所有樣例進行K均值分類,並計算每個樣例到其所屬類內質心的距離平方和J(k),作出J-k曲線,根據肘部法則可以找到曲線拐點K為9,事實上本發明選取的最佳K值是拐點處的某個區間,這裡使得K={6,8,10,12}。
圖4是基於本發明在固有聚類數目和網格劃分情況下所有樣例的用戶覆蓋率。實施例採用控制變量法測量聚類數和網格劃分對樣例用戶覆蓋率的影響,這裡的用戶覆蓋率是指在類中心基站部署狀態的前提下所屬類類內的各樣例的所有用戶被服務的比率。由實驗結果可以看到,K對用戶覆蓋率的影響並不顯著;而網格劃分對用戶覆蓋率的影響較明顯,當網格劃分得越細,所提取的樣本特徵越多,分類準確性提高,且所有樣例用戶覆蓋率更高。
圖5是基於本發明對所有樣例的覆蓋率進行頻數統計的結果。實施例對圖4中的用戶服務情況在[0,0.9],[0.9,0.98],[0.98,1]的區間範圍內進行頻數統計,本發明設定用戶覆蓋率為0.98以上時,其基站開啟狀態最佳。由圖5可知,隨著網格劃分越細,所獲得的用戶覆蓋率越高,當K為8和10時,網格對用戶覆蓋率的影響十分明顯呈梯狀分布,當K為6和12時,網格為4*4和8*8的用戶覆蓋情況區分度不是非常明顯,這也間接證實了最佳聚類數在9左右徘徊的結論。
圖6是基於本發明對比平滑窗口及單位網格兩種提取特徵方法的用戶覆蓋率。實施例對採用平滑窗口和單位網格進行特徵提取進行了對比試驗,其結論可以發現:採用平滑窗口進行特徵提取相對於直接採用網格進行特徵提取,仍然可以獲得與N2個特徵相近甚至更好的分類結果,所得到的用戶覆蓋率更高,此外,理論上分析,平滑窗口進行特徵提取可將樣本特徵減少2N-1,一定程度上減少了計算複雜度。綜上,採用平滑窗口對用戶流量分布進行空域特徵提取是一種準確且高效的方法。
以上包含了本發明優選實施例的說明,這是為了詳細說明本發明的技術特徵,並不是想要將發明內容限制在實施例所描述的具體形式中,依據本發明內容主旨進行的其他修改和變型也受本專利保護。本發明內容的主旨是由權利要求書所界定,而非由實施例的具體描述所界定。