新四季網

一種客戶網絡行為數據重構方法及裝置的製作方法

2023-07-25 03:09:36

專利名稱:一種客戶網絡行為數據重構方法及裝置的製作方法
技術領域:
本發明涉及數據業務技術領域,特別是一種客戶網絡行為數據重構方法及裝置。
背景技術:
目前,各個運營商的小區簡訊系統覆蓋的MSC(Mobile Switch Center,移動交換 中心)/MGW(Media Gateway,媒體網關)非常多。小區簡訊系統主要在移動通信運營商現有的網絡基礎上,收集指定熱點小區客戶 活動的信息。小區簡訊系統採集的數據是基於移動客戶和移動局間傳輸的信令信息分析得 到的,不管客戶是否使用移動業務,都能夠提供客戶全天的網絡行為信息,比BOSS話單等 數據具備更全面的客戶行為信息。利用小區簡訊系統採集的客戶網絡行為信息,結合地理分布數據,可以提取客戶 的相關特徵,經過多維度的分析處理,還可以挖掘出許多有價值的客戶信息,如客戶屬性、 客戶流動性、人口密度、客戶日常生活軌跡等等。這些客戶信息具備很大的應用價值,可以 為精確營銷支撐、商業信息精確推送、公共應急預報發布等提供準確的客戶數據。然而現有的小區簡訊系統採集的客戶網絡行為數據的數據量很大,可能達到數億 條數據,這麼龐大的數據量不僅需要耗費大量的存儲空間,而且原始數據中存在的冗餘數 據和異常數據將會影響數據挖掘分析的準確性。

發明內容
本發明的目的是提供一種客戶網絡行為數據重構方法及裝置,降低小區簡訊系統 採集的客戶網絡行為數據所耗費的存儲空間,並提高數據的整體質量。為了實現上述目的,本發明實施例提供了一種客戶網絡行為數據重構方法,包 括將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數據;從客戶的主動行為數據中提取客戶的行為信息並保存到行為信息事實表中;從客戶的主動行為數據和被動行為數據中提取客戶的位置信息,並利用所述位置 信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以第一小區為起點,以第 二小區為終點的邊表示用戶從第一小區移動到第二小區;基於圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘 數據對應的冗餘的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。上述的客戶網絡行為數據重構方法,其中,所述客戶網絡行為數據為從小區簡訊系統接口採集到的原始客戶網絡行為數據;或對所述原始客戶網絡行為數據進行數據清洗得到的數據。上述的客戶網絡行為數據重構方法,其中,所述冗餘數據為異常位置更新行為數 據、桌球切換數據或循環走動數據。
上述的客戶網絡行為數據重構方法,其中,基於圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向 序列圖具體為清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列 圖。上述的客戶網絡行為數據重構方法,其中,基於圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向 序列圖具體為根據所述第一有向序列圖中獲取所有的目標集,所述目標集中任意兩個相鄰的點 之間都可能存在桌球切換;對於每一個目標集,計算其中的每個點的總度數;在目標集中的任意一個點的總度數大於預設閾值時,保留目標集中總度數最大的 點,並將所述第一有向序列圖中連接到目標集的邊都連接到總度數最大的點上,所有從目 標集出去的邊都改為從總度數最大的點出去,得到所述第二有向序列圖。上述的客戶網絡行為數據重構方法,其中,基於圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向 序列圖具體為根據所述第一有向序列圖中獲取由有向迴路組成的第一集合;從所述第一集合中刪除部分有向迴路,得到第二集合,被刪除的有向迴路的點集 為其他有向迴路的真子集,或者被刪除的有向迴路的點集與其他有向迴路的點集的交集不 是空集,且被刪除的有向迴路包括的點的數量較小,或者被刪除的有向迴路的點集與其他 有向迴路的點集的交集不是空集,且被刪除的有向迴路較晚出現;從第一有向序列圖中刪除第二集合中的有向迴路所對應的邊,並刪除孤立點,得 到所述第二有向序列圖。上述的客戶網絡行為數據重構方法,其中,行為信息事實表和客戶位置信息事實 表利用時段記錄時間信息。為了實現上述目的,本發明實施例還提供了一種戶網絡行為數據重構裝置,其特 徵在於,包括劃分模塊,用於將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數 據;行為信息提取及保存模塊,用於從客戶的主動行為數據中提取客戶的行為信息並 保存到行為信息事實表中;第一圖構建模塊,用於從客戶的主動行為數據和被動行為數據中提取客戶的位置 信息,並利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以 第一小區為起點,以第二小區為終點的邊表示用戶從第一小區移動到第二小區;第二圖構建模塊,用於基於圖論對所述第一有向序列圖進行分析處理,刪除所述 第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將將所述第二有向序列圖記錄的位置信息保存到客戶位置信 息事實表。
上述的客戶網絡行為數據重構裝置,其中,所述客戶網絡行為數據為從小區簡訊系統接口採集到的原始客戶網絡行為數據;或對所述原始客戶網絡行為數據進行數據清洗得到的數據。上述的客戶網絡行為數據重構裝置,其中,所述冗餘數據為異常位置更新行為數 據、桌球切換數據或循環走動數據。上述的客戶網絡行為數據重構裝置,其中,第二圖構建模塊具體包括用於清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向 序列圖的單元。上述的客戶網絡行為數據重構裝置,其中,第二圖構建模塊具體包括用於根據所述第一有向序列圖中獲取所有的目標集的單元,所述目標集中任意兩 個相鄰的點之間都可能存在桌球切換;用於對每一個目標集,計算其中的每個點的總度數的單元;用於在目標集中的任意一個點的總度數大於預設閾值時,保留所述目標集中總度 數最大的點,並將所述第一有向序列圖中連接到目標集的邊都連接到總度數最大的點上, 所有從目標集出去的邊都改為從總度數最大的點出去,得到所述第二有向序列圖的單元。上述的客戶網絡行為數據重構裝置,其中,第二圖構建模塊具體包括用於根據所述第一有向序列圖中獲取由有向迴路組成的第一集合的單元;用於從所述第一集合中刪除部分有向迴路,得到第二集合的單元,被刪除的有向 迴路的點集為其他有向迴路的真子集,或者被刪除的有向迴路的點集與其他有向迴路的點 集的交集不是空集,且被刪除的有向迴路包括的點的數量較小,或者被刪除的有向迴路的 點集與其他有向迴路的點集的交集不是空集,且被刪除的有向迴路較晚出現;用於從第一有向序列圖中刪除第二集合中的有向迴路所對應的邊,並刪除孤立 點,得到所述第二有向序列圖的單元。上述的客戶網絡行為數據重構裝置,其中,行為信息事實表和客戶位置信息事實 表利用時段記錄時間信息。本發明實施例具有以下的有益效果本發明實施例中,將客戶網絡行為數據劃分為客戶主動行為數據和客戶被動行為 數據,並基於圖論進行客戶網絡行為數據重構,從客戶網絡行為數據中分析提取出客戶的 行為信息和位置信息,在保證數據符合業務要求的前提下,不僅大幅度壓縮了數據的存儲 空間,而且提高了數據的整體質量,在此基礎上構建了一個面向客戶網絡行為分析主題的、 數據佔用存儲空間少而數據質量高的數據集市。


圖1為本發明實施例的客戶網絡行為數據重構方法的流程示意圖;圖2為客戶登記小區情況為aabac時對應的有向序列圖;圖3為本發明實施例的客戶網絡行為數據重構裝置的流程示意圖;圖4-圖5為利用本發明實施例的方法處理桌球切換數據的有向序列圖;圖6-圖7為利用本發明實施例的方法處理循環走動數據的有向序列圖。
具體實施例方式本發明實施例中,針對客戶網絡行為數據的特點,從圖論的角度出發,把小區表示 為有向圖中的點,把客戶在小區之間的位置移動表示為連結對應點的有向邊,從而使用有 向序列圖的理論對客戶網絡行為數據中存在的異常位置更新、桌球切換和循環走動數據進 行分析和優化處理,並最終轉換成客戶的位置信息和行為信息裝載到數據集市中。在保證 數據符合業務要求的前提下,該方法不僅大幅度壓縮了數據的存儲空間,還提高了數據質 量,為進一步的數據挖掘分析提供了良好的數據準備,具有較強的實用推廣價值。在對本發明實施例進行詳細描述之前,先對本發明實施例涉及到的概念進行描 述,以便於更好的理解本發明實施例。客戶網絡行為數據記錄客戶網絡行為(如開機、關機、收簡訊、發簡訊、語音主 叫、語音被叫、正常位置更新和周期位置更新等)的數據。客戶主動行為數據客戶網絡行為中,客戶有意識地進行參與的,並且與客戶實 際通信行為相對應的網絡行為為客戶主動行為,在小區簡訊系統採集的客戶網絡行為數據 中,記錄客戶主動行為(如開機、關機、收簡訊、發簡訊、語音主叫和語音被叫)的數據為客 戶主動行為數據。客戶被動行為數據客戶網絡行為中,客戶無意識進行參與的網絡行為作為客戶 被動行為,在小區簡訊系統採集的客戶網絡行為數據中,記錄客戶被動行為(如正常位置 更新和周期位置更新行為等)的數據為客戶被動行為數據。客戶位置信息事實表在構建的數據集市中,用於保存客戶位置信息的事實表,主 要是記錄客戶在某個小區所停留的時長,用於表明客戶的位置變化情況。客戶行為信息事實表在構建的數據集市中,用於保存客戶行為信息的事實表。主 要是記錄客戶的主動行為數據,用於表明客戶的行為情況。如圖1所示,本發明實施例的客戶網絡行為數據重構方法包括步驟11,將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數據;步驟12,從客戶的主動行為數據中提取客戶的行為信息並保存到行為信息事實表 中;步驟13,從客戶的主動行為數據和被動行為數據中提取客戶的位置信息,並利用 所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以第一小區為 起點,以第二小區為終點的邊表示用戶從第一小區移動到第二小區;本發明實施例中從圖論的角度來分析處理客戶的位置變化數據。首先,R局中的 每個小區用有向序列圖中的一個點Ci來表示,而客戶在某兩個小區之間的位置移動則可以 用一條連結對應點的有向序列邊Iij來表示。這樣對位置信息的分析處理就可以運用圖論 的理論對有向序列圖進行分析處理。例如客戶在某個時段內的登記小區情況為aabaC(a、b、c分別代表不同的小區), 則有向序列圖的表示如圖2所示。步驟14,基於圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列 圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向序列圖;步驟15,將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。如圖3所示,本發明實施例的客戶網絡行為數據重構裝置包括
劃分模塊,用於將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數 據;行為信息提取及保存模塊,用於從客戶的主動行為數據中提取客戶的行為信息並 保存到行為信息事實表中;第一圖構建模塊,用於從客戶的主動行為數據和被動行為數據中提取客戶的位置 信息,並利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以 第一小區為起點,以第二小區為終點的邊表示用戶從第一小區移動到第二小區;第二圖構建模塊,用於基於圖論對所述第一有向序列圖進行分析處理,刪除所述 第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將所述第二有向序列圖記錄的位置信息保存到客戶位置信息 事實表。當然,在本發明的具體實施例中,該客戶網絡行為數據可以是如下兩種數據由採集模塊從小區簡訊系統接口採集到的原始客戶網絡行為數據;對採集模塊從小區簡訊系統接口採集到的原始客戶網絡行為數據進行數據清洗 得到的數據。在本發明的具體實施例中,該清洗具體為清除所述原始客戶網絡行為數據中的 異常數據或數據質量較差的數據,如客戶號碼為空或者小區CGI為空的數據。
本發明具體實施例中,對數據的重構是以客戶為單位進行的。首先,從客戶網絡行為數據中抽取每個客戶一個時間段的所有記錄,並按時間先 後進行排序,同時為每個記錄加上一個標記位以標識該記錄在記錄集中的序號,用以表示 該客戶一天所有網絡行為發生的先後順序;對於行為信息提取及保存模塊,需要從每個客戶的一個時間段(如一天)的主動 行為數據中提取出客戶的行為信息,加上客戶號碼所包含的具體信息(如品牌、地區、運營 商),一併裝載到數據集市的客戶行為信息事實表中,就完成了 了行為信息的提取及保存。由於這些行為信息都已經記錄在每一條客戶網絡行為數據,從中提取出來非常容 易實現,在此不作詳細說明。而對於位置信息的提取及保存,也需要從從每個客戶的一個時間段(如一天)的 所有行為數據中提取出客戶的位置信息,並按照時間順序對其進行分段處理,詳細說明如 下。在本發明具體實施例中,該冗餘數據可以是異常位置更新行為數據、桌球切換數 據、循環走動數據等,下面對其進行說明如下。異常位置更新行為數據客戶短時間內在同一個註冊小區發生連續多次重複的位 置更新行為為異常位置更新行為,而該行為對應的數據為異常位置更新行為數據,異常位 置更新行為產生的原因可能是信號出現異常所致。桌球切換數據當客戶處於相鄰LA的邊界小區時,由於基站信號的不穩定,客戶 會在這些相鄰LA之間不斷發生切換行為,而由此產生的頻繁位置更新行為數據為桌球切 換數據。桌球切換數據屬於半異常數據,必須對其進行優化處理,以保證進一步挖掘分析的 準確性。循環走動數據當客戶從一個小區出發,在一定時間內短暫停留其他小區後又回到初始小區,這樣的位置變化為循環走動。根據業務需求,循環走動對於客戶的流動性分析 存在一定的幹擾,需要對其進行優化處理。下面分別針對上述3種數據的處理進行詳細說明。從圖論的角度分析,某個時段內的小區位置變化情況可以用有向序列圖G來表 示,異常位置更新行為數據為一個小區集合A,該小區集合A中的每一個元素(小區)均存 在從自身到自身的有向序列邊,也就是具有自反性。為了從第一有向序列圖中排除異常位置更新行為數據,則對於這種客戶短時間 內在同一個註冊小區發生連續多次重複的位置更新行為,在本發明的具體實施例中,清除 第一有向序列圖中所有從自身到自身的有向序列邊,剩餘的有向序列邊組成第二有向序列 圖。從圖論的角度分析,某個時段內的位置變化情況可以用有向序列圖G來表示。如 果兩個小區Ci, Cj之間的地理位置距離小於它們所屬基站的覆蓋半徑之和,則認為Ci, Cj之 間可能存在桌球切換。當然,判斷兩個小區是否存在桌球切換的可能也可以採用其他的判 斷方式,在此不一一列舉。在本發明具體實施例中,根據所述第一有向序列圖中獲取所有的目標集,所述目 標集中任意兩個相鄰的點之間都可能存在桌球切換;對於每一個目標集,計算其中的每個頂點的總度數,並在其中任意一個頂點的總 度數大於預設閾值時,保留所述目標集中總度數最大的點,並將連接到目標集的邊都連接 到總度數最大的點上,所有從目標集出去的邊都改為從總度數最大的點出去。下面進行詳細說明。對於一個位置變化序列,如果其中任意兩個相鄰的點之間都可能存在桌球切換, 那麼記這個位置變化序列為目標集P。設G中可能存在桌球切換的點的集合為F,桌球切換數據就是指集合F中的目標集 集合 Set = (P1 P1 .. .,PqI ο設定一個閾值valve,對於每一個目標集Pi,分別計算每個頂點的總度數, 記為 D(Pi) = {d(Cl),d(c2), ···,d(Cj)}(Ck e Ci, (Kci)為 Ci 的出入度之和),如果 3k(d(ck)> να/ve測稱目標集Pi滿足桌球切換的條件。對桌球切換數據的處理方式如下令d(Ct) =MAXid(C1), d(c2), ...,d(Cj)}(即選擇總度數最大的點),則目標集 Pi中只保留點ct,其餘的點和邊都刪除。最後更新G中的有向序列邊,Mkab Oi = (cb e Ci),即將所有連接到目標集Pi的邊都連接到Ct上,所有從目標集Pi出去的邊都改為 從4出去。對上述的處理過程說明如下。例如,設F = {a,b,c},客戶在該時段的位置變化情況為abcbabd,閾值valve = 4。 則有向序列圖G如圖4所示,其中d(a) =3,d(b) = 5,d(c) =2,d(b) >valve且d(b)= MAX。則經過目標集刪除和邊更新後的圖如圖5所示。
〈循環走動數據〉從圖論的角度分析,某個時段內的位置變化情況可以用有向序列圖G來表示。對 於一個位置變化序列,如果起始小區與終點小區相同,那麼記這個序列為有向迴路Tit5循環 走動數據就是指G中的有向迴路集合kt = {T」!^,...}。對循環走動數據的處理方法如下根據所述第一有向序列圖中獲取由有向迴路組成的第一集合;從所述第一集合中刪除部分有向迴路,得到第二集合,被刪除的有向迴路的點集 為其他有向迴路的真子集,或者被刪除的有向迴路的點集與其他有向迴路的點集的交集不 是空集,且被刪除的有向迴路包括的點的數量較小,或者被刪除的有向迴路的點集與其他 有向迴路的點集的交集不是空集,且被刪除的有向迴路較晚出現;從第一有向序列圖中刪除第二集合中的有向迴路所對應的邊,並刪除孤立點,得 到所述第二有向序列圖。具體說明如下。Set = Set -T1 ( 3J(T, czT^v BjXTi ^Tj ^ φ a IeniTi) < IeniTj)))。如果 Ti 中的點集是L中的點集的子集,則認為K e Tj ;如果Ti中的點集與&中的點集存在交集,並且Ti的點 數量(即 Ien (Ti))小於 Tj 的點數量(即 Ien (Tj)),則認為 Ti Π Tj ^ Φ "len (Ti) < Ien (Tj)。 如果Ti與Tj的點集相等,則只保留最早出現的那個有向迴路。處理後集合中剩下的就是兩兩不相交的最大長度有向迴路。對於有向迴路集合中 的所有Li,在G中刪除Li所包含的所有邊,同時刪除孤立點。例如,假設客戶在該時段的位置變化情況為abcdaed,則有向序列圖G如圖6所示, 在G中刪除Li所包含的所有邊,同時刪除孤立點後如圖7所示。在本發明的具體實施例中,從小區簡訊系統接口採集到的原始客戶網絡行為數據 原始表中表明時間的欄位形式為「年-月-日時分秒」,而數據集市中的行為信息事 實表和位置信息事實表的表名已經包含了年月日的信息,另外,根據業務需求,在進行挖掘 分析時時間精度要求精確到半個小時就可以了,因此本方案按半個小時為一個時段,將一 天劃分為48個時段,並將具體時間映射到對應的時段,客戶行為的時間信息就是這樣保存 在事實表中的。原始客戶網絡行為數據原始表中用於表明小區編號的欄位為小區的CGI,CGI表 示格式為「460-00-X X X X-X X X X X 」,其中「 X 」表示具體的數字,這種表示格式需要 存儲空間大,且存在冗餘,不僅不利於進行數據分析,也增加了結果數據的存儲成本,因此 需要對其進行轉換。本發明具體實施例建立一個對照表,將字符串形式的CGI轉換為整數 形式的cell_id保存到事實表中,cell_id與CGI —一對應。記錄數壓縮比表示行為信息事實表和位置信息事實表的記錄總數相對於原始表 記錄總數所減少的比例。而容量壓縮比則表示行為信息事實表和位置信息事實表的記錄所 佔總容量相對於原始表記錄所佔容量所減少的比例。記錄數壓縮比Np為Np=I-AiJiη其中,An為行為信息事實表的記錄總數,Ln為位置信息事實表的記錄總數;0η為原始表的記錄總數。
容量壓縮比Cp為
權利要求
1.一種客戶網絡行為數據重構方法,其特徵在於,包括將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數據; 從客戶的主動行為數據中提取客戶的行為信息並保存到行為信息事實表中; 從客戶的主動行為數據和被動行為數據中提取客戶的位置信息,並利用所述位置信息 得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以第一小區為起點,以第二小 區為終點的邊表示用戶從第一小區移動到第二小區;基於圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘數據 對應的冗餘的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。
2.根據權利要求1所述的客戶網絡行為數據重構方法,其特徵在於,所述客戶網絡行 為數據為從小區簡訊系統接口採集到的原始客戶網絡行為數據;或 對所述原始客戶網絡行為數據進行數據清洗得到的數據。
3.根據權利要求1或2所述的客戶網絡行為數據重構方法,其特徵在於,所述冗餘數據 為異常位置更新行為數據、桌球切換數據或循環走動數據。
4.根據權利要求3所述的客戶網絡行為數據重構方法,其特徵在於,基於圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/ 或點,得到第二有向序列圖具體為清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列圖。
5.根據權利要求3所述的客戶網絡行為數據重構方法,其特徵在於,基於圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/ 或點,得到第二有向序列圖具體為根據所述第一有向序列圖中獲取所有的目標集,所述目標集中任意兩個相鄰的點之間 都可能存在桌球切換;對於每一個目標集,計算其中的每個點的總度數;在目標集中的任意一個點的總度數大於預設閾值時,保留目標集中總度數最大的點, 並將所述第一有向序列圖中連接到目標集的邊都連接到總度數最大的點上,所有從目標集 出去的邊都改為從總度數最大的點出去,得到所述第二有向序列圖。
6.根據權利要求3所述的客戶網絡行為數據重構方法,其特徵在於,基於圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/ 或點,得到第二有向序列圖具體為根據所述第一有向序列圖中獲取由有向迴路組成的第一集合; 從所述第一集合中刪除部分有向迴路,得到第二集合,被刪除的有向迴路的點集為其 他有向迴路的真子集,或者被刪除的有向迴路的點集與其他有向迴路的點集的交集不是空 集,且被刪除的有向迴路包括的點的數量較小,或者被刪除的有向迴路的點集與其他有向 迴路的點集的交集不是空集,且被刪除的有向迴路較晚出現;從第一有向序列圖中刪除第二集合中的有向迴路所對應的邊,並刪除孤立點,得到所 述第二有向序列圖。
7.根據權利要求1或2所述的客戶網絡行為數據重構方法,其特徵在於,行為信息事實表和客戶位置信息事實表利用時段記錄時間信息。
8.一種客戶網絡行為數據重構裝置,其特徵在於,包括劃分模塊,用於將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數據; 行為信息提取及保存模塊,用於從客戶的主動行為數據中提取客戶的行為信息並保存 到行為信息事實表中;第一圖構建模塊,用於從客戶的主動行為數據和被動行為數據中提取客戶的位置信 息,並利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以第 一小區為起點,以第二小區為終點的邊表示用戶從第一小區移動到第二小區;第二圖構建模塊,用於基於圖論對所述第一有向序列圖進行分析處理,刪除所述第一 有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事 實表。
9.根據權利要求8所述的客戶網絡行為數據重構裝置,其特徵在於,所述客戶網絡行 為數據為從小區簡訊系統接口採集到的原始客戶網絡行為數據;或 對所述原始客戶網絡行為數據進行數據清洗得到的數據。
10.根據權利要求8或9所述的客戶網絡行為數據重構裝置,其特徵在於,所述冗餘數 據為異常位置更新行為數據、桌球切換數據或循環走動數據。
11.根據權利要求10所述的客戶網絡行為數據重構裝置,其特徵在於,第二圖構建模 塊具體包括用於清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列 圖的單元。
12.根據權利要求10所述的客戶網絡行為數據重構裝置,其特徵在於,第二圖構建模 塊具體包括用於根據所述第一有向序列圖中獲取所有的目標集的單元,所述目標集中任意兩個相 鄰的點之間都可能存在桌球切換;用於對每一個目標集,計算其中的每個點的總度數的單元;用於在目標集中的任意一個點的總度數大於預設閾值時,保留所述目標集中總度數最 大的點,並將所述第一有向序列圖中連接到目標集的邊都連接到總度數最大的點上,所有 從目標集出去的邊都改為從總度數最大的點出去,得到所述第二有向序列圖的單元。
13.根據權利要求10所述的客戶網絡行為數據重構裝置,其特徵在於,第二圖構建模 塊具體包括用於根據所述第一有向序列圖中獲取由有向迴路組成的第一集合的單元; 用於從所述第一集合中刪除部分有向迴路,得到第二集合的單元,被刪除的有向迴路 的點集為其他有向迴路的真子集,或者被刪除的有向迴路的點集與其他有向迴路的點集的 交集不是空集,且被刪除的有向迴路包括的點的數量較小,或者被刪除的有向迴路的點集 與其他有向迴路的點集的交集不是空集,且被刪除的有向迴路較晚出現;用於從第一有向序列圖中刪除第二集合中的有向迴路所對應的邊,並刪除孤立點,得 到所述第二有向序列圖的單元。
14.根據權利要求8或9所述的客戶網絡行為數據重構裝置,其特徵在於,行為信息事 實表和客戶位置信息事實表利用時段記錄時間信息。
全文摘要
本發明提供一種客戶網絡行為數據重構方法及裝置,該方法包括將客戶網絡行為數據分為客戶主動行為數據和客戶被動行為數據;從客戶的主動行為數據中提取客戶的行為信息並保存到行為信息事實表中;從客戶的主動行為數據和被動行為數據中提取客戶的位置信息,並利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區,以第一小區為起點,以第二小區為終點的邊表示用戶從第一小區移動到第二小區;基於圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗餘數據對應的冗餘的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。本發明壓縮了數據的存儲空間,提高了數據的質量。
文檔編號G06F17/30GK102056189SQ20091023589
公開日2011年5月11日 申請日期2009年10月28日 優先權日2009年10月28日
發明者何瑩, 周旋新, 彭宏, 林古立, 王永雄, 肖萍, 馬千裡 申請人:中國移動通信集團廣東有限公司, 華南理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀