一種基於時空交互的用戶社交關係強度計算方法及系統與流程
2023-07-20 01:17:51 2

本發明涉及用戶社交關係挖掘領域,尤其是一種基於時空交互的用戶社交關係強度計算方法及系統。
背景技術:
手機、平板電腦等可攜式行動裝置的迅速普及極大地推動了各種社交平臺的廣泛應用。集成了gps、無線網絡、衛星定位等定位功能的智能設備為用戶在社交平臺上的位置標記、位置籤到和位置共享提供了極大的便利。隨著社交平臺與位置技術的緊密結合,促進了基於位置的社交網絡(location-basedsocialnetworks,lbsns)的形成和發展。社交平臺通過用戶的位置標記、位置籤到、位置分享等功能,將線上的虛擬社會與線下的物理世界關聯在一起,不僅能夠體現用戶活動的時空信息,還能夠實現基於位置的社交活動在虛擬網絡世界中的共享和傳播。這種基於位置的社交網絡所具備的社交化(social)、本地化(local)和移動性(mobile)等基本特徵可以表示為solomo,正逐漸吸引人們的關注,成為未來網際網路的發展趨勢。
在solomo中,social指的是用戶之間在線上虛擬的網絡世界中廣泛存在的社交關係,包括用戶之間的相互關注、用戶之間的朋友關係或同事關係等;local指的是線下真實世界中用戶的位置或活動信息,包括籤到、消費、旅遊等;mobile指的是用戶在真實的現實空間中的移動。除了位置標記、位置籤到、位置共享等直接的時空信息獲取功能外,它還允許用戶通過社交平臺分享帶有時空標記的觀點、圖片以及活動軌跡等信息。例如:用戶可以通過微信向好友發送位置信息,可以在twitter和新浪微博等社交平臺上發布帶有時空標籤的內容,可以在flickr上發布帶有位置信息的照片,還可以在foursquare或gowalla上進行籤到等。
在位置社交網絡中,用戶之間的交互主要體現在用戶的活動在時間和空間維度上的重疊。用戶社交關係的發現和計算旨在利用用戶的活動發現用戶之間的社交關係並對其進行量化計算,但現階段的用戶社交關係發現和計算存在很多不足和困難,如:
(1)在對用戶之間的社交關係進行定性分析時,不僅需要考慮用戶社交網絡之間的固有連接,還需要綜合考慮用戶之間交互的屬性特徵,例如交互時間點、交互時長、交互位置特徵等。
(2)在對用戶之間的社交關係進行定量分析時,需要抽取用戶的時空交互特徵,如交互頻度、用戶行為特徵等,對其進行量化計算,並以此為基礎對用戶之間的社交關係進行定量分析。
(3)用戶之間的社交關係發現與強度計算需要從基於位置的社交網絡數據中儘可能多地發現和抽取用戶的宏觀活動和語義信息。由於通過定位系統和社交網絡獲得的位置數據信息量大,且冗餘以及不確定,單純地採用傳統數據挖掘方法是無法對用戶之間的社交關係強度進行精確量化計算的,因此,需要穩定、可伸縮性的挖掘方法進行處理;同時,基於位置的社交網絡數據具有稀疏性,這會減弱用戶之間的社交關係,從而降低用戶之間社交關係量化計算的準確性。此外,如果算法設計不合理,隨著用戶數量的增加,位置數據量的增大,模型的計算代價可能呈指數級增長,這將嚴重影響模型的實際應用價值。基於位置的社交網絡數據是由一個個的地理坐標點構成的,設備誤差和用戶誤差導致這些數據較為離散。因此,上述問題的解決將會為用戶社交關係強度的精準計算帶來非常大的幫助。
技術實現要素:
本發明所要解決的技術問題在於克服現有技術缺陷,提供一種基於時空交互的用戶社交關係強度計算方法及系統,在深入分析位置社交網絡的時空交互特性的基礎上,充分考慮了用戶的行為特徵和時空交互信息,能夠更加全面和準確地度量用戶之間的社交關係強度。
一種基於時空交互的用戶社交關係強度計算方法,主要包括以下3大階段:
(1)地理位置映射,該階段包括以下4個步驟:
step1:將地球表面劃分為若干個大小相等的正方形格子,初始化的網格要滿足以下2個條件:①能覆蓋地球表面,②網格數最少;
step2:用戶根據數據分析結果,設定網格內的樣本密度閾值和網格最小邊界閾值;
step3:根據網格內的樣本密度閾值和網格最小邊界閾值對網格進行迭代劃分,直到滿足結束條件;
step4:將用戶籤到數據匹配到網格中,並將其映射為時空序列;
(2)時空交互情境模型構建及情境權重計算,該階段包括以下3個步驟:
step1:提取不同時間段中用戶的籤到頻率、籤到位置等信息,構建時間情境模型並計算時間情境的權重;
step2:提取不同位置點處用戶的籤到頻率、籤到時間和用戶數量等信息,構建環境情境模型並計算環境情境的權重;
step3:提取不同用戶在不同時間段、不同位置點處的籤到頻率等信息,構建用戶情境模型並計算用戶情境的權重;
(3)用戶社交關係強度計算,該階段包括以下3個步驟:
step1:將時空交互序列轉換為訪問向量;
step2:從訪問向量中提取出用戶之間的相遇向量;
step3:匹配用戶進行時空交互時的時空交互情境特徵並獲得其權重,按照權重優先的策略,計算用戶之間的社交關係強度。
本發明還提供一種基於時空交互的用戶社交關係強度計算系統,主要包括以下3大模塊:
數據預處理模塊,該模塊包括以下4個步驟:
step1:對用戶籤到數據集和朋友關係數據集進行降噪和清洗,過濾掉用戶籤到數據集和朋友關係數據集中的異常數據;
step2:根據用戶提出的條件,對用戶籤到數據集進行篩選處理,從中篩選出滿足用戶需求的用戶籤到數據子集和朋友關係數據子集;
step3:根據用戶設置的相關參數,對用戶籤到數據子集中的籤到數據進行地理位置映射處理,從而得到用戶時空交互序列;
step4:根據用戶朋友關係數據子集中的用戶朋友關係,計算用戶之間的初始社交關係強度;
用戶社交關係強度計算模塊,該模塊包括以下4個步驟:
step1:將用戶時空交互序列轉化為用戶訪問向量;
step2:根據本發明提出的時空交互情境模型,分別計算時間情境、環境情境和用戶情境的權重;
step3:根據本發明提出的時空交互條件(如交互時間點、交互時長、交互時間差等)和時空交互情境模型,將用戶訪問向量轉化為用戶相遇向量;
step4:綜合分析相遇向量,結合時間情境權重、環境情境權重和用戶情境權重,計算用戶之間的社交關係強度;
可視化數據分析展示模塊,該模塊包括以下2個步驟:
step1:用戶和系統進行交互,用戶通過輸入不同的參數,對系統的展示結果進行調整;
step2:以用戶籤到數據集和朋友關係數據集的分析結果為基礎,將虛擬的數據轉化為可視化的數據並展示給用戶,如:網格數量與用戶社交關係查全率的對比圖、網格數量與用戶社交關係查準率的對比圖、用戶社交關係查全率與用戶社交關係查準率的對比圖以及網格數量對用戶社交關係強度影響的對比圖。
本發明的有益效果在於:
(1)該方法充分考慮了用戶的時空交互特徵和用戶的行為習慣;
(2)該方法能夠有效地計算用戶之間的社交關係強度;
(3)該方法能夠更為詳細地計算用戶之間的社交關係強度;
(4)該方法能夠為用戶社交關係發現、用戶朋友推薦等應用提供精確、全面的數據支持。
附圖說明
圖1為本發明基於時空交互的用戶社交關係強度計算方法的算法流程圖;
圖2為本發明基於時空交互的用戶社交關係強度計算方法的算法總體框架圖;
圖3為本發明基於時空交互的用戶社交關係強度計算方法的算法模型圖;
圖4為本發明基於時空交互的用戶社交關係強度計算系統的系統框架圖;
圖5為本發明基於時空交互的用戶社交關係強度計算方法中地理位置匹配的示意圖;
圖6為本發明基於時空交互的用戶社交關係強度計算方法中用戶時空交互的時間情境模型;
圖7為本發明基於時空交互的用戶社交關係強度計算方法中用戶時空交互的環境情境模型;
圖8為本發明基於時空交互的用戶社交關係強度計算方法中用戶時空交互的用戶情境模型;
圖9為本發明基於時空交互的用戶社交關係強度計算方法的網格數量與用戶社交關係查全率的對比圖;
圖10為本發明基於時空交互的用戶社交關係強度計算方法的網格數量與用戶社交關係查準率的對比圖;
圖11為本發明基於時空交互的用戶社交關係強度計算方法的用戶社交關係查全率與用戶社交關係查準率的對比圖;
圖12為本發明基於時空交互的用戶社交關係強度計算方法的網格數量對用戶社交關係強度影響的對比圖。
具體實施方式
本發明公開了一種基於時空交互的用戶社交關係強度計算方法及系統,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清晰地描述。以下實施例有助於本領域的技術人員更好地理解本發明,但不以任何形式限制本發明。需要註明的是,基於本發明中的實施例,本領域中的普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其它實施例,都屬於本發明保護的範圍。
如圖1-圖3所示,本發明提供的基於時空交互的用戶社交關係強度計算方法,其特徵在於,包括如下步驟:
(1)地理位置映射,將地球表面劃分為若干個網格,並將用戶籤到數據轉換為時空序列(如圖5所示);
step1:初始化網格,將地球表面劃分為若干個大小相等的正方形格子,初始化的網格通常要滿足以下2個條件:①能覆蓋地球表面,②網格數最少;
step2:用戶根據數據分析結果,設定網格內的樣本密度閾值d和網格最小邊界閾值b;
step3:統計網格內的實際樣本密度ρ,比較網格內的實際樣本密度是否大於給定的樣本密度閾值,若大於,則執行step4,否則,執行step6;
step4:統計網格的邊界λ,比較網格邊界是否大於給定的邊界閾值,若大於,則執行step5,否則,執行step6;
step5:將網格進行四等分,重複執行step3;
step6:將用戶籤到數據c匹配到網格中,並將其映射為時空序列l。
(2)時空交互情境模型構建及情境權重計算,分別搭建時間情境模型、環境情境模型和用戶情境模型,並計算其權重;
step7:提取不同時間段中用戶的籤到頻率、籤到位置等信息,構建時間情境模型(如圖6所示)並計算時間情境的權重wt;
step8:提取不同位置點處用戶的籤到頻率、籤到時間和用戶數量等信息,構建環境情境模型(如圖7所示)並計算環境情境的權重we,計算公式如下所示:
其中,|cg|為位置點g處全部用戶籤到次數的總和,|cu,g|為每個位置點g處用戶u的籤到次數總和,|cu|每個位置點g處籤到用戶的數量總和,|u|為用戶的總數量,α為可調節的參數;
step9:提取不同用戶在不同時間段、不同位置點處的籤到頻率等信息,構建用戶情境模型(如圖8所示,t1,t2,……,t14分別代表不同的時間點)並計算用戶情境的權重wu;
其中,|cu,g|為每個位置點g處用戶u的籤到次數總和,|g|為位置點的總數量。
(3)用戶社交關係強度計算,提取用戶之間的相遇向量,按照權重優先的策略,計算用戶之間的社交關係強度;
step10:將時空交互序列l轉換為訪問向量vv;
step11:從訪問向量vv中提取出用戶之間的相遇向量cv;
step12:匹配用戶進行時空交互時的時空交互情境特徵並獲得其權重,按照權重優先的策略,計算用戶之間的社交關係強度s,計算公式如下所示:
其中,s為用戶之間的社交關係強度,wt為時間情境下用戶之間的時空交互權重,we為環境情境下用戶之間的時空交互權重,wu為用戶情境下用戶之間的時空交互權重。
如圖4所示,本發明還公開了一種基於時空交互的用戶社交關係強度計算系統,該系統可以實現本發明所述的基於時空交互的用戶社交關係強度計算方法,但該基於時空交互的用戶社交關係強度計算方法的實現裝置包括但不限於所述的基於時空交互的用戶社交關係強度計算系統。
本發明提供的基於時空交互的用戶社交關係強度計算系統包括:數據預處理模塊、用戶社交關係強度計算模塊和可視化數據分析模塊;
數據預處理模塊,對用戶的籤到數據集和朋友關係數據集進行降噪、清洗、篩選、地理位置映射等處理,以及計算用戶之間的初始社交關係強度;
step1:對用戶籤到數據集c和朋友關係數據集p進行降噪和清洗,過濾掉用戶籤到數據集c和朋友關係數據集p中的異常數據;
step2:根據用戶提出的條件,對用戶籤到數據集c和朋友關係數據集p進行篩選處理,從中篩選出滿足用戶需求的用戶籤到數據子集cs和朋友關係數據子集ps;
step3:根據用戶設置的相關參數,對用戶籤到數據子集cs中的籤到數據進行地理位置映射處理,從而得到用戶時空交互序列l;
step4:根據用戶朋友關係數據子集ps中的用戶朋友關係,計算用戶之間的初始社交關係強度sini。
用戶社交關係強度計算模塊,提取用戶之間的時空交互特性和行為特徵,計算用戶之間的靜態社交關係強度;
step5:將用戶時空交互序列l轉化為用戶訪問向量cv;
step6:根據本發明提出的時空交互情境模型,分別計算時間情境、環境情境和用戶情境的權重;
step7:根據本發明提出的時空交互條件(如交互時間點、交互時長、交互時間差等)和時空交互情境模型,將用戶訪問向量cv轉化為用戶相遇向量vv;
step8:綜合分析相遇向量vv,結合時間情境權重wt、環境情境權重we和用戶情境權重wu,計算用戶之間的社交關係強度s。
可視化數據分析展示模塊,用戶通過參數輸入界面修改實驗參數、調整實驗結果,利用多種方式對用戶之間的社交關係分析結果進行可視化的展示;
step9:用戶和系統進行交互,用戶通過輸入不同的參數,對系統的展示結果進行調整;
step10:以用戶籤到數據集c和朋友關係數據集p的分析結果為基礎,將虛擬的數據轉化為可視化的數據並展示給用戶;如:網格數量與用戶社交關係查全率的對比圖(如圖9所示)、網格數量與用戶社交關係查準率的對比圖(如圖10所示)、用戶社交關係查全率與用戶社交關係查準率的對比圖(如圖11所示)以及網格數量對用戶社交關係強度影響的對比圖(如圖12所示)。