新四季網

在社交網絡中基於泊松過程模型的事件流行度預測方法

2023-06-04 12:56:41

在社交網絡中基於泊松過程模型的事件流行度預測方法
【專利摘要】本發明提供了一種在社交網絡中基於泊松過程模型的事件流行度預測方法,步驟:第一步,選取樣本事件,並獲取樣本事件的微博傳播鏈;第二步,用戶影響力計算並篩選影響力大的作為關鍵用戶,而將剩下的用戶標記為非關鍵用戶;第三步,將關鍵用戶帶來的轉發微博過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發微博過程簡單處理;第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數;第五步,給定一個已知一定時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。本發明能在微博事件發生的初期給出比較好的流行度預測,將為合理引導事件的發展提供非常有效的幫助。
【專利說明】在社交網絡中基於泊松過程模型的事件流行度預測方法

【技術領域】
[0001]本發明涉及網際網路【技術領域】內社交網絡中的事件流行度預測方法,具體地說,涉及的是一種在社交網絡中基於泊松過程模型的事件流行度預測方法。

【背景技術】
[0002]在Web2.0時代,社交網絡發展如火如荼,逐漸成為網民日常生活中的重要部分。微博作為一種通過關注機制分享簡簡訊息的廣播式的新型社交網絡平臺,它具有操作簡單、互動性強等特點。到2012年年底,新浪微博註冊用戶數已經超過了 4億,微博作為一種新興媒體,它在傳播信息、形成熱點話題和熱點事件中起到了越來越重要的作用。微博正成為社會輿論熱點的主要策源地,全面參與並影響著現實世界。
[0003]微博在熱點事件的發生到推重整個過程中起到非常關鍵的作用,如果能在事件發生的初期就對其未來的流行度有較準確的預測,將能夠給相關部門或企業爭取時間,對事件發展進行合理引導和及時採取相應的對策。因此為了避免熱點事件由於處理不當或者處理不及時可能帶來的經濟損失和不良社會後果,對事件的流行度進行預測非常必要,具有重大社會意義。
[0004]經檢索,目前沒有與事件流行度的預測相關的公開專利。


【發明內容】

[0005]本發明要解決的問題是提供一種在社交網絡中對事件的流行度進行預測的方法,並基於此,對事件的流行度進行預測,從而可以早的對事件的發展態勢了解,給相關部門或企業爭取儘可能多的時間制定對策。
[0006]本發明一個目的是提供一種社交網絡中事件流行度的預測方法,具體包括:
[0007]第一步,選取樣本事件,並獲取樣本事件的微博傳播鏈;
[0008]第二步,用戶影響力計算,並篩選影響力大的作為關鍵用戶,並將剩下的用戶標記為非關鍵用戶;
[0009]第三步,將關鍵用戶帶來的轉發微博過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發微博過程簡單處理;
[0010]第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數;
[0011]第五步,給定一個已知一定時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。
[0012]所述第一步中,選取樣本事件是指:對發生在某一個社交網絡平臺中的熱點事件進行選擇,這裡的熱點事件是指被該社交網絡平臺或其他熱門排行榜列為熱點話題;這裡的事件通過事件內容的一組關鍵詞來描述,本身是一組內容相近的用戶產生內容(UGC)的集合;選取的事件需要反映這個社交網絡平臺在一定時間段內的所有熱點事件信息。
[0013]優選地,所述選取樣本事件是按照下面的步驟選取的:
[0014](I)周期性的分別從各大熱門話題榜各獲取前10個熱門事件的標題;
[0015](2)用新聞搜尋引擎搜索熱門事件的標題,獲取有關事件更多的文本信息和關鍵詞;
[0016](3)在社交網絡的搜索頁面中搜索每個事件的關鍵詞,解析出和該事件有關的原創熱門UGC ;
[0017](4)使用社交網絡開放平臺提供的API來獲取每個事件中的原創UGC的轉發鏈,包括每條UGC的創建時間、文本、作者信息;
[0018](5)檢測有規律的發布UGC,發布UGC時間間隔短,重複多次轉發同一個社交網絡用戶的水軍帳戶,刪除它們發出的所有UGC。
[0019]優選地,所述第一步中,獲取樣本事件的傳播鏈中的傳播鏈是指參與事件傳播的社交網絡用戶的用戶產生內容(UGC)之間具有轉發關係,這些UGC轉發關係構成有向的具有時間性的傳播關係鏈叫UGC傳播鏈;獲取傳播鏈是指通過社交網絡平臺提供的API獲取參與事件傳播的用戶人數大於閾值T2的UGC傳播鏈,T2是任意正整數,T2為O表示獲取事件相關的所有傳播鏈,參與人數少的UGC傳播鏈將被捨去。
[0020]優選地,所述第二步中,用戶的影響力是指該用戶在事件傳播過程中吸引其他用戶參與事件傳播的能力,用戶影響力跟他的粉絲數、粉絲質量、用戶之間的交互、發布用戶產生內容(UGC)的轉發數,甚至和參與事件的主題有關。所述用戶的影響力採用基於PageRank的方法計算;或者用戶Ui的影響力Si採用以下方法獲得:
[0021](I)計算每個用戶在樣本事件數據中的發出的UGC數iVf);
[0022](2)計算每個用戶在樣本事件數據中由其一級轉發用戶產生的UGC轉發數iV/1);
[0023](3)用i/f來代表這樣一個用戶集合,在這個集合中的每個用戶Uj發出的UGC的轉發數之和都為n = iv/1),並且+至少轉發了 Ui 一次,那麼用戶Ui的影響力用下面的式子計算:

【權利要求】
1.一種在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於包括如下步驟: 第一步,選取樣本事件,並獲取樣本事件的傳播鏈; 第二步,用戶影響力計算,並篩選影響力大的用戶作為關鍵用戶,並將剩下的用戶標記為非關鍵用戶; 第三步,將關鍵用戶帶來的轉發傳播過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發傳播過程,僅僅使用樣本數據獲得一個經驗比例值; 第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數,以確定第三步中的模型; 第五步,給定一個已知時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。
2.根據權利要求1所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:上述第一步中,選取樣本事件是指:對發生在某一個社交網絡平臺中的熱點事件進行選擇,這裡的熱點事件是指被該社交網絡平臺或其他熱門排行榜列為熱點話題;這裡的事件通過事件內容的一組關鍵詞來描述,本身是一組內容相近的用戶產生內容(UGC)的集合;選取的事件需要反映這個社交網絡平臺在一定時間段內的所有熱點事件信息。
3.根據權利要求2所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述選取樣本事件是按照下面的步驟選取的: (1)周期性的分別從各大熱門話題榜各獲取前10個熱門事件的標題; (2)用新聞搜尋引擎搜索熱門事件的標題,獲取有關事件更多的文本信息和關鍵詞; (3)在社交網絡的搜索頁面中搜索每個事件的關鍵詞,解析出和該事件有關的原創熱門 UGC ; (4)使用社交網絡開放平臺提供的API來獲取每個事件中的原創UGC的轉發鏈,包括每條UGC的創建時間、文本、作者信息; (5)檢測有規律的發布UGC,發布UGC時間間隔短,重複多次轉發同一個社交網絡用戶的水軍帳戶,刪除它們發出的所有UGC。
4.根據權利要求1-3任一項所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述第一步中,獲取樣本事件的傳播鏈中的傳播鏈是指參與事件傳播的社交網絡用戶的用戶產生內容(UGC)之間具有轉發關係,這些UGC轉發關係構成有向的具有時間性的傳播關係鏈叫UGC傳播鏈;獲取傳播鏈是指通過社交網絡平臺提供的API獲取參與事件傳播的用戶人數大於閾值T2的UGC傳播鏈,T2是任意正整數,T2為O表示獲取事件相關的所有傳播鏈,參與人數少的UGC傳播鏈將被捨去。
5.根據權利要求1所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述第二步中,用戶的影響力是指該用戶在事件傳播過程中吸引其他用戶參與事件傳播的能力,用戶影響力跟他的粉絲數、粉絲質量、用戶之間的交互、發布用戶產生內容(UGC)的轉發數,甚至和參與事件的主題有關。
6.根據權利要求5所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述用戶的影響力採用基於PageRank的方法計算;或者用戶Ui的影響力Si採用以下方法獲得: (1)計算每個用戶在樣本事件數據中的發出的UGC數Np); (2)計算每個用戶在樣本事件數據中由其一級轉發用戶產生的UGC轉發數W/1); (3)用未代表這樣一個用戶集合,在這個集合中的每個用戶+發出的UGC的轉發數之和都為η = N}1)』並且+至少轉發了 Ui —次,那麼用戶Ui的影響力用下面的式子計算:
Si = ^nlUJ1I +JV ⑴
η 其中|υ|代表用戶集合U中的用戶數。
7.根據權利要求6所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述關鍵用戶的篩選過程如下: (1)將用戶Mw< Tc的影響力設置為O,因為他們參與的事件太少; (2)根據影響力排序所有的用戶,選取前K個作為選擇的關鍵用戶Us,而剩下的則作為非關鍵用戶; 閾值Τ。和參數K用來控制關鍵用戶的數目以及參與事件的數目,在某一種社交網絡平臺中Τ。= 3是一個經驗值,K的經驗值在14級別。
8.根據權利要求1所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:所述第三步的模型及其涉及參數如下: (1)對關鍵用戶的建模:將每個參與事件的關鍵用戶的一級轉發過程建模為一個泊松過程,泊松過程的參數只有到達率λ,它代表了單位時間內的用戶的一級轉發的增加數量,與下面的因素有關: a)用戶自身可以帶來的轉發數,用用戶的活躍粉絲數a^N(Ui)來衡量,其中FN(Ui)是用戶Ui的粉絲數,a i彡I ; b)事件的吸引力,用其轉發數的平均增長率§|:來衡量,其中q(t)表示事件!^在七時的轉發數,tj為事件的起點時刻; c)用戶作息的自然規律,用一天內用戶產生內容(UGC)的創建時間分布P(t)來衡量; d)UGC的可見度,它是指UGC在用戶主頁上從上到下用戶看到的概率依次降低,它用衰減因子O - 來衡量,其中表示用戶Ui在事件中的參與時間; 最後λ用下面的式子計算: A(u,., m;, t) = a.1.FN(Ui)— ty)

t — tj 根據泊松過程的計算,得到某個關鍵用戶帶來的轉發數隨著時間的概率分布; (2)對於非關鍵用戶的建模:只在樣本數據中統計得到一個經驗比例r,它隨著三個變量的變化而變化: a)已知信息的結束時刻tn; b)未來時間段的開始時刻tp; c)未來時間段的長度I;
根據這個經驗比例,給定已知一個事件和其一定時間段的信息,計算得出未來某時間段內由非關鍵用戶帶來的轉發數。
9.根據權利要求8所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:第四步中學習和估計第三步模型中涉及到的關鍵用戶的參數λ、非關鍵用戶的參數r以及一天內UGC創建時間的分布P (k)的方法; 事件的傳播鏈是由轉發關係組成的,即轉發關係Ui — Uj代表用戶+轉發了 Ui的一條UGC,這種轉發關係有下面四種情況: (1)用戶Ui和U」都是關鍵用戶; (2)用戶Ui是關鍵用戶,用戶不是關鍵用戶; (3)用戶Ui不是關鍵用戶,用戶是關鍵用戶; (4)用戶Ui和Uj都不是關鍵用戶; 其中(1)和(2)都構成關鍵用戶帶來的轉發數,也即轉發關鍵用戶的UGC而產生的轉發數;而(3)和(4)則構成非關鍵用戶帶來的轉發數,即轉發非關鍵用戶的UGC而產生的轉發數;將樣本數據按照這個原則分為由關鍵用戶帶來的轉發和由非關鍵用戶帶來的轉發兩個部分,分別用於關鍵用戶λ和非關鍵用戶比例r的估計; 對於關鍵用戶λ的估計,只採用關鍵用戶帶來的轉發數據並採用最大似然估計的方法進行估計和學習,通過極大化下面的似然函數來得到的估計值:
其中%[k]為事件mj在第k個時間段內的由關鍵用戶帶來的轉發數增量; 對於非關鍵用戶r的估計,使用非關鍵用戶帶來的轉發數據,按照權利要求8 (2)中的方法來進行統計計算; 對於一天內UGC創建時間的分布P(k)的估計,使用所有的樣本事件數據;在樣本事件數據中統計以δ時間間隔來統計一天內UGC創建的數量並歸一化成為P(k)。
10.根據權利要求1所述的在社交網絡中基於泊松過程模型的事件流行度預測方法,其特徵在於:第五步中給定一個新的事件以及它的一定時間長度的傳播鏈信息,預測其未來某時間段內的流行度的模型,這裡的流行度指以轉發數為主要衡量標準的流行度; 把整個事件轉發數的增長過程等間隔δ的分為許多時間段,每個時間段內認為所有用戶的λ是保持不變的,將事件的起點時刻記為O;假設前Tn個時間段的事件的信息是完全已知的,這包括與事件相關的所有UGC的作者和作者的信息、創建時間、文本信息,如果是轉發的UGC還包括轉發信息;預測第ΤΡ(ΤΡ > Tn)個時間段內的事件轉發數的增長量,這個增長量包括由關鍵用戶帶來的轉發數和非關鍵用戶帶來的轉發數兩個部分: (I)計算關鍵用戶帶來的轉發數:計算每個關鍵用戶在第Tp個時間段內的轉發數隨著時間的概率分布λ,其中事件的吸引力,使用所有已知時間段長度的UGC的吸引力即^^;其他的因素使用相應時刻的值,根據泊松過程的可加性,將每個關鍵用戶的λ加起來即得到由關鍵用戶帶來的轉發數在Tp時間段內的大泊松過程的參數λ,即
(2)計算非關鍵用戶帶來的轉發數:根據非關鍵用戶帶來的轉發數比例r,只用計算已知Tn個時間段中參與的非關鍵用戶的個數JVe'即可得到第Tp個時間段內的轉發數增量,即
【文檔編號】G06F17/30GK104182457SQ201410334425
【公開日】2014年12月3日 申請日期:2014年7月14日 優先權日:2014年7月14日
【發明者】陳凱, 周異, 何建華, 周曲, 楊蒙蒙 申請人:上海交通大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀