新四季網

一種多特徵融合的微博用戶權威度評價方法與流程

2023-07-26 01:14:01 3


本發明涉及大數據分析技術領域,具體地說,涉及一種多特徵融合的微博用戶權威度評價方法。



背景技術:

微博(weibo),即微型博客(microblog)的簡稱,是一種基於有線或無線網際網路終端向平臺發布精短共享信息的即時信息網絡,可通過計算機、手機、掌上電腦等多種終端進行微博的瀏覽、發布和評論。微博以其獨特的開發性、實時性與互動性已然發展成為人們日常生活中不可或缺的信息傳播媒介,以極快的速度影響著社會的傳播格局。微博用戶不僅包括普通的平民用戶,還包括了許多知名人物以及一些權威機構或政府職能部門,其用戶層次跨度較大,也使其成為社會熱門話題產生的聚集地。因此,對微博傳播的特點及影響因素的研究已經成為重要的研究課題。其中,微博用戶作為信息發布和傳播的主體,微博用戶權威度是微博傳播影響因素中的一個極為重要的評判指標。

目前國內外對微博用戶權威度評價方法的研究已經開展了不少的研究工作,也取得了很多研究成果,國外對於用戶權威度評價的研究大多集中在對twitter用戶的研究,而國內則大多集中在對新浪微博用戶的研究,其目的都是為了構建一種合理的用戶權威度評價模型,為微博信息的獲取、輿情的分析、社會關係網絡的挖掘等方面的研究提供幫助。

目前用戶權威度評價的方法主要有以下幾類:第一類方法,也是最簡單的方法,就是通過用戶的粉絲數量直接衡量用戶的權威度。第二類方法,也是目前比較主流的用戶權威評價方法,就是參考搜尋引擎中常用於網頁排名的pagerank算法構建微博用戶權威評價體系,通過微博用戶關注與被關注關係網絡來計算微博用戶的權威度。第三類計算用戶權威度的方法則是考慮用戶行為信息,包括用戶發布的微博、轉發的微博、評論的微博、關注與被關注的情況以及其活躍度等方面的因素,綜合評價用戶的權威度。



技術實現要素:

本發明的目的在於提供一種多特徵融合的微博用戶權威度評價方法。該方法在新浪微博的用戶信息體系的基礎上,總結出了用戶基本信息完整度、用戶傳播影響力、用戶活躍度以及用戶平臺指數4項影響用戶權威度的特徵,並分別給出了提取與計算方法。在用戶信息傳播影響力的計算中,提出了一種基於pagerank算法改進的userrank模型,並通過實驗驗證了其相對於pagerank算法更加有效。最後,基於層次分析法確定了4項用戶特徵的權值,構建了多特徵融合的微博用戶權威度評價模型並進行了相關實驗。實驗結果表明,本發明提出的方法計算的微博用戶權威度比較合理,為用戶權威度的定量評價提供了一種可行的解決方案。該方法解決以下幾個方面的問題:

1、針對微博用戶的權威度評價,提出了一種多特徵融合的微博用戶權威度定量評價方法,充分考慮微博用戶的個人信息指標和微博用戶的行為數據指標。

2、針對微博用戶權威度評價中用戶基本信息完整度、用戶傳播影響力、用戶活躍度以及用戶平臺指數4項影響用戶權威度的特徵融合問題,提出了採用層次分析法確定各個特徵的權值的方法,解決了微博用戶權威度的定量計算問題。

3、針對用戶信息完整度評價問題,提出了採用微博用戶在註冊微博平臺帳號時,願意向公眾公開的個人基本信息標籤佔微博用戶基本信息體系標籤總數的比例的定量計算方法。

4、針對用戶信息傳播影響力的計算,提出了一種基於pagerank算法改進的userrank模型,考慮了用戶轉發微博與評論微博對用戶信息傳播影響力計算的影響。

5、針對用戶獲取度計算問題,提出了採用為微博用戶在一定時間內發布微博數目與評論其它微博用戶微博的數目的線性加權求和對時間的均值的定量計算方法。

6、針對用戶平臺指數計算問題,提出了採用層次分析法,綜合考慮用戶是否是認證用戶、是否是vip用戶以及用戶勳章數三項指標,將官方評價體系定量的引入到了用戶的權威度評價體系中。

為實現上述技術目的,達到上述技術效果,其技術方案具體為:

一種多特徵融合的微博用戶權威度評價方法,包括以下步驟:

步驟1、建立多特徵融合的微博用戶權威度定量評價體系:根據用戶權威度評價的要求,通過分析新浪微博的用戶信息平臺,提取微博用戶的個人信息指標和微博用戶的行為數據指標,構建用戶權威度(authority)評價指標特徵四元組e(fui,fur,fua,fupa),其中,fui為用戶基本信息完整度,fur為用戶傳播影響力,fua為用戶活躍度,fupa為用戶平臺指數,將用戶權威度定義為評價指標特徵四元組e(fui,fur,fua,fupa)中各個評價指標特徵的線性加權和,如式(1)所示:

authority=w1·fui+w2·fur+w3·fua+w1·fupi(1)

其中,wi(i=1,2,3,4)各個評價指標特徵的權值係數,滿足wi>0且

步驟2、用戶特徵指標權值的確定:權值係數的確定本發明採用層次分析法中的特徵向量法,具體的權重的計算過程如下:

(1)構造用戶權威度評價特徵的判斷矩陣如式(2)所示:

其中,判斷矩陣a中的元素aij表示兩個特徵相比,特徵i的重要程度比特徵j重要程度重要的倍數,一般是引入數字1-9及其導數作為度量;

(2)求解判斷矩陣的最大特徵值的特徵向量,並進行一致性檢驗;對式(2)的用戶特徵判斷矩陣a採用matlab的eig函數求取全部特徵值,構成對角陣d如式(3)所示,並求取判斷矩陣a的所有特徵向量構成的列向量矩陣v如式(4)所示:

通過式(3)得到用戶判斷矩陣a的最大特徵值λmax=4.0080,則矩陣a的最大特徵值特徵向量為w=[0.0909,0.8413,0.2611,0.4646]t;

(3)對上面求出來的特徵向量w進行歸一化處理即得到式(1)中各個用戶特徵的權值為(w1,w2,w3,w4)=(0.0548,0.5075,0.1575,0.2802);

步驟3、用戶基本信息完整度的計算:將用戶基本信息完整度ui(userintegrity)定義為微博用戶在註冊微博平臺帳號時,願意向公眾公開的個人基本信息標籤佔微博用戶基本信息體系標籤總數的比例;其計算如式(7)所示:

其中,n為微博用戶基本信息體系中標籤的總數量,取值為12,ipi的定義如式(8)所示:

步驟4、用戶傳播影響力的計算:設fu(uj,ui)表示用戶uj轉發用戶ui微博的次數,cu(uj,ui)為用戶uj評論用戶ui微博的次數,利用微博用戶間轉發與評論微博的次數給微博用戶關注關係添加關係價值如式(9)所示:

w(uj,ui)=α·fu(uj,ui)+β·cu(uj,ui)(9)

其中,α和β分別代表轉發微博與評論微博的權值係數,滿足α>0,β>0且α+β=1;採用微博用戶關注與被關注的關係價值,定義用戶的微博傳播指數為:若存在用戶ui,其粉絲的集合為b,則用戶ui的微博傳播指數為其粉絲集合b中所有粉絲對其關注的權值之和,計算如式(10)所示:

利用用戶的微博傳播指數對pagerank算法進行改進,在微博用戶關係之間引入關係權值,構建用戶傳播影響力的userrank算法,那麼userrank值即為用戶傳播影響力,計算方式如式(11)所示:

其中,ur(ui)表示用戶ui在用戶關注關係網絡中的傳播影響力,q為阻尼係數;

步驟5、用戶活躍度的計算:根據微博用戶發布微博的數目和微博用戶評論其它微博用戶微博的數目,定義用戶活躍度ua為微博用戶在一定時間內發布微博數目與評論其它微博用戶微博的數目的線性加權求和對時間的均值,計算如式(12)所示:

其中,n表示計算時間段的總天數,取近期的一個月或者一年的數據進行計算,或者定義為從註冊日起到現在為止的所有數據;wi與ci分別表示用戶在第i天發布的微博的數目與評論其它微博用戶微博的數目,α和β分別表示用戶發布微博數目與評論微博數目的權值,且滿足α>0,β>0且α+β=1;它們所佔比例相同,即α=β=0.5;

步驟6、用戶平臺指數的計算:根據用戶權威度評價特徵提取的用戶權威度評價特徵,用戶平臺指數包含3項內容,分別是是否是認證用戶、是否是vip用戶以及用戶勳章數;採用這三項內容構建用戶平臺指數的計算方法如式(13)所示:

upi=α·a+β·m+γ·m(13)

其中,a表示微博用戶是否經過平臺認證,m表示微博用戶具有的勳章數,v表示微博用戶是否是vip會員用戶,α、β和γ為三者的權值,由於這三項特徵之間相對的重要性並不相同,同樣採用層次分析法中的特徵向量法確定各自的權值,構建用戶平臺指數判斷矩陣如式(14)所示:

通過計算,得到式(14)的判斷矩陣a的最大特徵值為λmax=3.0015,計算判斷矩陣的一致性比例為cr=0.0014,遠遠小於0.1,符合一致性檢驗結果,說明式(14)的構造的判斷矩陣是合理的;最後,將最大特徵值的特徵向量進行歸一化處理,得到用戶平臺指標的各項用戶特徵的權值為(α,β,γ)=(0.7373,0.0853,0.1773)。

進一步,步驟1中所述個人信息指標主要包括:個人資料、聯繫方式、職業信息、教育信息以及標籤信息這五個大類的用戶基本信息;所述用戶行為數據,主要包括:用戶粉絲數、微博被轉發次數、微博被評論次數、用戶關注數、用戶發布微博總數、用戶評論微博總數以及用戶註冊日期時間的行為數據。

進一步,步驟2中用戶特徵判斷矩陣的一致性檢驗過程如下:

①計算一致性指標ci(consistencyindex)如式(5)所示:

②查找判斷矩陣對應的平均隨機一致性指標ri;

③計算一致性比例cr如式(6)所示:

當cr0且

2、用戶特徵指標權值的確定

權值係數的確定本發明採用層次分析法中的特徵向量法,具體的權重的計算過程如下:

(1)構造用戶權威度評價特徵的判斷矩陣如式(2)所示:

其中,判斷矩陣a中的元素aij表示兩個特徵相比,特徵i的重要程度比特徵j重要程度重要的倍數,一般是引入數字1-9及其導數作為度量。在微博用戶權威度評價中,因為用戶權威度的最直接體現就是用戶的信息傳播影響力,因此,其相對於其它因素,其重要程度最大。同時,鑑於平臺認證信息經過了一定的官方審查,本身具有較高的權威性,因此用戶的平臺指數重要性佔其次。最後,用戶活躍度與用戶基本信息完整度與用戶權威有一定的關係但沒有直接性的體現,因此它們的重要性較小。通過多次實驗及第(2)的一致性檢驗,得到了如式(2)所示的用戶權威度評價特徵的判斷矩陣。

(2)求解判斷矩陣的最大特徵值的特徵向量,並進行一致性檢驗。對式(2)的用戶特徵判斷矩陣a採用matlab的eig函數求取全部特徵值,構成對角陣d如式(3)所示,並求取判斷矩陣a的所有特徵向量構成的列向量矩陣v如式(4)所示:

通過式(3)我們可以得到用戶判斷矩陣a的最大特徵值λmax=4.0080,則矩陣a的最大特徵值特徵向量為w=[0.0909,0.8413,0.2611,0.4646]t。

用戶特徵判斷矩陣的一致性檢驗過程如下:

①計算一致性指標ci(consistencyindex)如式(5)所示:

②查找判斷矩陣對應的平均隨機一致性指標ri(randomindex)。

表1給出了1-6階的正互反矩計算1000次得到的平均隨機一致性指標。

表1平均隨機一致性指標ri

③計算一致性比例cr(consistencyratio)如式(6)所示:

當cr0,β>0且α+β=1。採用微博用戶關注與被關注的關係價值,定義用戶的微博傳播指數為:若存在用戶ui,其粉絲的集合為b,則用戶ui的微博傳播指數為其粉絲集合b中所有粉絲對其關注的權值之和,計算如式(10)所示:

利用用戶的微博傳播指數對pagerank算法進行改進,在微博用戶關係之間引入關係權值,構建用戶傳播影響力的userrank算法,那麼userrank值(以下稱ur值)即為用戶傳播影響力,計算方式如式(11)所示:

其中,ur(ui)表示用戶ui在用戶關注關係網絡中的傳播影響力,q為阻尼係數。

5、用戶活躍度的計算

本發明引入用戶活躍度概念用於描述用戶在微博中的主動行為發生的頻率。微博用戶的主動行為主要包括微博用戶關注其他用戶、發布微博、瀏覽微博、轉發微博、評論微博等。簡單來說,用戶活躍度就是微博用戶在平臺中與其他用戶(包括好友、粉絲、關注者等)進行互動的行為頻率。由於微博用戶關注其它用戶和瀏覽微博的行為很難搜集到時間節點的信息,因此本發明中並沒有將其納入用戶活躍度的度量體系之中。根據微博用戶發布微博的數目和微博用戶評論其它微博用戶微博的數目,定義用戶活躍度ua(useractivity)為微博用戶在一定時間內發布微博數目與評論其它微博用戶微博的數目的線性加權求和對時間的均值,計算如式(12)所示:

其中,n表示計算時間段的總天數,可以取近期的一個月或者一年的數據進行計算,也可以定義為從註冊日起到現在為止的所有數據。wi與ci分別表示用戶在第i天發布的微博的數目與評論其它微博用戶微博的數目,α和β分別表示用戶發布微博數目與評論微博數目的權值,且滿足α>0,β>0且α+β=1。一般認為它們所佔比例相同,即α=β=0.5。

6、用戶平臺指數的計算

本發明根據前文表1用戶權威度評價特徵我們提取的用戶權威度評價特徵,用戶平臺指數包含3項內容,分別是是否是認證用戶、是否是vip用戶以及用戶勳章數。採用這三項內容我們構建用戶平臺指數的計算方法如式(13)所示:

upi=α·a+β·m+γ·m(13)

其中,a表示微博用戶是否經過平臺認證,m表示微博用戶具有的勳章數,v表示微博用戶是否是vip會員用戶,α、β和γ為三者的權值,由於這三項特徵之間相對的重要性並不相同,同樣採用層次分析法中的特徵向量法確定各自的權值。在此,本發明構建用戶平臺指數判斷矩陣如式(14)所示:

通過計算,得到式(14)的判斷矩陣a的最大特徵值為λmax=3.0015,計算判斷矩陣的一致性比例為cr=0.0014,遠遠小於0.1,符合一致性檢驗結果,說明式(14)的構造的判斷矩陣是合理的。最後,將最大特徵值的特徵向量進行歸一化處理,得到用戶平臺指標的各項用戶特徵的權值為(α,β,γ)=(0.7373,0.0853,0.1773)。

以上所述,僅為本發明較佳的具體實施方式,本發明的保護範圍不限於此,任何熟悉本技術領域的技術人員在本發明披露的技術範圍內,可顯而易見地得到的技術方案的簡單變化或等效替換均落入本發明的保護範圍內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀