新四季網

基於論文作者信息提取和關係權值模型的學術關係網構造方法

2023-05-23 07:37:51 3

基於論文作者信息提取和關係權值模型的學術關係網構造方法
【專利摘要】本發明提供了一種基於論文作者信息提取和關係權值模型的學術關係網構造方法。本發明針對特定領域,首先提取作者庫中所有作者信息,構建初始的作者關係矩陣,其次建立作者關係權值模型,根據每篇論文的作者信息更新作者關係矩陣,然後基於作者關係矩陣確定兩兩作者間最優關係傳遞路徑,構建作者關係圈;並定期更新作者關係矩陣和作者關係圈。其中兩兩作者間最優關係傳遞路徑滿足條件:兩者之間經過的路徑絕對值長度最短;在所有最短路徑中關係值和最大;經過的最短路徑小於6。本發明的作者關係權值模型體現了一篇文章中不同作者的真實關係值,構建的學術關係網更加合理,符合實際作者關係最優值,並實時反映最新的學術關係。
【專利說明】基於論文作者信息提取和關係權值模型的學術關係網構造 方法

【技術領域】
[0001] 本發明屬於計算機應用【技術領域】,涉及基於關係權值模型的學術關係網構造方 法,特別涉及一種基於論文作者信息提取來獲取關係權值的學術關係網構造方法。

【背景技術】
[0002] 1967年美國社會心理學家米爾格倫(Stanley Milgram)提出了一個"六度分 離"(六度區隔)理論(Six Degrees of Separation)。該理論認為在人際交往的脈絡中, 任意兩個陌生人都可以通過"親友的親友"建立聯繫,這中間最多只要通過五個朋友就能達 到目的。
[0003] 基於"六度分離"理論,2008年6月28日微軟悄然推出一款能夠直觀顯示被搜索 者人脈關係的"人立方"關係搜尋引擎。作為一款新型社會化搜尋引擎,"人立方"關係搜索 引擎能從超過十億的中文網頁中自動地抽取出人名、地名、機構名以及中文短語,並自動計 算出它們之間存在關係的可能性。用戶只要隨便輸入一個人物,"人立方"搜索將給出該人 物的關係、網頁、資訊、簡介等眾多內容。
[0004] 然而對於只關注特定學術領域的作者來說,通過現有人際關係網絡的搜索方法得 到的人際關係結果中,關係傳遞路徑可能包含非學術領域的人員,結果路徑中公眾影響力 巨大的名人比例較大,對於獲取實際的本學術領域內的人際關係和人員信息的幫助甚小。
[0005] 針對學術領域的人際圈搜索萬方資料庫已經有所嘗試,但是目前萬方學術圈搜索 只支持對於直接人際關係的搜索,尚未通過間接人際關係來建立學術關係網。


【發明內容】

[0006] 本發明針對現有人際關係搜索方法對特定學術領域的搜索結果不理想的問題,提 供了一種基於論文作者信息提取和關係權值模型的學術關係網構造方法。
[0007] 基於論文作者信息提取和關係權值模型的學術關係網構建方法,包括如下步驟:
[0008] 步驟1、提取作者庫中所有作者信息,構建初始的作者關係矩陣;
[0009] 所述的作者關係矩陣的第i行第j列的元素值為第i個作者和第j個作者的關係 值,用〇表示作者與自己的關係,-1表示兩位作者之間的關係不可達;初始的作者關係矩陣 中,對角線上元素值為0,其餘位置元素值為-1 ;
[0010] 步驟2、建立作者關係權值模型,根據每篇論文的作者信息更新作者關係矩陣;
[0011] 步驟3、基於步驟2得到的作者關係矩陣確定兩兩作者間最優關係傳遞路徑,根據 最優關係傳遞路徑構建作者關係圈;
[0012] 所述的兩兩作者間最優關係傳遞路徑需滿足以下幾個條件:
[0013] 1)兩者之間經過的路徑絕對值長度最短;
[0014] 2)在所有最短路徑中關係值和最大;
[0015] 3)經過的最短路徑小於6。
[0016] 步驟4、定期更新作者關係矩陣和作者關係圈。由於學術論文庫是動態的、不斷更 新的,該方法對學術論文庫進行定期掃描以更新作者關係矩陣和作者關係圈,保證該方法 建立的作者關係矩陣和學術關係網能反映最新學術界關係情況。
[0017] 步驟2所述的作者關係權值模型定義如下:
[0018] 對於一篇論文P,包括通訊作者在內共有N個作者,對於其中任意兩個作者A,B,設 作者A是論文P的第m作者,作者B是論文P的第η作者,論文P為作者A與B的關係值貢 獻的參考偵:Rclation<P,<A,B?=

【權利要求】
1. 一種基於論文作者信息提取和關係權值模型的學術關係網構建方法,其特徵在於, 通過如下步驟實現: 步驟1、提取作者信息,構建初始的作者關係矩陣;所述的作者關係矩陣的第i行第j 列的元素值為作者i和作者j的關係值,用0表示作者與自己的關係,-1表示兩位作者之 間的關係不可達;初始的作者關係矩陣中,對角線上元素值為0,其餘位置元素值為-1; 步驟2 :建立作者關係權值模型,根據每篇論文的作者信息更新作者關係矩陣; 所述的作者關係權值模型為:設一篇論文P,包括通訊作者在內共有N個作者,設作者A 和B分別為論文P的第m作者和第η作者,則論文P為作者A與B的關係值貢獻的參考值 Relation〈P,> =
其中,C為第一作者和通訊作者的關係加強值;X表示作者機構決定的作者關係的權 重;當A和B屬於同一機構或單位時,參數T的值為1,否則T的值為0 ;S為由作者次序反 映作者關係遠近信息的分界值;d表示第一作者和作者次序在S+1位之前的非通訊作者的 關係加強值;e表示第一作者和作者次序在S位之後的非通訊作者的關係在關係加強值d 基礎上的削弱值;所得到的參考值四捨五入到整數; 設k篇論文為作者A和B的關係值貢獻的參考值分別為a, r2,…,rk,則作者A和B的 關係值為:π±ι<Α ,Β^ΣΙ ne'用得到的關係值更新作者關係矩陣中表示A和B關係值 的元素值; 步驟3 :基於步驟2更新的作者關係矩陣確定兩兩作者間最優關係傳遞路徑,最優關係 傳遞路徑需滿足以下幾個條件: 1) 兩者之間經過的路徑絕對值長度最短; 2) 在所有最短路徑中關係值和最大; 3) 經過的最短路徑小於6 ; 根據最優關係傳遞路徑構建作者關係圈; 步驟4、定期更新作者關係矩陣和作者關係圈。
2. 根據權利要求1所述的基於論文作者信息提取和關係權值模型的學術關係網構建 方法,其特徵在於,步驟3中所述的最優關係傳遞路徑,具體獲取方法是: 步驟3. 1、將作者關係矩陣中作者集合記為W,M表示集合W的元素個數,設置一個標誌 數組s [v] [1,2···,M]記錄作者v到哪些作者的最優關係傳遞路徑已經找到,數組中1表示 最優關係傳遞路徑已經找到,0表示最優關係傳遞路徑未找到; 初始時,S[v] [V] = 1 ;s[v] [i] = 0, i = 1,2···,Μ, i尹V ;lv、i分別為作者關係矩陣 中的第i作者、第v作者; 步驟3. 2、設置數組dist [v] [1,2···,M]記錄作者v到各作者的最優關係傳遞路徑的路 徑長度,其中,dist[v] [i]記錄作者v到作者i的最優關係傳遞路徑的路徑長度;初始時, dist[v][i]根據標誌數組s來設置,若s[v][i] = 1,則設置dist[v][i] = 1,否則設置 dist[v] [i] = M; 步驟3. 3、設置數組path [v] [1,2···,M]記錄作者v到各作者的最優關係傳遞路徑,其 中path[v][i]記錄作者v到作者i的最優關係傳遞路徑;初始時,若s[v][i] = 1,設置 path[v] [i] = {i},否則,設置 path[i]為空; 步驟3. 4、利用標誌數組s與作者關係矩陣,找出所有與作者v關係值超過閾值 maxRela的作者集合Uv : Uv = {u | u e W,且 u 尹 V,rela [V,u] >maxRela}, 其中,對於 Uv 中的任意 u,置 s[v] [u] = 1,更新 path[v] [u] = {u},更新 dist[v] [u] =1 ; 重複步驟3. 4M次,找到所有作者與其直接可達的作者; 步驟3. 5、對於步驟3. 4中確定的作者集合Uv,遍歷Uv中各作者u,並進行如下操作: 將作者v到作者u的路徑長度加到作者u到作者r的路徑長度上,得到dist [u] [r] +1, 對應作者V通過作者U到達作者r的一條新關係傳遞路徑; 首先判斷dist [u] [r]+1是否小於6,若否,保持dist [v] [r]的值不變;若是,分如下三 種情況處理: (1) 若加後的長度dist[u] [r]+l小於當前作者v到作者r的關係傳遞路徑長度 dist [v] [r],則將 dist [v] [r]的值替換為 dist [u] [r] +1 ; (2) 若加後的長度dist[u][r]+l等於當前作者v到作者r的關係傳遞路徑長度 dist [v] [r],則比較新關係傳遞路徑上關係值的累加值是否大於原來關係傳遞路徑上關係 值的累加值,若是,將dist[v] [r]的值替換為dist[u] [r]+l,否則,保持dist[v] [r]的值不 變; (3) 若加後的長度dist[u] [r]+l大於當前作者v到作者r的關係傳遞路徑長度 dist [v] [r],保持 dist [v] [r]的值不變; 若替換dist [v][r]的值,將更新作者v到作者r的關係傳遞路徑path [v][r]為:作者 v到作者u的關係傳遞路徑path [v] [u]再加作者u到作者r的關係傳遞路徑path [u] [r]; 重複步驟3. 5M次,得到作者關係矩陣中任意兩作者間的最優關係傳遞路徑; 步驟3. 6、根據dist數組更新標誌數組,對於作者關係矩陣中任意兩個作者i、j,i,j =1,2,…M,更新對應的標誌數組s[i] [j]為:
s[i][j] = 1表示作者i到作者j的最優關係傳遞路徑已經找到,s[i][j] =0表示作 者i到作者j的最優關係傳遞路徑未找到。
3.根據權利要求2所述的基於論文作者信息提取和關係權值模型的學術關係網構建 方法,其特徵在於,步驟3. 4中所述的maxRela的取值範圍為1. 5?3. 5。
【文檔編號】G06F17/30GK104156437SQ201410395729
【公開日】2014年11月19日 申請日期:2014年8月13日 優先權日:2014年8月13日
【發明者】袁偉, 鄧攀, 閆碧瑩, 李玉成 申請人:中科嘉速(北京)並行軟體有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀