新四季網

一種基於多特徵融合的網絡學術報告分類方法與流程

2023-10-08 16:26:09 2


本發明屬於基於機器學習的文本分類技術領域,主要涉及一種基於多特徵融合的學術報告預告分類方法。



背景技術:

學術報告有助於開拓視野和知識面並獲得前沿研究信息,學術報告的內容通常是報告者的最新研究成果,有助於科技工作者了解學科的最新研究進展情況,還可以藉此途徑獲得跨學科的知識,通過當面聆聽這一形式,還可能獲取到專家的知識思維,有助於科技工作者開啟自己固有的直覺能力,也可以藉助環境氣氛來開啟自己這種天賦固有的直覺能力。

另外,隨著科技工作者的不斷增多,他們對最新科技的渴望也是逐漸增加的,但是又沒有太多的時間去挑選需要關注的學術報告,這就需要我們事先進行學術報告的分類,然後對這些科技工作者進行推薦和推送,能極大的減少佔用做科研的時間。然而網上學術報告信息量巨大,如果通過人工分類的方法,費時費力,無法進行及時的推薦和推送。進行簡單的機器學習的方法進行推薦和推送又浪費了學術報告能提供的眾多信息,分類準確度也得不到很好的保障。

目前,進行短文本分類的方法主要分為三大類:

1.人工分類

2.利用機器學習的方法進行分類

3.融合機器學習的方法以及數據包含的其他信息進行融合分類。

利用人工進行分類的方法很簡單,但是只適合在數據量極其小的情況下,人工分類需要投入大量的人力和精力,而且需要專業的人士參與,否則準確率不會很高,該方法實用性差。利用機器學習的方法進行分類適合那些文本中不包含對分類有幫助的信息的情況下,目前使用機器學習進行文本分類的方法很多,但是始終達不到較高的準確率。融合機器學習的各種方法並且在其基礎上加入文本中包含的其他有用特徵進行融合分類,但是仍然無法滿足實際分類精度要求。



技術實現要素:

本發明是為了避免現有技術存在的不足之處,提出一種基於多特徵融合的網絡學術報告分類方法,以期充分利用學術報告中包含的各種特徵,並且結合多種機器學習的算法,以實現學術報告分類的最大準確率,從而保證實際應用的分類準確率。

本發明為解決技術問題採用如下技術方案:

本發明一種基於多特徵融合的網絡學術報告分類方法的特點是按如下步驟進行:

步驟1、收集並建立學術報告資料庫;

步驟1.1、利用爬蟲工具收集網絡學術報告的信息並作為相應條目,所述網絡學術報告的信息包括:報告標題、報告時間、報告地點、報告人、報告人簡介、報告簡介和報告舉辦單位;

步驟1.2、添加學術報告所屬的學科分類信息的條目,從而建立學術報告資料庫;

步驟2、獲得第一匹配結果集合;

步驟2.1、收集並建立學院名稱集合及其包含的各個學科名稱集合;

步驟2.2、將所述報告舉辦單位與所述學院名稱集合中的各個學院進行匹配,從而獲得第一匹配結果集合;所述第一匹配結果集合為所述報告舉辦單位所對應的學院所包含的所有學科;

步驟3、獲得第二匹配結果集合;

步驟3.1、收集並建立研究人員集合及其對應的研究領域集合;

步驟3.2、將所述報告人與所述研究人員集合中的各個研究人員姓名進行匹配,從而獲得第二匹配結果集合;所述第二匹配結果集合為所述報告人所屬的研究領域;

步驟4、利用中文關鍵詞提取算法對所述報告標題進行提取,獲得所述報告標題的關鍵詞;

步驟5、使用同義詞擴展算法對所提取的關鍵詞進行同義詞擴展,得到所述關鍵詞的近義詞特徵集合;

步驟6、使用SVM分類器對所述關鍵詞及其近義詞特徵集合進行文本分類,得到第一分類結果;所述第一分類結果為所述關鍵詞及其近義詞所對應的第一學科集合;所述第一學科集合中包含各個學科名稱及其相應的概率;

步驟7、使用樸素貝葉斯分類器NB對所述關鍵詞及其近義詞特徵集合進行文本分類,得到第二分類結果;所述第二分類結果為所述關鍵詞及其近義詞所對應的第二學科集合;所述第二學科集合中包含各個學科名稱及其相應的概率;

步驟8、得到初步分類結果集合;

步驟8.1、從所述第一分類結果和第二分類結果分別選出概率最高的前2個學科所對應的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;

步驟8.2、設置一個置信度值C;

步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將所述第一SVM概率所對應的學科作為第一初步分類結果;否則,則將所述第一SVM概率和第二SVM概率所對應的學科作為第一初步分類結果;

步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將所述第一NB概率所對應的學科作為第二初步分類結果;否則,則將所述第一NB概率和第二NB概率所對應的學科作為第二初步分類結果;

步驟8.5、將所述第一初步分類結果和第二初步分類結果取併集,得到初步分類結果集合;

步驟9、得到最終分類結果

步驟9.1、為所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合設定相應的權重,記為A、B、C;

步驟9.2、將所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合取併集,得到綜合分類結果集合;

步驟9.3、統計所述綜合分類結果集合中的每個學科分別在所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合中相應權重的總和;

步驟9.4、以權重的總和最高的學科作為所述網絡學術報告的最終分類結果並用於預告和推薦。

與現有技術相比,本發明的有益效果在於:

1.本發明充分使用了數據自身包含的信息,將學術報告中報告人和報告單位的匹配結果於用機器學習方法得到的結果進行融合,提高了分類的準確率,保證了實際應用的需求。

2.本發明首先建立研究單位資料庫和研究人員資料庫,將學術報告中的舉辦單位以及報告人信息與資料庫中的信息進行匹配,得到一系列學術報告人對應的學科以及一系列報告單位對應的學科,解決了數據利用不充分的問題,提高了學術報告數據利用效率。

3.本發明結合了多種傳統的機器學習方法,並加入置信度策略,使用支持向量機的分類方法得到分類結果,判斷第一概率與第二概率的差值大於置信度是否成立,成立則取第一概率對應的學科,否則取第一概率和第二概率對應的學科,得到支持向量機分類結果;再同樣的使用使用樸素貝葉斯的方法進行分類,得到樸素貝葉斯分類結果,將兩種分類方法的結果取併集,得到機器學習方法的分類結果,本方法結合了多種機器學習方法的優點,提高了融合分類結果的準確率。

附圖說明

圖1為本發明的整體流程圖;

圖2為本發明多特徵融合分類流程圖。

具體實施方式

在本實施例中,一種基於多特徵融合的網絡學術報告分類方法,是通過多因素的方法對學術報告進行分類,其整體流程圖如圖1所示,並按如下過程進行:

步驟1、收集並建立學術報告資料庫;

步驟1.1、利用爬蟲工具收集網絡學術報告的信息並作為相應條目,網絡學術報告的信息包括:報告標題、報告時間、報告地點、報告人、報告人簡介、報告簡介和報告舉辦單位;

步驟1.2、添加學術報告所屬的學科分類信息的條目,從而建立學術報告資料庫;

步驟2、獲得第一匹配結果集合;

步驟2.1、收集並建立學院名稱集合及其包含的各個學科名稱集合;

步驟2.2、將報告舉辦單位與學院名稱集合中的各個學院進行匹配,從而獲得第一匹配結果集合;第一匹配結果集合為報告舉辦單位所對應的學院所包含的所有學科;

步驟3、獲得第二匹配結果集合;

步驟3.1、收集並建立研究人員集合及其對應的研究領域集合;

步驟3.2、將報告人與研究人員集合中的各個研究人員姓名進行匹配,從而獲得第二匹配結果集合;第二匹配結果集合為報告人所屬的研究領域;

步驟4、利用中文關鍵詞提取算法對報告標題進行提取,獲得報告標題的關鍵詞;

步驟4.1、收集關鍵詞提取的訓練集,訓練集保存在同一個文件夾中,其中每個文件都是以文本文件的形式存儲,總的文件數為D。

步驟4.2、對訓練集中所有的文本文件進行分詞處理,並且使用一個字典記錄每個詞出現的次數。

步驟4.3、遍歷字典中的每個詞,計算每個詞在所有文本文件中出現的詞頻的總和,這樣得到每個詞的詞頻TF;同時也計算每個詞在文本文件中出現的次數,在每個文本文件中不管是只出現一次或出現多次,都只是把出現的次數加1,這樣得到某個詞在文件中出現的次數i,這樣可以得到每個詞的逆向文件頻率IDF的值;

步驟4.4、計算的每個詞的TFIDF值即為的TF*IDF,根據得到的TFIDF值的大小進行排序,取出前N1個詞作為這一文檔的關鍵詞;

步驟4.5、對取出的學術報告的報告標題進行分詞處理;

步驟4.6、依次匹配每個詞在訓練集中的所對應的TFIDF值,取出前N2個詞作為當前學術報告標題的關鍵詞。

步驟5、使用同義詞擴展算法對所提取的關鍵詞進行同義詞擴展,得到所述關鍵詞的近義詞特徵集合;

步驟6、使用SVM分類器對關鍵詞及其近義詞特徵集合進行文本分類,得到第一分類結果;第一分類結果為關鍵詞及其近義詞所對應的第一學科集合;第一學科集合中包含各個學科名稱及其相應的概率;

步驟6.1、首先使用網上提供的論文的數據模型進行訓練,首先要進行的是分詞,需要對分詞的詞庫進行擴充,添加專業詞,分詞的結果保存到文件model.seg中。

步驟6.2、加載model.seg文件,進行特徵選擇,選出比較能代表當前學科的n個詞語,存入文件model.temp中,這些詞語作為代表當前學科的特徵詞。

步驟6.3、根據model.temp文件中的內容,計算其中每個詞語的權重值,存入model.model文件中。

步驟6.4、從資料庫中取出所有未被分類的學術報告的標題,將其存入文件中,存入的名稱為每個學術報告存儲在資料庫中的id,將這些文件統一放在默認的分類名稱的文件夾中。

步驟6.5、使用步驟6.1中添加了專業詞彙的分詞工具對這些學術報告的標題進行分詞,存入test.seg文件夾中。

步驟6.6、使用步驟4中的方法進行同義詞擴展,得到當前詞彙的一系列描述,將這些描述加入到特徵中作為當前特徵的擴展。

步驟6.7、計算得到的這些詞語的權重值,存入文件test.model文件中。

步驟6.8、加載model.model文件,使用SVM工具對當前的test.model文件進行測試,得到的測試結果即為當前test文件的分類結果,將結果存入test.result文件中,存入文件每行為一個記錄,每個記錄的格式為當前文件的路徑+制表符+所屬分類id。

步驟6.9、按行讀取test.result文件,分割出文件路徑和所屬分類id,從文件路徑中得到當前的學術報告在資料庫中的id。

步驟7、使用樸素貝葉斯分類器NB對關鍵詞及其近義詞特徵集合進行文本分類,得到第二分類結果;第二分類結果為關鍵詞及其近義詞所對應的第二學科集合;第二學科集合中包含各個學科名稱及其相應的概率;

步驟8、得到初步分類結果集合;

步驟8.1、從第一分類結果和第二分類結果分別選出概率最高的前2個學科所對應的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;

步驟8.2、設置一個置信度值C;

步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將第一SVM概率所對應的學科作為第一初步分類結果;否則,則將所述第一SVM概率和第二SVM概率所對應的學科作為第一初步分類結果;

步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將第一NB概率所對應的學科作為第二初步分類結果;否則,則將第一NB概率和第二NB概率所對應的學科作為第二初步分類結果;

步驟8.5、將第一初步分類結果和第二初步分類結果取併集,得到初步分類結果集合;

步驟9、得到最終分類結果,如圖2所示;

步驟9.1、為第一匹配結果集合、第二匹配結果集合和初步分類結果集合設定相應的權重,記為A、B、C;

步驟9.2、將第一匹配結果集合、第二匹配結果集合和初步分類結果集合取併集,得到綜合分類結果集合;

步驟9.3、統計綜合分類結果集合中的每個學科分別在第一匹配結果集合、第二匹配結果集合和初步分類結果集合中相應權重的總和;

步驟9.4、以權重的總和最高的學科作為網絡學術報告的最終分類結果並用於預告和推薦。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀