新四季網

一種基於形式概念分析的數字論文檢索方法

2023-05-11 20:41:11

一種基於形式概念分析的數字論文檢索方法
【專利摘要】本發明涉及一種數字論文檢索方法,特別涉及一種基於形式概念分析的數字論文檢索方法,屬於數據挖掘領域。本發明提出的論文檢索方法,通過「排序隔選」的方式,縮減了構建和搜索概念格的規模和時間,然後將其他被縮減論文附屬於被選論文,較大的消除了結果丟失的影響,同時通過概念格的粗糙近似檢索機制,解決了論文檢索時檢索結果過於分散和龐大的問題,同時又能夠保證檢索結果的召回率和精確度。該方法針對大規模數據提出了一種可用的基於形式概念分析的檢索模式。
【專利說明】一種基於形式概念分析的數字論文檢索方法
【技術領域】
[0001]本發明涉及一種數字論文檢索方法,特別涉及一種基於形式概念分析的數字論文檢索方法,屬於數據挖掘領域。
【背景技術】
[0002]目前,對於學術研究人員,有很多學術論文搜尋引擎可以使用,例如公共的GOOGLESCHOLAR搜尋引擎,商業性的ACM搜尋引擎,免費的CITESEER搜尋引擎等。這些搜尋引擎根據用戶的請求返回各自的結果,但結果往往存在以下問題:①返回結果過多;②返回結果大部分與請求背離;③用戶執行檢索得到結果集的時間太長;④檢索結果的準確率不高。因此,如何貼合學術用戶的檢索請求又能夠高效的找到其所需要的學術資源(論文),是目前學術搜索領域中的一個重點研究領域。
[0003]形式概念分析(FormalConcept Analysis, FCA)是在 1982 年由 R.Wille 提出,自1990年之後,FCA開始與信息檢索的相關技術進行融合,基於FCA的信息檢索方式被正式提出,概念格(Concept Lattice)也被認可來支持信息檢索的一類信息或資源組織結構。
[0004]目前有很多基於形式概念分析(FCA)的信息檢索的研究與應用被提出。Godin等人在文獻《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》 (International Journal ofMan-Machine Studies, 1993,38,747-767.)中對使用概念格結構的信息檢索進行了討論,並進行實驗與比較,得出結論:基於概念格結構的檢索是非常有吸引力的,因為它將主題檢索的良好性能和瀏覽的潛力結合在了一起。U.Krohn和N.J.Davies在文獻《Conceptlattices for knowledge management)) (BT Technology Journal 17, 4 (October 1999)
,108-116.)中提出了一種基於概念格結構的網上資源查詢機制,試圖去分析和找出各類資源對象間的內在聯繫,並將其應用於知識管理和信息檢索,實現新知識的獲取和己有知識的共享及可視化。Neuss和Kent在文獻《Conceptual Analysis of ResourceMeta-1nformation》 (Computer Networks and ISDN Systemsl995,27(6):973-984)中使用概念格進行Internet文檔信息的自動分類和分析。Carpineto等在文獻《ULYSSES:ALattice-Based Multiple Interaction Strategy Retrieval Interface》 (EWHCI1995:91-104)中對基於概念格的文本資料庫的自動組織和混合導航進行了研究,設計了一個檢索系統ULYSSES,其中數據的概念格結構為系統的導航階段提供輔助,並基于格結構的信息檢索與傳統的布爾查詢在兩個數據集上進行了比較,結果表明基於概念格的檢索性能要優於布爾檢索機制。
[0005]在基於FCA的學術檢索中,論文可視作形式概念中的對象,而從論文中抽取的術語(短語/關鍵詞)可被認為是形式概念中的屬性,由此,可以構建一個數字論文的形式背景,以表格(Table)的形式表達,其中,行代表數字論文,列代表術語,兩者之間的關係通過表中的交叉點進行表達。
[0006]表I是一個數字論文集合的形式背景,其中,每一行代表一個論文(共有六篇論文,分別以1,2, 3,4, 5,6表不),每一列代表術語(有a、b、C、d、e五個術語)。在形式背景表中,某一論文與某一術語確定的表項值為O或I兩種取值中的一種,I代表該行的論文擁有該列的術語,O則代表不擁有。根據表I所構建的概念格如圖1所示。
[0007]表I 一個數字論文集合的形式背景
[0008]
【權利要求】
1.一種基於形式概念分析的數字論文檢索方法,其特徵在於:其具體操作步驟包括預處理階段和檢索階段的操作; 所述預處理階段的操作是:對被檢索的某一領域爾的數字論文資源集Z進行預處理,具體為: 步驟1:針對領域》中的數字論文資源集Z中的全部關鍵詞,依次計算每個關鍵詞在領域纖中的數字論文資源集Z中的TF-1DF值,並按照TF-1DF值由高到底的順序對關鍵詞進行排序;然後,將TF-1DF值最高的η個關鍵詞確定為領域爾中的數字論文資源集的形式背景中的屬性,其中,40 ≤ n ≤ 50 ; 步驟2:在步驟I操作的基礎上,構建領域91中的數字論文資源集Z的形式背景表格,具體為:首先建立一張二維表,用符號F表不;二維表F的每一行分別對應數字論文資源集Z中的一篇數字論文,二維表F的每一列分別對應步驟I得到的η個關鍵詞中的一個關鍵詞;然後查看每個關鍵詞在領域載中的數字論文資源集Z的每篇論文中是否出現,如出現,則數字論文與關鍵詞確定的表項值為I ;否則,數字論文與關鍵詞確定的表項值為O ;每篇數字論文與所述η個關鍵詞確定的表項值被稱為該論文的形式背景;經過上述操作得到的二維表F被稱為領域爾中的數字論文資源集Z的形式背景表格; 步驟3:在步驟2操作的基礎上,統計形式背景表格F中每篇數字論文對應的表項值為I的個數,將其稱為該論文所擁有的屬性個數;然後在形式背景表格F中,對所有數字論文及其形式背景按照論文擁有的屬性個數由低到高的順序重新排序; 步驟4:在步驟3操作的基礎上,在形式背景表格F中,對於擁有屬性個數相同的數字論文,按照關鍵詞在形式背景表格F中出現的順序進行排序; 步驟5:選定一個順序間隔,用符號s表示,其中,3 < s < 20並且s為整數;然後,從步驟4得到的形式背景表格F中抽取第I篇論文以及其後依次間隔s的數字論文作為種子論文;將所有的種子論文及其形式背景構成的表格稱為種子論文形式背景表格,用符號Fs表示; 步驟6:在步驟5操作的基礎上,在種子論文形式背景表格Fs中為每一篇種子論文建立2個依附鍊表,一個稱為前置鍊表,另一個稱為後置鍊表;並將領域輯中的數字論文資源集Z的形式背景表格F中該種子論文之前的
2.如權利要求1所述的一種基於形式概念分析的數字論文檢索方法,其特徵在於:其預處理階段的步驟7中所述構建種子論文概念格的方法包括增量建格算法、批量建格算法。
【文檔編號】G06F17/30GK103440308SQ201310377050
【公開日】2013年12月11日 申請日期:2013年8月27日 優先權日:2013年8月27日
【發明者】施重陽, 牛振東, 張春霞, 趙向宇 申請人:北京理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀