一種基於形式概念分析的數字論文檢索方法
2023-05-11 20:41:11 1
一種基於形式概念分析的數字論文檢索方法
【專利摘要】本發明涉及一種數字論文檢索方法,特別涉及一種基於形式概念分析的數字論文檢索方法,屬於數據挖掘領域。本發明提出的論文檢索方法,通過「排序隔選」的方式,縮減了構建和搜索概念格的規模和時間,然後將其他被縮減論文附屬於被選論文,較大的消除了結果丟失的影響,同時通過概念格的粗糙近似檢索機制,解決了論文檢索時檢索結果過於分散和龐大的問題,同時又能夠保證檢索結果的召回率和精確度。該方法針對大規模數據提出了一種可用的基於形式概念分析的檢索模式。
【專利說明】一種基於形式概念分析的數字論文檢索方法
【技術領域】
[0001]本發明涉及一種數字論文檢索方法,特別涉及一種基於形式概念分析的數字論文檢索方法,屬於數據挖掘領域。
【背景技術】
[0002]目前,對於學術研究人員,有很多學術論文搜尋引擎可以使用,例如公共的GOOGLESCHOLAR搜尋引擎,商業性的ACM搜尋引擎,免費的CITESEER搜尋引擎等。這些搜尋引擎根據用戶的請求返回各自的結果,但結果往往存在以下問題:①返回結果過多;②返回結果大部分與請求背離;③用戶執行檢索得到結果集的時間太長;④檢索結果的準確率不高。因此,如何貼合學術用戶的檢索請求又能夠高效的找到其所需要的學術資源(論文),是目前學術搜索領域中的一個重點研究領域。
[0003]形式概念分析(FormalConcept Analysis, FCA)是在 1982 年由 R.Wille 提出,自1990年之後,FCA開始與信息檢索的相關技術進行融合,基於FCA的信息檢索方式被正式提出,概念格(Concept Lattice)也被認可來支持信息檢索的一類信息或資源組織結構。
[0004]目前有很多基於形式概念分析(FCA)的信息檢索的研究與應用被提出。Godin等人在文獻《Experimental Comparison of Navigation in a Galois Lattice withConventional Information Retrieval Methods》 (International Journal ofMan-Machine Studies, 1993,38,747-767.)中對使用概念格結構的信息檢索進行了討論,並進行實驗與比較,得出結論:基於概念格結構的檢索是非常有吸引力的,因為它將主題檢索的良好性能和瀏覽的潛力結合在了一起。U.Krohn和N.J.Davies在文獻《Conceptlattices for knowledge management)) (BT Technology Journal 17, 4 (October 1999)
,108-116.)中提出了一種基於概念格結構的網上資源查詢機制,試圖去分析和找出各類資源對象間的內在聯繫,並將其應用於知識管理和信息檢索,實現新知識的獲取和己有知識的共享及可視化。Neuss和Kent在文獻《Conceptual Analysis of ResourceMeta-1nformation》 (Computer Networks and ISDN Systemsl995,27(6):973-984)中使用概念格進行Internet文檔信息的自動分類和分析。Carpineto等在文獻《ULYSSES:ALattice-Based Multiple Interaction Strategy Retrieval Interface》 (EWHCI1995:91-104)中對基於概念格的文本資料庫的自動組織和混合導航進行了研究,設計了一個檢索系統ULYSSES,其中數據的概念格結構為系統的導航階段提供輔助,並基于格結構的信息檢索與傳統的布爾查詢在兩個數據集上進行了比較,結果表明基於概念格的檢索性能要優於布爾檢索機制。
[0005]在基於FCA的學術檢索中,論文可視作形式概念中的對象,而從論文中抽取的術語(短語/關鍵詞)可被認為是形式概念中的屬性,由此,可以構建一個數字論文的形式背景,以表格(Table)的形式表達,其中,行代表數字論文,列代表術語,兩者之間的關係通過表中的交叉點進行表達。
[0006]表I是一個數字論文集合的形式背景,其中,每一行代表一個論文(共有六篇論文,分別以1,2, 3,4, 5,6表不),每一列代表術語(有a、b、C、d、e五個術語)。在形式背景表中,某一論文與某一術語確定的表項值為O或I兩種取值中的一種,I代表該行的論文擁有該列的術語,O則代表不擁有。根據表I所構建的概念格如圖1所示。
[0007]表I 一個數字論文集合的形式背景
[0008]
【權利要求】
1.一種基於形式概念分析的數字論文檢索方法,其特徵在於:其具體操作步驟包括預處理階段和檢索階段的操作; 所述預處理階段的操作是:對被檢索的某一領域爾的數字論文資源集Z進行預處理,具體為: 步驟1:針對領域》中的數字論文資源集Z中的全部關鍵詞,依次計算每個關鍵詞在領域纖中的數字論文資源集Z中的TF-1DF值,並按照TF-1DF值由高到底的順序對關鍵詞進行排序;然後,將TF-1DF值最高的η個關鍵詞確定為領域爾中的數字論文資源集的形式背景中的屬性,其中,40 ≤ n ≤ 50 ; 步驟2:在步驟I操作的基礎上,構建領域91中的數字論文資源集Z的形式背景表格,具體為:首先建立一張二維表,用符號F表不;二維表F的每一行分別對應數字論文資源集Z中的一篇數字論文,二維表F的每一列分別對應步驟I得到的η個關鍵詞中的一個關鍵詞;然後查看每個關鍵詞在領域載中的數字論文資源集Z的每篇論文中是否出現,如出現,則數字論文與關鍵詞確定的表項值為I ;否則,數字論文與關鍵詞確定的表項值為O ;每篇數字論文與所述η個關鍵詞確定的表項值被稱為該論文的形式背景;經過上述操作得到的二維表F被稱為領域爾中的數字論文資源集Z的形式背景表格; 步驟3:在步驟2操作的基礎上,統計形式背景表格F中每篇數字論文對應的表項值為I的個數,將其稱為該論文所擁有的屬性個數;然後在形式背景表格F中,對所有數字論文及其形式背景按照論文擁有的屬性個數由低到高的順序重新排序; 步驟4:在步驟3操作的基礎上,在形式背景表格F中,對於擁有屬性個數相同的數字論文,按照關鍵詞在形式背景表格F中出現的順序進行排序; 步驟5:選定一個順序間隔,用符號s表示,其中,3 < s < 20並且s為整數;然後,從步驟4得到的形式背景表格F中抽取第I篇論文以及其後依次間隔s的數字論文作為種子論文;將所有的種子論文及其形式背景構成的表格稱為種子論文形式背景表格,用符號Fs表示; 步驟6:在步驟5操作的基礎上,在種子論文形式背景表格Fs中為每一篇種子論文建立2個依附鍊表,一個稱為前置鍊表,另一個稱為後置鍊表;並將領域輯中的數字論文資源集Z的形式背景表格F中該種子論文之前的
2.如權利要求1所述的一種基於形式概念分析的數字論文檢索方法,其特徵在於:其預處理階段的步驟7中所述構建種子論文概念格的方法包括增量建格算法、批量建格算法。
【文檔編號】G06F17/30GK103440308SQ201310377050
【公開日】2013年12月11日 申請日期:2013年8月27日 優先權日:2013年8月27日
【發明者】施重陽, 牛振東, 張春霞, 趙向宇 申請人:北京理工大學