基於領域本體的信息檢索優化方法
2023-07-20 22:29:11 2
專利名稱:基於領域本體的信息檢索優化方法
技術領域:
本發明涉及一種網絡技術,具體來說是基於搜尋引擎的信息檢索方法。
背景技術:
人們從網絡上獲取信息的主要手段是使用搜索工具,如Google、百度、雅虎等。搜 索引擎的工作原理基本包括三個過程(1)從網際網路上搜集信息,通過用網絡蜘蛛定期對 網際網路上所有網站網頁的信息進行抓取。(2)整理信息並建立索引資料庫由分析索引系 統程序對收集回來的網頁進行分析,提取相關網頁所在網址連結、編碼類型、頁面內容包含 的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的連結關係等信息,根據一定的相關度 算法進行計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要 性),然後用這些相關信息建立網頁索引資料庫。(3)在索引資料庫中搜索排序、接受查詢 當用戶在搜尋引擎的界面輸入關鍵詞搜索後,由搜索系統程序從網頁索引資料庫中找到符 合該關鍵詞的所有相關網頁,按照現成的相關度數值排序,相關度越高,排名越靠前。最後, 由頁面生成系統將搜索結果的連結地址、頁面內容摘要等內容,組織起來返回給用戶。目前的搜尋引擎大多是基於關鍵字匹配的搜尋引擎。然而,這些搜尋引擎很少具 有語義推理能力。Google雖然採用了一些自然語言處理技術,例如,同義詞擴展,但是它並 不能解析概念之間的語義關係,這樣在一定程度上導致了查準率的降低,使得查詢返回結 果並不是用戶所滿意的信息。另一方面,用戶的查詢很大程度上依賴於某個專業領域,如海 洋領域。例如,假定用戶想搜索海洋領域有關「DIP(Dissolved inorganic phosphorus溶 解無機磷)」的信息,其查詢結果如圖4所示,通常會獲得大量其它領域的「DIP」信息,如微 電子領域的「Dual Inline Package」,即雙列直插式封裝技術。由於這些是與用戶的目的不 相關的無用信息,用戶對這樣的結果顯然是不滿意的。「本體(Ontology)」作為「共享概念模型的明確的形式化規範說明」,是通過抽象 出客觀世界中一些現象的相關概念而得到的模型,概念模型表現的含義獨立於具體的環境 狀態。本體體現的是共同認可的知識,反映的是相關領域內公認的概念集,因此本體提供了 對領域知識的共同理解與描述,可以更好地用於共享、交流和重用。構成本體的概念及其之 間的關係是經過精確定義的,運用本體可以消除一詞多義、多詞一義和詞義含糊等現象,從 而完成對領域知識清晰、確切、完整的定義與描述。本體研究的目標是獲取一個知識表達方 法,使得機器可以像人類一樣共享和處理信息。目前,本體技術被大量應用於知識表示、信 息檢索等領域。
發明內容
為了克服現有搜尋引擎在語義檢索上的不足,本發明提供了一種基於領域本體的 信息檢索優化方法。本發明的技術方案為一種基於領域本體的信息檢索優化方法,其步驟如下(1)通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;
(2)在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;(4)對各搜尋引擎的返回結果進行去重、排序整合;(5)將最終結果通過檢索界面顯示給用戶。上述步驟(2)中基於領域本體的語義擴展方式包括如下方式中的一種、兩種或全 部①基於is-a關係的優化方法Is-a關係(繼承關係)顯示了概念的分類,即父概念的實例等於子概念實例的總 和。在子概念上添加了一些約束,因此子概念也稱為父概念的特殊化。一個概念與其直接 父概念或子概念在同一個文檔中出現的機率是較高的。因此,當搜索關於某個概念A的文 檔時,可以利用A的父概念P或子概念C作為約束來提高搜索的查準率。於是,可以將一個 概念優化成概念本身和它的父概念或子概念的查詢對。②基於part-of關係的優化方法Part-of表示整體-部分關係,用來描述一個概念與其部分概念之間的相互關係。 一個概念的組成部分也與此概念所屬的領域緊密相關。因此,與部分概念相匹配的文檔通 常也同其整體概念相關聯。於是,可以將一個概念優化成概念本身及其部分概念的查詢對。③基於equivalent-class關係的優化方法Equivalent-class(等價類)關係用於處理領域知識中的同義詞現象。利用 equivalent-class關係,用戶查詢中的概念可以映射成與其等價的同義詞。這樣,可以提高 信息檢索的查準率。而且,equivalent-class關係通常作為前兩種優化方法的輔助方法。所述查詢對內的概念之間為「與」或者「或,,的邏輯關係,「與」可以提高查詢準確 率,「或」能夠提高查全率。上述步驟(4)中,對各搜尋引擎的返回結果進行去重、排序整合,可以採用的算法 如下(1)對搜索結果的URL進行處理,截取「#」之前的URL字符串作為最終的連結地 址;若存在MD5 (URLa) = MD5 (URLb),則認為URLa及URLb對應的頁面為重複頁面,去重;(2)排序算法考慮兩個方面①查詢字符串中各概念的語義距離Dist (Ci, Cj),其中Ci與Cj為查詢字符串中的 兩個概念,
權利要求
1.一種基於領域本體的信息檢索優化方法,其步驟如下(1)通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;(2)在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過領域 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;(4)對各搜尋引擎的返回結果進行去重和排序整合;(5)將最終結果通過檢索界面顯示給用戶。
2.如權利要求1所述的方法,其特徵在於所述的通過本體推理進行語義擴展,是採用 下述方法中的一種或兩種或全部①基於is-a關係優化方法基於所述查詢關鍵字獲得的概念A的父概念P或子概念C,優化成概念A本身和它的父 概念P的查詢對,或概念A本身和它的子概念C的查詢對;②基於part-of關係的優化方法將基於查詢關鍵字獲得的概念優化成該概念本身和其部分概念構成的查詢對;③基於equivalent-class關係的優化將基於查詢關鍵字獲得的概念優化成該概念和與其等價的同義詞構成的查詢對。
3.如權利要求2所述的方法,其特徵在於所述查詢對內的概念之間為「與」或者「或」 的邏輯關係。
4.如權利要求1至3中之一所述的方法,其特徵在於所述去重是指對於搜索結果 URL進行處理,截取「#,,之前的URL字符串作為最終的連結地址,對於URLa和URLb若存在 MD5 (URLa) = MD5 (URLb),則認為URLa及URLb對應的頁面為重複頁面,去掉其中一個連結地址。
5.如權利要求4所述的方法,其特徵在於所述排序是利用概念的語義相似度結合摘 要排序算法,對去重後的結果進行排序。
6.如權利要求5所述的方法,其特徵在於所述排序方法包括①按式1計算查詢字符串中各概念的語義距離
7.如權利要求1至3中之一所述的方法,其特徵在於所述檢索界面為針對某一領域 的專用界面。
8.如權利要求1至3中之一所述的方法,其特徵在於所述檢索界面有領域選項或領 域關鍵字填寫區域,在所述步驟(2)中根據用戶選定的領域選項或領域關鍵字,加載相應 的領域本體進行語義擴展。
全文摘要
本發明提供一種基於領域本體的信息檢索優化方法,通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過領域本體推理進行語義擴展,得到一組或多組新的查詢字符串;將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;對各搜尋引擎的返回結果進行去重和重排序整合;將最終結果通過檢索界面顯示給用戶。本發明是利用領域本體的語義優勢,提高領域相關的信息檢索的效率。
文檔編號G06F17/30GK102081668SQ201110025219
公開日2011年6月1日 申請日期2011年1月24日 優先權日2011年1月24日
發明者孫華, 張長青, 徐建良, 梁燕軍, 熊晶, 王愛民, 王繼鵬, 郭濤 申請人:徐建良, 熊晶, 王愛民