新四季網

基於領域本體的信息檢索優化方法

2023-07-20 22:29:11

專利名稱:基於領域本體的信息檢索優化方法
技術領域:
本發明涉及一種網絡技術,具體來說是基於搜尋引擎的信息檢索方法。
背景技術:
人們從網絡上獲取信息的主要手段是使用搜索工具,如Google、百度、雅虎等。搜 索引擎的工作原理基本包括三個過程(1)從網際網路上搜集信息,通過用網絡蜘蛛定期對 網際網路上所有網站網頁的信息進行抓取。(2)整理信息並建立索引資料庫由分析索引系 統程序對收集回來的網頁進行分析,提取相關網頁所在網址連結、編碼類型、頁面內容包含 的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的連結關係等信息,根據一定的相關度 算法進行計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要 性),然後用這些相關信息建立網頁索引資料庫。(3)在索引資料庫中搜索排序、接受查詢 當用戶在搜尋引擎的界面輸入關鍵詞搜索後,由搜索系統程序從網頁索引資料庫中找到符 合該關鍵詞的所有相關網頁,按照現成的相關度數值排序,相關度越高,排名越靠前。最後, 由頁面生成系統將搜索結果的連結地址、頁面內容摘要等內容,組織起來返回給用戶。目前的搜尋引擎大多是基於關鍵字匹配的搜尋引擎。然而,這些搜尋引擎很少具 有語義推理能力。Google雖然採用了一些自然語言處理技術,例如,同義詞擴展,但是它並 不能解析概念之間的語義關係,這樣在一定程度上導致了查準率的降低,使得查詢返回結 果並不是用戶所滿意的信息。另一方面,用戶的查詢很大程度上依賴於某個專業領域,如海 洋領域。例如,假定用戶想搜索海洋領域有關「DIP(Dissolved inorganic phosphorus溶 解無機磷)」的信息,其查詢結果如圖4所示,通常會獲得大量其它領域的「DIP」信息,如微 電子領域的「Dual Inline Package」,即雙列直插式封裝技術。由於這些是與用戶的目的不 相關的無用信息,用戶對這樣的結果顯然是不滿意的。「本體(Ontology)」作為「共享概念模型的明確的形式化規範說明」,是通過抽象 出客觀世界中一些現象的相關概念而得到的模型,概念模型表現的含義獨立於具體的環境 狀態。本體體現的是共同認可的知識,反映的是相關領域內公認的概念集,因此本體提供了 對領域知識的共同理解與描述,可以更好地用於共享、交流和重用。構成本體的概念及其之 間的關係是經過精確定義的,運用本體可以消除一詞多義、多詞一義和詞義含糊等現象,從 而完成對領域知識清晰、確切、完整的定義與描述。本體研究的目標是獲取一個知識表達方 法,使得機器可以像人類一樣共享和處理信息。目前,本體技術被大量應用於知識表示、信 息檢索等領域。

發明內容
為了克服現有搜尋引擎在語義檢索上的不足,本發明提供了一種基於領域本體的 信息檢索優化方法。本發明的技術方案為一種基於領域本體的信息檢索優化方法,其步驟如下(1)通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;
(2)在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;(4)對各搜尋引擎的返回結果進行去重、排序整合;(5)將最終結果通過檢索界面顯示給用戶。上述步驟(2)中基於領域本體的語義擴展方式包括如下方式中的一種、兩種或全 部①基於is-a關係的優化方法Is-a關係(繼承關係)顯示了概念的分類,即父概念的實例等於子概念實例的總 和。在子概念上添加了一些約束,因此子概念也稱為父概念的特殊化。一個概念與其直接 父概念或子概念在同一個文檔中出現的機率是較高的。因此,當搜索關於某個概念A的文 檔時,可以利用A的父概念P或子概念C作為約束來提高搜索的查準率。於是,可以將一個 概念優化成概念本身和它的父概念或子概念的查詢對。②基於part-of關係的優化方法Part-of表示整體-部分關係,用來描述一個概念與其部分概念之間的相互關係。 一個概念的組成部分也與此概念所屬的領域緊密相關。因此,與部分概念相匹配的文檔通 常也同其整體概念相關聯。於是,可以將一個概念優化成概念本身及其部分概念的查詢對。③基於equivalent-class關係的優化方法Equivalent-class(等價類)關係用於處理領域知識中的同義詞現象。利用 equivalent-class關係,用戶查詢中的概念可以映射成與其等價的同義詞。這樣,可以提高 信息檢索的查準率。而且,equivalent-class關係通常作為前兩種優化方法的輔助方法。所述查詢對內的概念之間為「與」或者「或,,的邏輯關係,「與」可以提高查詢準確 率,「或」能夠提高查全率。上述步驟(4)中,對各搜尋引擎的返回結果進行去重、排序整合,可以採用的算法 如下(1)對搜索結果的URL進行處理,截取「#」之前的URL字符串作為最終的連結地 址;若存在MD5 (URLa) = MD5 (URLb),則認為URLa及URLb對應的頁面為重複頁面,去重;(2)排序算法考慮兩個方面①查詢字符串中各概念的語義距離Dist (Ci, Cj),其中Ci與Cj為查詢字符串中的 兩個概念,
權利要求
1.一種基於領域本體的信息檢索優化方法,其步驟如下(1)通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;(2)在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過領域 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;(4)對各搜尋引擎的返回結果進行去重和排序整合;(5)將最終結果通過檢索界面顯示給用戶。
2.如權利要求1所述的方法,其特徵在於所述的通過本體推理進行語義擴展,是採用 下述方法中的一種或兩種或全部①基於is-a關係優化方法基於所述查詢關鍵字獲得的概念A的父概念P或子概念C,優化成概念A本身和它的父 概念P的查詢對,或概念A本身和它的子概念C的查詢對;②基於part-of關係的優化方法將基於查詢關鍵字獲得的概念優化成該概念本身和其部分概念構成的查詢對;③基於equivalent-class關係的優化將基於查詢關鍵字獲得的概念優化成該概念和與其等價的同義詞構成的查詢對。
3.如權利要求2所述的方法,其特徵在於所述查詢對內的概念之間為「與」或者「或」 的邏輯關係。
4.如權利要求1至3中之一所述的方法,其特徵在於所述去重是指對於搜索結果 URL進行處理,截取「#,,之前的URL字符串作為最終的連結地址,對於URLa和URLb若存在 MD5 (URLa) = MD5 (URLb),則認為URLa及URLb對應的頁面為重複頁面,去掉其中一個連結地址。
5.如權利要求4所述的方法,其特徵在於所述排序是利用概念的語義相似度結合摘 要排序算法,對去重後的結果進行排序。
6.如權利要求5所述的方法,其特徵在於所述排序方法包括①按式1計算查詢字符串中各概念的語義距離
7.如權利要求1至3中之一所述的方法,其特徵在於所述檢索界面為針對某一領域 的專用界面。
8.如權利要求1至3中之一所述的方法,其特徵在於所述檢索界面有領域選項或領 域關鍵字填寫區域,在所述步驟(2)中根據用戶選定的領域選項或領域關鍵字,加載相應 的領域本體進行語義擴展。
全文摘要
本發明提供一種基於領域本體的信息檢索優化方法,通過檢索系統的檢索界面,獲取用戶提交的查詢關鍵字;在用戶期望的領域,根據已經建立的領域本體,對用戶提交的查詢關鍵字通過領域本體推理進行語義擴展,得到一組或多組新的查詢字符串;將擴展後的查詢字符串提交給一個或多個搜尋引擎進行檢索;對各搜尋引擎的返回結果進行去重和重排序整合;將最終結果通過檢索界面顯示給用戶。本發明是利用領域本體的語義優勢,提高領域相關的信息檢索的效率。
文檔編號G06F17/30GK102081668SQ201110025219
公開日2011年6月1日 申請日期2011年1月24日 優先權日2011年1月24日
發明者孫華, 張長青, 徐建良, 梁燕軍, 熊晶, 王愛民, 王繼鵬, 郭濤 申請人:徐建良, 熊晶, 王愛民

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀