新四季網

一種用於元搜尋引擎的搜索方法及其裝置的製作方法

2023-05-18 08:04:21

專利名稱:一種用於元搜尋引擎的搜索方法及其裝置的製作方法
一種用於元搜尋引擎的搜索方法及其裝置
技術領域:
本發明涉及計算機軟體領域,尤其涉及一種用於元搜尋引擎的搜索方法及其裝置。
背景技術:
如何讓搜尋引擎主動了解用戶意圖,掌握用戶個性化信息,提供個性化服務成為 了信息檢索領域中許多學者的研究熱點。在個性化信息服務中,有關用戶行為的分析,進而 建立用戶模型成為個性化服務研究的關鍵技術。在個性化元搜尋引擎中,主要有三種用戶模型的表示方式主題表示法,以用戶 感興趣的主題表示用戶模型;關鍵詞表示法,以用戶感興趣的關鍵詞表示用戶模型,如Web Watcher ;基於空間向量模型的表示法,用關鍵詞向量空間中的向量來表示用戶模型的方 法,如ffeb Mate。現有技術的個性化搜尋引擎中主要有三種用戶建模技術手工定製建模, 即由用戶自行輸入或選擇的建模方法。另外,成員搜尋引擎的調度以及結果的融合也都是 個性化元搜尋引擎的關鍵技術。手工定製建模是由用戶自行輸入或選擇的建模方法,因此該方法的缺點在於完全 依賴於用戶並且無法準確反映用戶興趣。而示例建模是由用戶提供與興趣相關或無關的示 例來建立模型,此方法的缺點在於需要用戶在瀏覽過程中標註頁面以得到示例,因此幹擾 了用戶的正常瀏覽。對於自動建模而言,是根據用戶的瀏覽行為自動建立模型,改進了示例 建模技術,不會造成對用戶的幹擾,但是自動建模的程序實現過程非常複雜,目前還很不完善。

發明內容本發明所要解決的技術問題是,提供一種用於元搜尋引擎的搜索方法以及裝置, 具有簡單的算法和準確的搜索結果,且不影響用戶正常瀏覽。為了解決上述問題,本發明提供了一種用於元搜尋引擎的搜索方法,包括如下步 驟根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對 成員搜尋引擎進行調度;根據查詢結果與用戶興趣的相關度對結果進行融合併排序。作為可選的技術方案,所述建立用戶興趣模型的步驟進一步包括對用戶瀏覽過 的頁面進行內容分析;根據分析結果對頁面進行聚類,以形成興趣樹。作為可選的技術方案,所述對成員搜尋引擎進行調度的步驟進一步包括將用戶 的查詢映射到用戶興趣分類;結合用戶對搜尋引擎的偏好程度,計算成員搜尋引擎與用戶 查詢的相關度;選取一個或多個成員搜尋引擎進行搜索。作為可選的技術方案,所述對結果進行融合的步驟進一步包括對查詢到的相似 網頁進行去重處理;根據成員搜尋引擎與興趣的相關度、查詢結果在各個成員搜尋引擎中 出現的位置和次數、以及用戶對成員搜尋引擎的偏好程度,計算查詢結果在成員搜尋引擎 中的評分;對查詢結果按照評分從高到低的順序進行排序。
本發明還提供了一種用於元搜尋引擎的搜索裝置,包括如下單元建模單元,用於 根據用戶瀏覽過的頁面建立用戶興趣模型;調度單元,用於根據用戶的查詢要求和用戶的 興趣模型對成員搜尋引擎進行調度;融合單元,用於根據查詢結果與用戶興趣的相關度對 結果進行融合併排序。作為可選的技術方案,所述建模單元進一步包括分析模塊,用於對用戶瀏覽過的 頁面進行內容分析;聚類模塊,用於根據分析結果對頁面進行聚類,以形成興趣樹。作為可選的技術方案,所述調度單元進一步包括映射模塊,用於將用戶的查詢映 射到用戶興趣分類;計算模塊,用於結合用戶對搜尋引擎的偏好程度,計算成員搜尋引擎與 用戶查詢的相關度;搜索模塊,選取一個或多個成員搜尋引擎進行搜索。作為可選的技術方案,所述排序單元進一步包括去重模塊,用於對查詢到的相似 網頁進行去重處理;評分模塊,用於根據成員搜尋引擎與興趣的相關度、查詢結果在各個成 員搜尋引擎中出現的位置和次數、以及用戶對成員搜尋引擎的偏好程度,計算查詢結果在 成員搜尋引擎中的評分;排序模塊,對查詢結果按照評分從高到低的順序進行排序。本發明的優點在於,採用模糊均值算法對用戶的行為進行聚類,自動完成對用戶 興趣模型的建立。並且充分利用對用戶的行為的分析,結合用戶的興趣模型搜尋引擎的偏 好來實現對成員搜尋引擎的調度。因此本發明所述的技術方案是一種基於用戶興趣的查詢 結果融合的方案,通過考慮用戶的興趣以及成員搜尋引擎與用戶興趣的相關度,在不影響 用戶正常瀏覽的前提下,提高了搜尋引擎的準確度。

附圖1所示是本發明所述用於元搜尋引擎的搜索方法的實施步驟示意圖;附圖2所示是本發明所述用於元搜尋引擎的搜索裝置的裝置結構示意圖。
具體實施方式下面結合附圖對本發明提供的用於元搜尋引擎的搜索方法及其裝置的具體實施 方式做詳細說明。首先結合附圖敘述本發明所述用於元搜尋引擎的搜索方法的具體實施方式
。附圖1所示是本方法的實施步驟示意圖,包括步驟S11,根據用戶瀏覽過的頁面 建立用戶興趣模型;步驟S12,根據用戶的查詢要求和用戶的興趣模型對成員搜尋引擎進 行調度;步驟S13,根據查詢結果與用戶興趣的相關度對結果進行融合併排序。其中,步驟Sll進一步包括對用戶瀏覽過的頁面進行內容分析;根據分析結果對 頁面進行聚類,以形成興趣樹。用戶往往有多個不同的興趣類別,為了區分各種不同興趣, 本發明採用分類層次結構來表示用戶可能具有的興趣。具體地說,首先對用戶瀏覽過的頁面進行內容分析,根據信息主題對頁面進行聚 類,以形成不同用戶的興趣樹。採用模糊C均值(FCM)算法,該算法能夠在數據集的聚類數 目已知的情況下,尋找最佳的數據劃分。由於用戶在不同的時期表現出的興趣不同,長期興 趣比較穩定,短期興趣則能體現用戶最近的興趣。因此,本文採用一個三元組(keyi,Wi, f) 來表示每一個興趣節點,其中keyi表興趣節點的關鍵詞,Wi表示該關鍵詞的權重,f表示該 興趣的新鮮度。隨著用戶的行為增多,用戶的行為動機就越來越明確,即用戶的興趣類別越明確。步驟S12進一步包括將用戶的查詢映射到用戶興趣分類;結合用戶對搜尋引擎 的偏好程度,計算成員搜尋引擎與用戶查詢的相關度;選取前面的一個或多個成員搜索引 擎進行搜索。將用戶的查詢映射到用戶興趣分類,所述用戶興趣分類是採用步驟Sll中所述的 方法建立的。結合用戶對搜尋引擎的偏好程度Prei,採用餘弦法計算出用戶興趣與成員搜索 引擎的相關度re、。計算成員搜尋引擎與用戶查詢的相關度有以下公式rel (s,q)= a^eli+l^prei,其中 a、b 為常數。根據計算出來的搜尋引擎與用戶查詢的相關度rel (s,q),對各成員搜尋引擎按照 相關度的降序排列,選取前面的幾個成員搜尋引擎(例如5個)進行搜索。上述步驟中,還可以進一步利用並行處理來提高碰撞檢測的速度。是否能夠採用 並行處理的關鍵因素在於求解問題之間要滿足並行處理的條件1、求解問題可劃分為多個 子問題;2、子問題間具有低相關性。步驟S13進一步包括對查詢到的相似網頁進行去重處理;根據成員搜尋引擎與 興趣的相關度、查詢結果在各個成員搜尋引擎中出現的位置和次數、以及用戶對成員搜索 引擎的偏好程度,計算查詢結果在成員搜尋引擎中的評分;對查詢結果按照評分從高到低 的順序進行排序。各成員搜尋引擎返回的查詢結果可能會有交叉,為避免查詢到相似的網頁,造成 重複索引,本系統對查詢到的網頁進行了相似網頁去重處理。計算查詢結果與用戶興趣的相關度的步驟具體是分析查詢結果的標題和內容摘 要並對照用戶的興趣樹,對查詢結果進行分類,並計算查詢結果與用戶興趣的相關度。利用所獲得相關度信息,並結合查詢結果在各個成員搜尋引擎中出現的位置 和次數、以及用戶對成員搜尋引擎的偏好程度,計算查詢結果在成員搜尋引擎中的評分 rank(se)0具體地說,成員搜尋引擎與用戶興趣的相關性越高,則評分越高;查詢結果 被越多的成員搜尋引擎索引,則評分越高;查詢結果出現的位置越靠前,則評分越高;用 戶對成員搜尋引擎的偏好程度越高,則評分越高。根據以上原則,我們得出如下公式
權利要求
1.一種用於元搜尋引擎的搜索方法,其特徵在於,包括如下步驟 根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對成員搜尋引擎進行調度; 根據查詢結果與用戶興趣的相關度對結果進行融合併排序。
2.根據權利要求1所述的用於元搜尋引擎的搜索方法,其特徵在於,所述建 立用戶興趣模型的步驟進一步包括對用戶瀏覽過的頁面進行內容分析; 根據分析結果對頁面進行聚類,以形成興趣樹。
3.根據權利要求1所述的用於元搜尋引擎的搜索方法,其特徵在於,所述對成員搜索 引擎進行調度的步驟進一步包括將用戶的查詢映射到用戶興趣分類;結合用戶對搜尋引擎的偏好程度,計算成員搜尋引擎與用戶查詢的相關度; 選取一個或多個成員搜尋引擎進行搜索。
4.根據權利要求1所述的用於元搜尋引擎的搜索方法,其特徵在於,所述對結果進行 融合的步驟進一步包括對查詢到的相似網頁進行去重處理;根據成員搜尋引擎與興趣的相關度、查詢結果在各個成員搜尋引擎中出現的位置和次 數、以及用戶對成員搜尋引擎的偏好程度,計算查詢結果在成員搜尋引擎中的評分; 對查詢結果按照評分從高到低的順序進行排序。
5.一種用於元搜尋引擎的搜索裝置,其特徵在於,包括如下單元 建模單元,用於根據用戶瀏覽過的頁面建立用戶興趣模型;調度單元,用於根據用戶的查詢要求和用戶的興趣模型對成員搜尋引擎進行調度; 融合單元,用於根據查詢結果與用戶興趣的相關度對結果進行融合併排序。
6.根據權利要求5所述的用於元搜尋引擎的搜索裝置,其特徵在於,所述建模單元進 一步包括分析模塊,用於對用戶瀏覽過的頁面進行內容分析; 聚類模塊,用於根據分析結果對頁面進行聚類,以形成興趣樹。
7.根據權利要求5所述的用於元搜尋引擎的搜索裝置,其特徵在於,所述調度單元進 一步包括映射模塊,用於將用戶的查詢映射到用戶興趣分類;計算模塊,用於結合用戶對搜尋引擎的偏好程度,計算成員搜尋引擎與用戶查詢的相 關度;搜索模塊,選取一個或多個成員搜尋引擎進行搜索。
8.根據權利要求5所述的用於元搜尋引擎的搜索裝置,其特徵在於,所述排序單元進 一步包括去重模塊,用於對查詢到的相似網頁進行去重處理;評分模塊,用於根據成員搜尋引擎與興趣的相關度、查詢結果在各個成員搜尋引擎中 出現的位置和次數、以及用戶對成員搜尋引擎的偏好程度,計算查詢結果在成員搜尋引擎 中的評分;排序模塊,對查詢結果按照評分從高到低的順序進行排序。
全文摘要
一種用於元搜尋引擎的搜索方法,包括如下步驟根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對成員搜尋引擎進行調度;根據查詢結果與用戶興趣的相關度對結果進行融合併排序。本發明還進一步提供了一種用於元搜尋引擎的搜索裝置。本發明所述的方法和裝置是一種基於用戶興趣的查詢結果融合方法,通過考慮用戶的興趣以及成員搜尋引擎與用戶興趣的相關度,在不影響用戶正常瀏覽的前提下,提高了搜尋引擎的準確度。
文檔編號G06F17/30GK102081604SQ20091019962
公開日2011年6月1日 申請日期2009年11月27日 優先權日2009年11月27日
發明者劉泓漫, 寧建紅, 閆俊英 申請人:上海電機學院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀