新四季網

一種基於雲計算的分布式搜索方法

2023-07-02 23:07:41 1

一種基於雲計算的分布式搜索方法
【專利摘要】本發明公開一種基於雲計算的分布式搜索方法,該方法包括通過分布式的網絡爬蟲爬取多種格式的網絡文件;通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式;將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫;由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的格式;將索引文件導入索引資料庫,為檢索器提供索引數據;對檢索結果採用PageRank以及優化的在線排序算法。本發明的優點是利用了分布式存儲和計算的特點;改進和優化的排序算法,檢索結果更精準;採用了語義擴展關鍵詞技術,查詢結果更豐富。
【專利說明】一種基於雲計算的分布式搜索方法
【技術領域】
[0001]本發明涉及一種分布式的搜索方法,尤其是處理大數據下進行快速檢索的基於雲計算的分布式搜索方法。
【背景技術】
[0002]隨著Internet迅速發展,WWW(World Wide Web簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準確地從WWW上獲取所需信息,成為至關重要的問題。搜尋引擎的出現,大大提高了人們搜集信息的能力。然而,現有的搜尋引擎在搜索效率、信息維護、信息重複、網絡及站點、負載等方面還存在著問題和困難。
[0003]目前,從體系結構上看,大部分搜尋引擎是集中式的。即從Internet上取回頁面,經過分析、處理後將所有的索引信息集中存儲在某個站點,用戶通過訪問該站點實現查詢。它們之間通常沒有什麼協作,各自獨立搜索和處理信息,造成了大量的重複工作和嚴重的帶寬浪費,有時甚至能造成網絡阻塞。這種體系結構難以適應網絡規模的日益擴大,業界已紛紛提出建立分布式搜尋引擎的策略。
[0004]傳統的搜尋引擎,即通用搜尋引擎,在應用中能夠為用戶提供大量的搜索結果,但是這些通用搜尋引擎在追求返回更多信息的同時,很難兼顧到搜索結果的準確度和相關度,從而導致網頁覆蓋率較低、信息更新不及時等問題。由於傳統搜尋引擎存在著覆蓋率有限,查準率低,用戶相關性差的缺點,而且行業用戶有著信息需求相對集中、分類更加精細的要求,通用搜尋引擎缺乏足夠的導向作用。
[0005]傳統搜尋引擎缺乏個性化的局限具體表現在:
(I)網絡數據海量性:網絡信息數量大覆蓋面廣,對這些數據的計算和存儲需要消耗很多的時間與存儲空間。
[0006](2)用戶差異性:用戶背景知識不同,各自對詞義的理解也不盡相同,對於相同的檢索詞不同用戶有不同的傾向。
[0007](3)檢索與時間相關:用戶在不同時期或階段的同一檢索請求,所得到的仍是完全相同的檢索結果,對用戶不具有自適應能力。
[0008](4)檢索詞的表達:用戶由於領域知識的不足,而搜尋引擎的查詢接口又具有局限性,從而無法準確的實現用戶的搜索意圖。
[0009]因此,如何使用戶方便快捷的從海量的搜索結果中得到所需的信息,成為一個迫切需要解決的課題。

【發明內容】

[0010]本發明所要解決的技術問題是要提供一種檢索結果更精準的基於雲計算的分布式搜索方法。
[0011]為了解決以上的技術問題,本發明提供了一種基於雲計算的分布式搜索方法,該方法包括以下步驟:
步驟⑴:通過分布式的網絡爬蟲爬取多種格式的網絡文件,包括HTML、PPT、EXCEL、PDF文件;
步驟⑵:通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式,提取其中的正文、標題、作者等相關彳目息;
具體是:URL+標題+解析時間+作者+來源+正文+pr值+類別+連結。
[0012]其中:url是網頁連結,標題是網頁標題,解析時間是指解析當天日期,作者是指網頁作者,初始值為「未知」,來源是指網頁文檔來源,初始值為「未知」,正文是指網頁去掉html標籤後的的正文內容,Pr值指pagerank值,默認為1,類別是指網頁的分類,默認是0,連結是指網頁指向的連結,通過正則表達式篩選匹配,中間用空格連接。
[0013]步驟⑶:將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫;
步驟⑷:由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的
格式;
具體是:關鍵詞 +〃\007〃+url+」 \t」+ 詞頻 +,,\t」+pr+」 \t」+type。
[0014]其中:關鍵詞是倒排索引的檢索詞;url是文檔的連結;詞頻是關鍵詞在該文檔中出現的次數;Pr值是文檔pagerank值;Time是解析時間;Type是文檔分類。
[0015]步驟(5):將索引文件導入索引資料庫,為檢索器提供索引數據;
步驟(6):對檢索結果採用PageRank以及優化的在線排序算法。
[0016]其中,所述的步驟⑴的爬取網絡文件包括以下步驟:
①設置初始爬取的網頁網址,由於網絡爬蟲爬取網頁文件是一個遞歸的過程,為了取得更好的全網爬取效果,初始網頁url —般設置為導航網址;
②從步驟①中得到一個導航網站的頁面,通過解析該頁面,得到大量網站首頁;
③繼續解析這些首頁可以得到更多的網址,再重複此過程。
[0017]其中,所述的步驟⑷中的PageRank值計算方法如下:
R』(U)表示相似度,c=0.85 (這裡的c為阻尼係數),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數量,N是指所有頁面,E(U)是指用戶停止點擊,跳轉到新URL的概率,計算方法如下:
【權利要求】
1.一種基於雲計算的分布式搜索方法,該方法包括以下步驟: 步驟⑴:通過分布式的網絡爬蟲爬取多種格式的網絡文件; 步驟⑵:通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式; 步驟⑶:將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫; 步驟⑷:由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的格式; 步驟(5):將索引文件導入索引資料庫,為檢索器提供索引數據; 步驟(6):對檢索結果採用PageRank以及優化的在線排序算法。
2.根據權利要求1所述的基於雲計算的分布式搜索方法,其特徵在於:所述的步驟⑴的爬取網絡文件包括以下步驟: ①設置初始爬取的網頁網址,由於網絡爬蟲爬取網頁文件是一個遞歸的過程,為了取得更好的全網爬取效果,初始網頁url —般設置為導航網址; ②從步驟①中得到一個導航網站的頁面,通過解析該頁面,得到大量網站首頁; ③繼續解析這些首頁可以得到更多的網址,再重複此過程。
3.根據權利要求1所述的基於雲計算的分布式搜索方法,其特徵在於:所述的步驟⑷中的PageRank值計算方法如下: R』(U)表示相似度,c=0.85 (這裡的c為阻尼係數),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數量,N是指所有頁面,E(U)是指用戶停止點擊,跳轉到新URL的概率,計算方法如下:
【文檔編號】G06F17/30GK103617174SQ201310536651
【公開日】2014年3月5日 申請日期:2013年11月4日 優先權日:2013年11月4日
【發明者】向陽, 陳佑雄, 張依楊, 平宇, 張波, 袁書寒 申請人:同濟大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀