一種基於雲計算的分布式搜索方法
2023-07-02 23:07:41 1
一種基於雲計算的分布式搜索方法
【專利摘要】本發明公開一種基於雲計算的分布式搜索方法,該方法包括通過分布式的網絡爬蟲爬取多種格式的網絡文件;通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式;將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫;由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的格式;將索引文件導入索引資料庫,為檢索器提供索引數據;對檢索結果採用PageRank以及優化的在線排序算法。本發明的優點是利用了分布式存儲和計算的特點;改進和優化的排序算法,檢索結果更精準;採用了語義擴展關鍵詞技術,查詢結果更豐富。
【專利說明】一種基於雲計算的分布式搜索方法
【技術領域】
[0001]本發明涉及一種分布式的搜索方法,尤其是處理大數據下進行快速檢索的基於雲計算的分布式搜索方法。
【背景技術】
[0002]隨著Internet迅速發展,WWW(World Wide Web簡稱WWW)已成為一個巨大的信息空間,為用戶提供了極具價值的信息資源。而面對大量的信息資源,通過瀏覽器一步步瀏覽已十分不便,如何快捷、準確地從WWW上獲取所需信息,成為至關重要的問題。搜尋引擎的出現,大大提高了人們搜集信息的能力。然而,現有的搜尋引擎在搜索效率、信息維護、信息重複、網絡及站點、負載等方面還存在著問題和困難。
[0003]目前,從體系結構上看,大部分搜尋引擎是集中式的。即從Internet上取回頁面,經過分析、處理後將所有的索引信息集中存儲在某個站點,用戶通過訪問該站點實現查詢。它們之間通常沒有什麼協作,各自獨立搜索和處理信息,造成了大量的重複工作和嚴重的帶寬浪費,有時甚至能造成網絡阻塞。這種體系結構難以適應網絡規模的日益擴大,業界已紛紛提出建立分布式搜尋引擎的策略。
[0004]傳統的搜尋引擎,即通用搜尋引擎,在應用中能夠為用戶提供大量的搜索結果,但是這些通用搜尋引擎在追求返回更多信息的同時,很難兼顧到搜索結果的準確度和相關度,從而導致網頁覆蓋率較低、信息更新不及時等問題。由於傳統搜尋引擎存在著覆蓋率有限,查準率低,用戶相關性差的缺點,而且行業用戶有著信息需求相對集中、分類更加精細的要求,通用搜尋引擎缺乏足夠的導向作用。
[0005]傳統搜尋引擎缺乏個性化的局限具體表現在:
(I)網絡數據海量性:網絡信息數量大覆蓋面廣,對這些數據的計算和存儲需要消耗很多的時間與存儲空間。
[0006](2)用戶差異性:用戶背景知識不同,各自對詞義的理解也不盡相同,對於相同的檢索詞不同用戶有不同的傾向。
[0007](3)檢索與時間相關:用戶在不同時期或階段的同一檢索請求,所得到的仍是完全相同的檢索結果,對用戶不具有自適應能力。
[0008](4)檢索詞的表達:用戶由於領域知識的不足,而搜尋引擎的查詢接口又具有局限性,從而無法準確的實現用戶的搜索意圖。
[0009]因此,如何使用戶方便快捷的從海量的搜索結果中得到所需的信息,成為一個迫切需要解決的課題。
【發明內容】
[0010]本發明所要解決的技術問題是要提供一種檢索結果更精準的基於雲計算的分布式搜索方法。
[0011]為了解決以上的技術問題,本發明提供了一種基於雲計算的分布式搜索方法,該方法包括以下步驟:
步驟⑴:通過分布式的網絡爬蟲爬取多種格式的網絡文件,包括HTML、PPT、EXCEL、PDF文件;
步驟⑵:通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式,提取其中的正文、標題、作者等相關彳目息;
具體是:URL+標題+解析時間+作者+來源+正文+pr值+類別+連結。
[0012]其中:url是網頁連結,標題是網頁標題,解析時間是指解析當天日期,作者是指網頁作者,初始值為「未知」,來源是指網頁文檔來源,初始值為「未知」,正文是指網頁去掉html標籤後的的正文內容,Pr值指pagerank值,默認為1,類別是指網頁的分類,默認是0,連結是指網頁指向的連結,通過正則表達式篩選匹配,中間用空格連接。
[0013]步驟⑶:將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫;
步驟⑷:由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的
格式;
具體是:關鍵詞 +〃\007〃+url+」 \t」+ 詞頻 +,,\t」+pr+」 \t」+type。
[0014]其中:關鍵詞是倒排索引的檢索詞;url是文檔的連結;詞頻是關鍵詞在該文檔中出現的次數;Pr值是文檔pagerank值;Time是解析時間;Type是文檔分類。
[0015]步驟(5):將索引文件導入索引資料庫,為檢索器提供索引數據;
步驟(6):對檢索結果採用PageRank以及優化的在線排序算法。
[0016]其中,所述的步驟⑴的爬取網絡文件包括以下步驟:
①設置初始爬取的網頁網址,由於網絡爬蟲爬取網頁文件是一個遞歸的過程,為了取得更好的全網爬取效果,初始網頁url —般設置為導航網址;
②從步驟①中得到一個導航網站的頁面,通過解析該頁面,得到大量網站首頁;
③繼續解析這些首頁可以得到更多的網址,再重複此過程。
[0017]其中,所述的步驟⑷中的PageRank值計算方法如下:
R』(U)表示相似度,c=0.85 (這裡的c為阻尼係數),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數量,N是指所有頁面,E(U)是指用戶停止點擊,跳轉到新URL的概率,計算方法如下:
【權利要求】
1.一種基於雲計算的分布式搜索方法,該方法包括以下步驟: 步驟⑴:通過分布式的網絡爬蟲爬取多種格式的網絡文件; 步驟⑵:通過分布式的並行抽取解析爬蟲所爬取到的文件,抽取格式為自定義的文檔表格式; 步驟⑶:將抽取好的文檔內容存入分布式的資料庫中,建立文檔表資料庫; 步驟⑷:由文檔表資料庫建立索引表也採用並行計算技術,索引表格式也為自定義的格式; 步驟(5):將索引文件導入索引資料庫,為檢索器提供索引數據; 步驟(6):對檢索結果採用PageRank以及優化的在線排序算法。
2.根據權利要求1所述的基於雲計算的分布式搜索方法,其特徵在於:所述的步驟⑴的爬取網絡文件包括以下步驟: ①設置初始爬取的網頁網址,由於網絡爬蟲爬取網頁文件是一個遞歸的過程,為了取得更好的全網爬取效果,初始網頁url —般設置為導航網址; ②從步驟①中得到一個導航網站的頁面,通過解析該頁面,得到大量網站首頁; ③繼續解析這些首頁可以得到更多的網址,再重複此過程。
3.根據權利要求1所述的基於雲計算的分布式搜索方法,其特徵在於:所述的步驟⑷中的PageRank值計算方法如下: R』(U)表示相似度,c=0.85 (這裡的c為阻尼係數),Bv是指被研究的頁面,Nv是頁面V鏈出頁面的數量,N是指所有頁面,E(U)是指用戶停止點擊,跳轉到新URL的概率,計算方法如下:
【文檔編號】G06F17/30GK103617174SQ201310536651
【公開日】2014年3月5日 申請日期:2013年11月4日 優先權日:2013年11月4日
【發明者】向陽, 陳佑雄, 張依楊, 平宇, 張波, 袁書寒 申請人:同濟大學