檢索架構和檢索方法
2023-07-27 07:43:36 1
專利名稱:檢索架構和檢索方法
技術領域:
本發明涉及網際網路搜索,尤其是涉及一種檢索架構及檢索方法。
背景技術:
現在的搜尋引擎種類有很多,從用途上可以將其分為兩類一類是以獲取信息為 任務的搜尋引擎,即用戶通過搜索得到的是符合要求的網頁,用戶使用該搜尋引擎的目的 往往是出於對信息的獲取需要,用戶的大部分行為是瀏覽網頁;另一類是以獲取資源為任 務的搜尋引擎,使用這類搜尋引擎的用戶往往目的非常明確,就是要下載自己需要的資源, 比如視頻、音頻、電子書、軟體等,用戶最期望通過這類搜尋引擎搜索得到自己想要的資源 並進行快速的數據傳輸。圖l描繪了現有搜尋引擎的大體架構。其中,網絡爬蟲crawler 由一些種子站點為起始,無限增量爬取相應的網絡資源,包括下載資源或者網頁文件,並將 這些資源以"url-〉文本文檔"這樣的結構存入海量資料庫。建立索弓I的伺服器Indexer 定時利用海量資料庫中的增量文件,建立起"關鍵字-〉url"這樣的索引文件。索引伺服器 Index Server,其利用公共網關接口 (Common Gateway Interface,簡稱CGI)傳來的用戶 clientl,…,n的查詢請求作為參數,查詢索引文件,得到結果,並返回給CGI程序。CGI程 序運行在網絡伺服器(web server)(通常是apache)上,用戶通過客戶端或者網頁訪問提 交查詢,於是網絡伺服器調用CGI程序,並把查詢參數(即帶有參數的連結)帶入CGI程序, CGI將查詢參數解析成Index Server能夠識別的結構,向Index Server提出查詢請求,在 得到Index Server提供的查詢結果後,CGI程序還會把結果轉化成相應的格式,提交給網 絡伺服器,並以網頁的形式展現於客戶端clientl,…,n。 以上是一個普遍通用的網絡搜尋引擎架構,而針對網絡下載資源的搜尋引擎略有 不同。已知獲取網絡資源的方式分為三種通過ftp下載資源;從提供下載資源的門戶網站 上找到所需要的資源,並從相應伺服器上下載資源;p2p方式下載資源。這三種網絡資源搜 索架構基本相同,但是資源來源以及資源收集方式區別很大,以下分別予以詳述。
1. ftp方式 ftp的資源搜集模塊主要分為兩部分,ftp站點獲取和ftp站點文件信息搜集。ftp 站點獲取模塊主要通過站點探測方式。所謂的站點探測的方法,就是對國內網際網路上的130 多個網段的21埠一個一個進行探測,如果有效,將其收入。這種方法優點是收錄的站點 數目會很多,但是缺點是通常只能支持21埠的匿名站點。當收集了所有有可能成為下 載文件的ftp伺服器站點後,接下來要做的就是把各個伺服器提供的站點文件信息收集起 來。站點的內容提取,也就是把一個ftp站點的目錄信息和文件信息都下載下來,然後進行 建立索引。 由ftp資源搜集的方式也可以看出,由於通常只能支持21埠的匿名站點,所以
包含有用戶所需資源的ftp站點可能很少或者用戶不可用,因此,通過這種方式獲得的網
絡資源有限。 2. http搜索
—個非常典型的例子就是百度的音樂搜索,可下載資源來源於各個門戶網站,這
些網站有自己的專用伺服器提供下載支持,而搜尋引擎的工作就是抓取搜集這些種子站點
的資源連結,並根據資源的名稱建立索引,為用戶提供查詢服務。這一類搜尋引擎的優點是
門戶網站提供的下載伺服器很穩定,用戶的搜索往往是非常有效的,搜索到的東西絕大部
分都可以下載成功,而且由於是從提供下載的網站上獲得資源,可以很容易的做成分類搜
索,資源的獲取以及用戶的查詢都有明確的指向性,召回率和精度都可以很好的保證。 但是這種搜索還是有許多局限性的。由於資源的種類受到了很大的限制,所以不
能滿足所有用戶的需求;也由於下載資源的伺服器的負載、帶寬、連接數的限制,使下載速
度受到了很大的影響。 3.p2p搜索 p2p搜尋引擎的資源來源是用戶發布共享資源的種子給索引模塊(tracker);或 者在線用戶將共享資源上傳到目錄伺服器。目錄伺服器將對用戶的資源解析成固定的格 式(其中包括文檔的名稱、md5碼、用戶的地址信息等),索引模塊就是根據這些數據建立索 引。用戶對於某個關鍵詞的查詢通過CGI交給Index Server, Index Server根據索引文件 得到初始查詢結果,同時,通過狀態伺服器得到用戶的在線信息並根據這個結果過濾掉離 線用戶的共享結果,將這樣的結果返回給用戶。用戶對某一個資源的下載是通過與擁有這 個資源(整個文件或部分)的用戶的連接,分塊下載到本地機器上。 這種模式下,用戶下載資源的同時也為其他用戶提供下載,沒有了伺服器負載以 及帶寬的限制,p2p下載方式為用戶提供了相當豐富的資源,並且對於一些熱門資源下載速 度會很大。但是當一個資源種子用戶不在線甚至其他所有的用戶所擁有的文件切片無法拼 湊成整個文件的時候,這個文件就無法被下載了,也就是說這種方式對於用戶獲取資源有 很大的不穩定性。 可以看出,上述三種資源搜尋引擎的架構分別存在著資源數量有限、種類單一、下 載速度不夠快、下載不穩定等等缺陷。
發明內容
本發明的主要目的就是解決現有技術中的問題,提供一種檢索架構和檢索方法, 其可供檢索的資源更豐富且資源的下載更加快速、穩定。
為實現上述目的,本發明採用以下技術方案
—種檢索架構,包括 資源搜集模塊,用於搜集網際網路上可下載的文件的信息;
索引創建模塊,用於根據搜集結果建立文件索引; 查詢服務模塊,用於接收用戶的查詢請求並向用戶返回查詢結果;禾口 檢索服務模塊,用於響應所述查詢請求,利用所述文件索引進行相應的查詢; 其特徵在於,所述文件索引為對p2p資源、ftp資源和http資源中的至少兩類資源
所建立的索引,所述檢索服務模塊包括p2p索引伺服器、f tp索引伺服器和http索引伺服器
中相應的至少兩者,還包括網關模塊,用於接收所述查詢請求並分派到各所述索引伺服器,
以及接收、整合各所述索引伺服器的查詢結果並返回給所述查詢服務模塊。
優選地
所述查詢服務模塊包括網絡伺服器和運行在所述網絡伺服器上的公共網關接口 , 所述查詢請求經所述公共網關接口解析後送至所述索引伺服器,所述查詢結果經公共網關 接口處理後提交給所述網絡伺服器,所述網絡伺服器以網頁形式向用戶展現所述查詢結 果。 所述網關模塊包括 配置初始化單元,用於初始化所述網關模塊的配置文件; 索引伺服器初始化單元,用於初始化所述索引伺服器的相關參數,包括索引服務 器的IP、埠及類型; 連接建立單元,用於建立與所述公共網關接口和與所述索引伺服器的連接;以及
查詢啟動單元,用於根據查詢請求啟動在所述索弓I伺服器上的相應查詢。
所述連接包括按套接字方式建立的連接。 所述查詢啟動單元包括線程創建單元,用於為每個查詢請求創建一個用以完成當 次查詢的線程。 —種檢索方法,其特徵在於,包括以下步驟 A、搜集網際網路上的p2p資源、ftp資源和http資源中的至少兩類資源的相關文件 信息; B、根據搜集結果建立與資源類別相應的文件索引;
C、接收用戶的查詢請求; D、響應所述查詢請求,分別利用所述相應的文件索引進行相應的p2p式或ftp式 或http式檢索; E、整合查詢結果並將其返回給用戶。
優選地 所述步驟C中,所述查詢請求先經網絡伺服器上的公共網關接口解析,然後由網
關模塊分派至各索引伺服器,所述步驟D中,各索引伺服器利用解析出的關鍵詞進行對應
於伺服器類型的查詢,並將各查詢結果送由所述網關模塊整合;所述步驟E中,經整合的查
詢結果先返回至所述網關模塊,再送入所述公共網關接口進行處理,然後由所述網絡服務
器以網頁形式向用戶展現。 所述步驟D之前還包括如下步驟 Dl、初始化關於所述網關模塊的配置文件; D2、初始化所述索引伺服器的相關參數,其包括所述索引伺服器的IP、埠及類 型; D3、建立所述網關模塊與所述公共網關接口和所述索引伺服器的連接;
所述步驟D包括如下步驟 D4、所述網關模塊根據查詢請求啟動在所述索引伺服器上的相應查詢。
所述步驟D3中,按套接字方式建立所述連接。 所述步驟D4中,為所述查詢隊列的每一個查詢請求分別創建一個線程來完成查 詢。
本發明有益的技術效果是 本發明的檢索架構包括資源搜集模塊、索引創建模塊、查詢服務模塊和檢索服務模塊,其中,索引創建模塊對p2p資源、ftp資源和http資源中的至少兩類資源建立索引, 檢索服務模塊包括p2p索引伺服器、ftp索引伺服器和http索引伺服器中相應的至少兩者 以及網關模塊,網關模塊接收查詢請求並分派到各索引伺服器,以及接收、整合各索引服務 器的查詢結果並返回給查詢服務模塊。這樣,本發明的檢索架構和其所應用的檢索方法改 善了傳統的單一的搜尋引擎架構,把p2p搜索、ftp搜索、http搜索整合起來,可以利用統 一的如CGI的接口程序實現查詢檢索,也就是說用戶的查詢入口只需要一個,而查詢的結 果則來源於三個方面,也就是P2p、 ftp和http三者的搜索結果。因此,採用本發明,吸收 三種搜尋引擎的優點並彌補各自的不足,可為用戶提供一個資源豐富、穩定、高速的下載平 臺。將三種搜索整合在一起,還減輕了系統負擔,並且可以對於查詢的內容以及查詢的結果 進行更加複雜的處理。
圖1展示了傳統搜尋引擎的大體架構; 圖2展示了根據本發明一種實施例的檢索架構的整體框架; 圖3展示了根據本發明一種實施例中網關模塊的實施原理; 圖4展示了根據本發明一種實施例中網關模塊的工作流程; 圖5展示了圖4中的Thread ConnectServers的算法描述; 圖6展示了圖4中的Creat commitSearch的過程; 圖7展示了圖6中通過線程來完成查詢的過程; 圖8展示了 commitSearch在一個線程中的執行過程; 圖9展示了根據本發明一種實施例的檢索方法的流程; 圖10展示了一種實施例的檢索方法中關於網關模塊的處理步驟。 本發明的特徵及優點將通過實施例結合附圖進行詳細說明。
具體實施例方式
請參考圖2,檢索架構包括資源搜集模塊、索引創建模塊、檢索服務模塊和web查 詢服務模塊。其中,索引創建模塊對p2p資源、ftp資源和http資源中的至少兩類資源建 立索引,檢索服務模塊包括P2p索引伺服器、ftp索引伺服器和http索引伺服器中相應的 至少兩者。在一種優選的實施例中,索引創建模塊建立關於p2p資源、ftp資源和http資 源的三類索引,檢索服務模塊相應包括P2p、 ftp和http三種索引伺服器。
web查詢服務模塊包括web伺服器和運行在web伺服器上的公共網關接口 CGI, 公共網關接口 CGI提供用戶和系統之間交互的查詢接口。檢索服務模塊包括網關模塊 GateWay,網關模塊GateWay負責監聽從公共網關接口 CGI傳來的查詢請求,並將監聽到的 查詢請求分派給各個索引伺服器,接收並匯總各個索引伺服器的查詢結果,並通過公共網 關接口 CGI處理後返回給客戶端。
檢索架構基本工作原理如下 用戶通過客戶端(例如Maze客戶端)查詢所需資源,包含查詢關鍵詞的查詢請求 通過公共網關接口 CGI傳遞到網關模塊GateWay ; 網關模塊GateWay監聽到查詢請求,將查詢請求分派給各個索引伺服器;
各個索引伺服器根據查詢關鍵詞、利用相應的文件索引進行資源查詢,並將得到 的查詢結果返回給網關模塊GateWay ; 網關模塊GateWay匯總、整合各索引伺服器的返回結果,並將所得數據提交給公 共網關接口 CGI,最後經由web伺服器返回給客戶端。 圖3展示了利用網關模塊GateWay實現查詢的實施原理圖,其優選採用C++語言
編程實現。具體說明如下 Client——即提請搜索的客戶端; Search Model——一個CGI程序,用於接收客戶端的查詢請求;
InitializeGateWay——用於初始化GateWay系統的程序,如初始化conf文 件,log文件等。其功能可通過realCGI. cpp文件中的main 、 buildBadMD5List、 initServers以及Identify, cpp文件中的InitSetup來實現; RevSearchRequset——用於接收從Search Model傳送的查詢請求。其功能可通
過realCGI. cpp文件中的main 、 commitSearch 來實現; Commitsearch——用於按照查詢請求在伺服器運行查詢程序; IndexSvr 0-4、 Ftp Server、 HTML Server-分別為4個p2p索引伺服器、一個
Ftp索引伺服器和一個http索引伺服器,提供各自的查詢服務; CollectResult——收集從所有伺服器中返回的查詢結果,提交給用戶。其功能可 通過realCGI. cpp文件中的main 、 commitSearch 來實現。
如圖4所示,網關模塊GateWay工作的基本流程如下
-Initialize Configure 初始化配置文件,打開寫有配置文件內容的文本,並將配置文件內容讀入緩衝區 InitSetupBuffer中,以等待後面程序的分析。具體實現上,優選在Identify, c卯中有兩個 InitSetup函數,一個有參數chaWpath,一個沒有參數,後者以NULL為參數直接調用了前 者,所以在GateWay的初始化中,配置文件直接使用了 bingle. conf文件。
-build BadMD5List 在優選的實施例中,建立Bad MD5的表單以提供給後續的涉及MD5的查詢時使用。 具體做法是將badmd51ist. txt中的內容讀入一個文件輸入流tmpif中,然後把tmpif中的 內容建立badMD5List。在後續步驟中,例如在後文中將述及的CheckBadMD5時,可先判斷請 求查詢的文件的MD5是否在Bad MD5的表單中,並根據判斷結果選擇執行下一步動作。
_Init Servers 初始化可用的Index伺服器的相關參數,包括伺服器的ip、埠、類型。優選將 InitSetipBuffer (其中是bingle. conf之中的內容)中的數據寫入一個SearchServer類 的數組中,servers [h]. Host、 servers [h]. Port、 servers [h]. Version被寫入bingle. conf 中serverh的相應的內容,數組由指針servers指示。
-Great Thread Co皿ectServers 建立與多個IndexSvr、 Ftp Server、 HTML Server的連接。具體工作流程請參考 圖50其中,程序中共建有server皿m個SearchServer類,對應server皿m個提供查詢的 伺服器。每一個SearchServer類有一個socket (套接字)處理代碼數組,其包含sock皿m 個元素,GateWay從中找出sockFlag[i] = _1的第一個i,申請一個新的socket處理代碼newfd,用它和這個SearchServer類對應的索引伺服器(IndexSvr、 Ftp Server或者HTML Server)建立連接,並將sockFD[i]設置為newfd ;對所有servers中的IndexSvr做這個工 作。 利用select 函數,允許阻塞網關模塊GateWay的執行直到需要網關模塊 GateWay時再為每個索引伺服器提供服務,且查詢任務隊列採用waitcount技術,這樣,網 關模塊GateWay可以更有效地處理向多個索引伺服器查詢的情況。
-Great commitSearch 請參考圖6, commitSearch具體可以是一個函數,其作用是取出查詢隊列中的一 個元素並完成相應的查詢。該步驟優選又包括以下過程 __Prepare Socket for search request (艮卩Prepare Socket for CGICo皿ect) 採用socket方式建立與CGI程序的連接。 __Accept and Push Search request into mClientSock 用戶的查詢請求提交給CGI程序,網關模塊GateWay從CGI程序中提取出查詢請 求,如果提取查詢請求成功,就將查詢請求放入GateWay的自己的查詢隊列中,即將這些請 求的socket放入一個隊列mClientSock中。
__Great Thread commitSearch Creat Thread commitSearch的含義是,創建一個線程讓commitSearch函數執行, 也就是說對於每個查詢任務都建立一個線程來完成查詢,這樣就實現了多線程操作。
如圖6所示, 一旦建立好與查詢程序即CGI模塊的連接,就開始時刻監聽CGI程 序,一旦有一個查詢請求進入,就把查詢請求放入查詢隊列(這個隊列是個共享數據區域, 由多個CommitSearch線程共享),並且創建一個CommitSearch線程來完成這個查詢,也就 是對於每個查詢都創建一個線程完成查詢。 一種優選的實施例中,通過線程來完成查詢的 處理過程如圖7所示,網關模塊GateWay向CGI程序返回的幾個結果,包括總的查詢結果 數result皿m、向用戶顯示的結果數show皿m、查詢結果的數據長度outputlen以及查詢結 果數據data。 如圖8所示,commitSearch函數在一個線程中的執行過程如下
首先,從隊列mClientSock中取出一個等待處理的socket處理代碼(執行 mClientSock. pop ),接收查詢請求(執行Recv request)並存入一個SearchSt潔t結構 中,如果是MD5查詢,優選先調用checkBadMD5函數來看是否為Bad MD5。接著,網關模 塊GateWay分別與CGI和索引伺服器通信,將來自CGI的用戶查詢請求發送到servernum 個索引伺服器中(即執行for(i = 0 ;i < server皿m ;i++)這一段操作)。然後,網關模 塊GateWay接收從各個索引伺服器返回的查詢結果並將這些結果整合。最後,網關模塊 GateWay將整合過的查詢結果通過CGI提交給用戶。 根據本發明的另一方面,還提供一種用於本發明的檢索架構的檢索方法。如圖9 所示,優選的實施例包括以下處理步驟 步驟A、搜集網際網路上的p2p資源、ftp資源和http資源的相關文件信息;
步驟B、根據搜集結果建立與資源類別相應的文件索引;
步驟C、接收用戶的查詢請求; 步驟D、響應查詢請求,分別利用相應的文件索引進行相應的p2p式或ftp式或http式檢索; 步驟E、整合查詢結果並將其返回給用戶。 優選的實施例中,在步驟C,查詢請求先經網絡伺服器上的公共網關接口解析,然 後由網關模塊分派至各索引伺服器,在步驟D,各索引伺服器利用解析出的關鍵詞進行對應 於伺服器類型的查詢,並將各查詢結果送由網關模塊整合;在步驟E中,經整合的查詢結果 先返回至網關模塊,再送入公共網關接口進行處理,然後由網絡伺服器以網頁形式向用戶 展現。 如圖10所示,優選地,步驟D之前還包括如下處理步驟
初始化關於網關模塊的配置文件; 初始化索引伺服器的相關參數,其包括索引伺服器的IP、埠及類型; 建立網關模塊與索引伺服器的連接,優選地,按套接字方式建立連接; 步驟D中,網關模塊根據查詢請求啟動在索引伺服器上的相應查詢。該步驟優選
又包括如下處理步驟 以套接字方式建立網關模塊與公共網關接口的連接; 網關模塊從公共網關接口中提取查詢請求,如果提取查詢請求成功,則將查詢請 求的放入查詢隊列中; 為查詢隊列的每一個查詢請求分別創建一個線程來完成查詢。 關於本發明檢索方法更詳細的內容可參考本發明檢索架構的實施例的原理及工 作過程的說明。 根據本發明的優選實施例,設置網關模塊GateWay ,有利地實現了 p2p搜索、ftp搜 索和http搜索的統一,給用戶一個唯一的查詢入口卻可以得到三種搜索的結果。其具有如 下顯著優點 1.由於p2p搜索、http搜索的存在,彌補了單純的ftp搜索的資源不足的缺點。
2.由於p2p搜索以及ftp搜索的存在,彌補了 http搜索由於受到連接數、帶寬、服 務器負載等限制導致的下載速度不高的缺點。 3.由於ftp搜索、http搜索的存在,彌補了p2p搜索對於較為冷門的資源,下載不 穩定的缺點。 4.網關模塊GateWay中還可以方便的加入更加複雜的對搜索結果的處理工作。如 果對於每一個用戶的每一次查詢都要啟動一個CGI服務進程,而進程的特性導致系統資源 佔用率很大,對於大量的請求會嚴重導致系統負載過高。引入網關模塊GateWay,對於每個 查詢請求的處理啟動一個線程,則大大節約了系統資源,也使得這個模塊中可以對查詢以
及查詢結果進行更加複雜的處理,比如對於敏感詞的過濾、對於資源的多個鏡像的歸併地等。 需指出,索引創建模塊以及檢索服務模塊相互關聯,由於三種檢索要統一在一起, 所以查詢索引的入口以及輸出的查詢結果格式應統一,這一點也要反映在索引創建過程 中,從而滿足基於不同文件索引的統一查詢。 另外,儘管在本發明一種優選的實施例中包括p2p搜索、ftp搜索和http搜索三 部分,應了解,在本發明其它的實施例中,還可以將p2p搜索、ftp搜索、http搜索中任意兩 者整合起來形成檢索架構,同樣可以利用統一的如CGI程序實現檢索,為用戶提供兩種檢索的結果。 以上內容是結合具體的優選實施方式對本發明所作的進一步詳細說明,不能認定 本發明的具體實施只局限於這些說明。對於本發明所屬技術領域的普通技術人員來說,在 不脫離本發明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬於本發明的 保護範圍。
權利要求
一種檢索架構,包括資源搜集模塊,用於搜集網際網路上可下載的文件的信息;索引創建模塊,用於根據搜集結果建立文件索引;查詢服務模塊,用於接收用戶的查詢請求並向用戶返回查詢結果;和檢索服務模塊,用於響應所述查詢請求,利用所述文件索引進行相應的查詢;其特徵在於,所述文件索引為對p2p資源、ftp資源和http資源中的至少兩類資源所建立的索引,所述檢索服務模塊包括p2p索引伺服器、ftp索引伺服器和http索引伺服器中相應的至少兩者,還包括網關模塊,用於接收所述查詢請求並分派到各所述索引伺服器,以及接收、整合各所述索引伺服器的查詢結果並返回給所述查詢服務模塊。
2. 如權利要求1所述的檢索架構,其特徵在於,所述查詢服務模塊包括網絡伺服器和 運行在所述網絡伺服器上的公共網關接口 ,所述查詢請求經所述公共網關接口解析後送至 所述索引伺服器,所述查詢結果經公共網關接口處理後提交給所述網絡伺服器,所述網絡 伺服器以網頁形式向用戶展現所述查詢結果。
3. 如權利要求2所述的檢索架構,其特徵在於,所述網關模塊包括 配置初始化單元,用於初始化所述網關模塊的配置文件;索引伺服器初始化單元,用於初始化所述索引伺服器的相關參數,包括索引伺服器的 IP、埠及類型;連接建立單元,用於建立與所述公共網關接口和與所述索引伺服器的連接;以及 查詢啟動單元,用於根據查詢請求啟動在所述索引伺服器上的相應查詢。
4. 如權利要求3所述的檢索架構,其特徵在於,所述連接包括按套接字方式建立的連接。
5. 如權利要求3所述的檢索架構,其特徵在於,所述查詢啟動單元包括線程創建單元, 用於為每個查詢請求創建一個用以完成當次查詢的線程。
6. —種檢索方法,其特徵在於,包括以下步驟A、 搜集網際網路上的p2p資源、ftp資源和http資源中的至少兩類資源的相關文件信息;B、 根據搜集結果建立與資源類別相應的文件索引;C、 接收用戶的查詢請求;D、 響應所述查詢請求,分別利用所述相應的文件索引進行相應的p2p式或ftp式或http式檢索;E、 整合查詢結果並將其返回給用戶。
7. 如權利要求6所述的檢索方法,其特徵在於,所述步驟C中,所述查詢請求先經網絡 伺服器上的公共網關接口解析,然後由網關模塊分派至各索引伺服器,所述步驟D中,各索 引伺服器利用解析出的關鍵詞進行對應於伺服器類型的查詢,並將各查詢結果送由所述網 關模塊整合;所述步驟E中,經整合的查詢結果先返回至所述網關模塊,再送入所述公共網 關接口進行處理,然後由所述網絡伺服器以網頁形式向用戶展現。
8. 如權利要求7所述的檢索方法,其特徵在於,所述步驟D之前還包括如下步驟 Dl、初始化關於所述網關模塊的配置文件;D2、初始化所述索引伺服器的相關參數,其包括所述索引伺服器的IP、埠及類型;D3、建立所述網關模塊與所述公共網關接口和所述索引伺服器的連接;所述步驟D包括如下步驟D4、所述網關模塊根據查詢請求啟動在所述索引伺服器上的相應查詢。
9. 如權利要求8所述的檢索方法,其特徵在於,所述步驟D3中,按套接字方式建立所述 連接。
10. 如權利要求9所述的檢索方法,其特徵在於,所述步驟D4中,為所述查詢隊列的每 一個查詢請求分別創建一個線程來完成查詢。
全文摘要
本發明揭示了一種檢索架構,包括資源搜集模塊、索引創建模塊、查詢服務模塊和檢索服務模塊,索引創建模塊對p2p資源、ftp資源和http資源中的至少兩類資源所建立索引,檢索服務模塊包括p2p索引伺服器、ftp索引伺服器和http索引伺服器中相應的至少兩者以及網關模塊,網關模塊用於接收查詢請求並分派到各索引伺服器,以及接收、整合各索引伺服器的查詢結果並返回給查詢服務模塊。本發明還揭示了一種用於該檢索架構的檢索方法。本發明可將三種搜索整合在一起,吸收三種搜尋引擎的優點並彌補各自的不足,為用戶提供一個資源豐富、穩定、高速的下載平臺。
文檔編號G06F17/30GK101763392SQ20081024185
公開日2010年6月30日 申請日期2008年12月23日 優先權日2008年12月23日
發明者康澤宇, 徐陽, 李揮, 李曉明, 雷凱 申請人:北京大學深圳研究生院