新四季網

建立導航查詢資料庫的方法及裝置的製作方法

2023-06-23 03:21:11


專利名稱::建立導航查詢資料庫的方法及裝置的製作方法
技術領域:
:本發明涉及網際網路信息處理
技術領域:
,特別是涉及建立導航查詢資料庫的方法及裝置。
背景技術:
:利用搜尋引擎進行查詢時,根據用戶查詢目的的不同大致可以分為導航查詢和信息查詢兩類。其中,關於導航查詢,用戶的直接目的是訪問一個已知的網站,例如輸入寧夏人民政府,其目標是www.nx.gov.cn/;輸入摩託羅拉首頁,其目標是www.motorola,com.cn/;輸入遠夢書城,其目標是www.my285.com/。關於信息查詢,用戶的直接目的是獲取以查詢詞為關鍵字的信息,而並不在意信息是由哪個網站或網頁4是供的。例如查詢詞為陳良宇之子獲刑、新疆暴力襲警案、碩士生當農民等。搜尋引擎伺服器會根據用戶輸入的查詢詞,將所有相關網頁按照相關度進行排序後返回給用戶,以供用戶選擇。但是對於導航查詢而言,有且只有一個網頁可以滿足用戶的需求,如果這個網頁不能排在比較靠前的位置,會比較嚴重地傷害用戶的感受。為此,有些搜尋引擎維護了個導航資料庫,如表1所示,其中包括了導航查詢詞及其查詢目標,當用戶輸入的查詢詞命中導航資料庫時,該查詢詞對應的查詢目標將會出現在搜索結果的第一位或比較靠前的位置。表1tableseeoriginaldocumentpage7上述方法能夠實現將導航查詢的網頁顯示在比較靠前的位置,但是如何生成該導航資料庫則成為比較關鍵的問題。現有技術中,通常基於搜尋引擎日誌來發現導航查詢,即分析搜索日誌信息,獲取在某個信息查詢詞下,用戶點擊頻率符合預置條件的網址,依據信息查詢詞獲取針對所述網址的描述信息,所述描述信息包括關鍵詞,最後依據所獲得的網址和相應的描述信息,發現導航查詢,並生成導航資料庫。但是搜尋引擎日誌中記錄的用戶點擊日誌並不能夠覆蓋所有的導航查詢,尤其是一些不常用的小網站的導航查詢往往無法實現。例如,用戶的點擊日誌中不包括"鳳城市凱馳內燃機配件有限公司"這一查詢詞。另外,用戶在搜尋引擎中輸入的查詢詞一般比較隨意,縮寫、簡稱或書寫錯誤較為常見,使得生成的導航查詢詞表不夠規範,噪音較多。例如,在查詢日誌中,有查詢詞"系詞胡同"系"西祠胡同"的筆誤,查詢詞"雅詩蘭戴,,,系"雅詩蘭黛"的筆誤,這樣的錯誤輸入很有可能被當成導4元查詢。綜上所述,需要本領域技術人員迫切解決的技術問題是如何創造性地提出一種生成導航資料庫的解決方法,使得獲得的導航資料庫能夠覆蓋更多的導航查詢,並且使導航查詢更加規範,減少噪音。
發明內容有鑑於此,本發明的目的在於提供建立導航查詢資料庫的方法及系統,以解決現有技術中導航資料庫覆蓋面小、有些導航查詢不夠規範的問題。為實現上述目的,本發明提供了如下方案一種建立導航查詢資料庫的方法,包括分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;如果存在,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。優選的,所述判斷是否存在符合預置條件的目標網址之前還包括選擇符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。優選的,還包括對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果驗證通過,則進入所述保存的步驟。優選的將連結文本上呈現的文字作為查詢詞發送到多個搜尋引擎進行搜索,比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過。優選的,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數A^),及呈現該文字a的各連結文本指向次it最多的目標網址,,並獲取指向該目標網址^的次數7V",J;判斷7V(a,U與iV(fl)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。一種建立導航查詢資料庫的裝置,包括連結文本分析單元,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;判斷單元,用於對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;資料庫建立單元,用於當存在符合預置條件的目標網址時,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。優選的,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL格式的目標網址輸入到所述判斷單元。優選的,還包括校驗單元,用於對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果驗證通過,則觸發所述資料庫建立單元執行所述保存的操作。優選的,所述校驗單元包括發送子單元,用於將連結文本上呈現的文字作為查詢詞發送到至少一個搜尋引擎進行搜索;比較子單元,用於比較各搜索?1擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過,並觸發所述資料庫建立單元執行所述保存的操作。優選的,所述判斷單元包括統計子單元,用於統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數A^),及呈現該文字a的各連結文本指向次數最多的目標網址/,並獲耳又指向該目標網址^的次悽tiV(a人);計算子單元,用於判斷W(a人)與A^)的比值是否大於預置閾值,,如果大於,則該目標網址^符合預置條件。一種網址導航方法,包^":分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;如果存在,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢凝:據庫;接收用戶輸入的查詢詞,檢索所述導航查詢資料庫,向用戶返回與所述查^句"i司才目匹酉己的網il:。優選的,所述判斷是否存在符合預置條件的目標網址之前還包括選擇符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。優選的,還包括對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果驗證通過,則進入所述保存的步驟。優選的將連結文本上呈現的文字作為查詢詞發送到多個搜索弓1擎進行搜索,比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過。優選的,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數7V(a),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址^的次數iV"0;判斷A^人)與A^)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。一種網址導航系統,包括連結文本分析單元,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;判斷單元,用於對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;導航查詢資料庫,用於保存連結文本上呈現的文字及所述符合預置條件的目標網址的只於應關係;4妻口單元,用於4矣收用戶llr入的查詢詞,並展示相應的目標網址;檢索單元,用於糹全索所述導4元查詢資料庫,向用戶返回與所述查詢詞相匹配的目標網址。優選的,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL4各式的目標網址輸入到所述判斷單元。優選的,還包括校驗單元,用於對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進^v驗i正。優選的,所述4t驗單元包括發送子單元,用於將連結文本上呈現的文字作為查詢詞發送到多個搜尋引擎進行搜索;比較子單元,用於比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過。優選的,所述判斷單元包括統計子單元,用於統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數A^),及呈現該文字a的各連結文本指向次數最多的目標網址l,並獲取指向該目標網址l的次數7V(a,l);計算子單元,用於判斷A^,"與A^)的比值是否大於預置閾值,如果大於,則該目標網址,符合預置條件。一種網址導航方法,包括接收用戶輸入的查詢詞;分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的目標網址;在所述各目標網址中,判斷是否存在符合預置條件的目標網址;如果存在,向用戶返回所述符合預置條件的目標網址。優選的,所述判斷是否存在符合預置條件的目標網址之前還包括選捧符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。'優選的,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數iV(a),及呈現該文字a的各連結文本指向次數最多的目標網址,,並獲取指向該目標網址^的次數W(",u;判斷iV(a,。與iV(a)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。一種網址導航系統,包括才妄口單元,用於4妄收用戶輸入的查詢詞,並展示相應的目標網址;連結文本分析單元,用於分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的目標網址;判斷單元,用於在所述各目標網址中,判斷是否存在符合預置條件的目標網址;如果存在,將所述符合預置條件的目標網址通過所述接口單元向用戶展示o優選的,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL格式的目標網址輸入到所述判斷單元。優選的,所述判斷單元包括統計子單元,用於統計鏈"^妄文本上呈現的文字a在連結文本資料庫中出現的總次數iV(a),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址fm的次數、);計算子單元,用於判斷iV(",O與W(a)的比值是否大於預置閾值,如果大於,則該目標網址符合預置條件。根據本發明提供的具體實施例,本發明公開了以下技術效果本發明採用基於連結文本分析的導航發現方法,由於連結文本的數量一般遠大於搜尋引擎的點擊日誌數量,而且不受網站大小、是否常用的約束,因此可以發現更大規模的導航查詢,增大了導航資料庫的覆蓋面。同時,由於連結文本通常是由網站作者生成的,因此用於導航查詢發現的數據質量更高,使獲得的導航查詢更加規範、噪音較少。其次,本發明在對連結文本分析的基礎上,還引入了搜尋引擎日誌等其他相關信息,以便進一步校正或修正分析結果,從而可以獲取更為準確的導航查詢。圖1是本發明提供的建立導航查詢資料庫的方法的流程圖2是鏈^l妄文本與目標網址的對應關係示意圖3是本發明提供的建立導航查詢資料庫的另一方法的流程圖4是本發明提供的建立導航查詢資料庫的裝置的示意圖5是本發明提供的建立導航查詢資料庫的另一裝置的示意圖6是本發明提供的網址導航方法的流程圖7是本發明提供的網址導航系統的示意圖8是本發明提供的另一網址導航系統的示意圖。具體實施例方式為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。參見圖1,本發明實施例提供的建立導航查詢資料庫的方法包括以下步驟S101:分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;S102:對於一連結文本上呈現的文字,判斷是否存在指向次數符合預置條件的目標網址,如果存在,進入步驟S103;S103:保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導^t查詢資料庫。本發明的目的是使建立的導航資料庫能夠覆蓋更多的導航查詢,同時使得獲取的導航查詢更加規範,減少噪音。因此,關鍵是要尋找一種合適的數據源,並從中挖掘出所需的導航查詢信息。在本發明實施例中,選取了連結文本資料庫作為數據源,為了更好地理解本發明,下面首先對連結文本進行簡要地介紹。網際網路上的網頁是通過超連結連接在一起的。超連結在本質上屬於一個網頁的一部分,它是一種允許我們同其他網頁或站點之間進行連接的元素。各個網頁連結在一起後,才能真正構成一個網站。所謂的超連結是指從一個網頁指向一個目標的連接關係,這個目標可以是另一個網頁,也可以是相同網頁上的不同位置,還可以是一個圖片,一個電子郵件地址,一個文件,甚至是一個應用程式。而在一個網頁中用來連結的對象,可以是一段文本或者是一個圖片等。當瀏覽者單擊已經鏈4妄的文字或圖片後,鏈4婁目標將顯示在瀏覽器上,並且才艮據目標的類型來打開或運行。圖2所示就是一個超連結的例子。其中,箭頭以下的部分為源網頁,箭頭以上的部分為目標網頁,超鏈4妄,人源網頁指向目標網頁,顯示在源網頁上的文字就是連結文本。通常,連結文本資料庫中包括連結文本上呈現的文字、連結文本所在的源統一資源定位符(UniformResourceLocator,URL)、鏈4婁文本指向的目標URL,因此連結文本可以對連結所指向頁面的做出評估,能夠精確的描述所指向頁面的內容。另一方面,幾乎所有的網站都會有自己的連結文本,而且連結文本一般是由網站的建設者生成的,因此連結文本上呈現的文字通常比較規範、噪音較少,一般不會出現錯別字之類的錯誤。從以上對連結文本的介紹可以看出,連結文本資料庫主要具有以下特點具有連結文本上呈現的文字與呈現該文字的連結文本所指向的目標網址的對應關係,同時數據量大、數據覆蓋面廣,並且連結文本上呈現的文字用語規範、噪聲較少。因此,能夠滿足本發明的建立導航查詢資料庫所需數據源的要求。其中,可以通過多種方法來判斷是否存在指向次數符合預置條件的目標網址。例如可以統計連結文本上呈現的文字的集中度。由於呈現同一文字的連結文本通常會指向多個目標網址,這些目標網址中有的相同,有的不相同,因此,所述連結文本上呈現的文字的集中度是指,對於一個連結文本上呈現的文字a及呈現該文字的連結文本所指向的某目標網址u,該連結文本上呈現的文字a以多高的比例集中在u上。本發明實施例提供了一種計算所述集中度的方法,現詳細描述如下首先,對於一條連結文本上呈現的文字a,統計其在連結文本中出現的總次數,設為7V(");並統計呈現該文字a的連結文本所指向的目標網址,設為n個,對於每一個目標網址t,統計呈現文字a的各連結文本指向該目標網址的次數7V(a力。因此有formulaseeoriginaldocumentpage15(1)其中,公式(l)中的6,v.人為a指向的n個目標網址。設其中^為呈現文字a的連結文本所指向次數最多的目標網址,即iV(a,0>7VO,0l"n且km(2)則通過以下公式計算集中度集中度=iVO,,m)/W(a)(3)然後,判斷集中度是否大於某預置的閾值(如,可以為O.8),如果大於,則i^為呈現文字a的鏈"^妄文本集中地指向目標網址^。因此可以將連結文本上呈現的文字a看作是導航詞,並且其目標網址為^。將連結文本上呈現的文字-目標網址對(a,^)進行保存,得到導航查詢資料庫。由於有些網頁上的連結文本可能並不標準,使得點擊該連結時可能存在"該連結不存在"或"該連結為空"等現象。因此,在本發明的優選實施例中,可以先將這些目標網址過濾掉。優選的,可以通過以下方式進行過濾判斷各目標網址是否符合URL格式,將不符合URL格式的目標網址過濾掉,然後只判斷符合URL格式的目標網址中,是否存在符合預置條件的目標網址。需要說明的是,URL是用於完整地描述Internet上網頁和其他資源的地址的一種標識方法,URL是統一的,因為它們採用相同的基本語法,無論是尋址哪種特定類型的資源(網頁、新聞組),還是描述通過哪種機制獲取該資源。對於Internet伺服器或全球資訊網伺服器上的目標文件,可以使用URL地址(該地址以"http:〃"開始)。在實際應用中,進行錯誤的推薦往往比不進行推薦還更加傷害用戶的體驗,因此,建立導航查詢資料庫時,準確性是比較重要的問題,為了保證獲取的導航詞及其對應的目標網址的準確性,本發明的優選實施例中可以利用搜尋引擎進行驗證,如果驗證通過,才進行保存。此時可以將上述過程得到的連結文本上呈現的文字-目標網址對(a,^)看作是導航查詢候選集合。其中,驗證的過程可以如下進4亍將導航查詢候選集合中的連結文本上呈現的文字作為查詢詞發送到多家搜尋引擎進行搜索,獲取各搜尋引擎返回的排在第一位的搜索結果,例如,可以得到以下數組(a,,m,搜尋引擎l的第一位結果,搜尋引擎2的第一位結果,……)。比較、與各搜尋引擎返回的排在第一位的搜索結果進行比較,如果一致,則驗證通過,即認為a是導航詞,且其目標網址為c,並將該導航詞-目標網址對保存到導航查詢資料庫中。當然,上述驗證方法可能並不是絕對的,在少數情況下也可能並不適用。在實際應用中,還可以結合使用其他的智能識別方法,或人工識別的方式來進行儘量準確的驗證。為了更加清楚地理解本發明實施例地方法,下面通過具體的例子進行詳細地描述。連結文本資料庫中包括連結文本上呈現的文字、連結文本所在的源統一資源定位符(UniformResourceLocator,URL)、連結文本指向的目標URL,例^口,可以》口表2戶斤示表2tableseeoriginaldocumentpage17參見圖3,在該例子中包括以下步驟S301:對連結文本數據進行統計,計算呈現某文字的連結文本各指向各目標網址的次數,如表3所示表3tableseeoriginaldocumentpage17S302:對每一個連結文本上呈現的文字,累加呈現該文字的連結文本指向不同目標的次數,就得到了連結文本上呈現的文字出現的總次數。比較呈現同一個文字的連結文本被指向不同目標網址的次數,就得到了指向次數最多的目標網址,如表4所示表4tableseeoriginaldocumentpage17S303:計算表4中的三個連結文本上呈現的文字中,呈現各文字的連結文本指向次數最多的目標網址的集中度;S304:判斷計算得到的集中度是否大於某預置的閾值(設為0.8)。S305:將集中度大於所述預置閾值的連結文本上呈現的文字-目標網址對作為導航查詢候選。例如,計算得到(搜狐,www.sohu.com/)的集中度為90.1%,大於O.8,貝寸4史為j美選導4元查詢j夷選;(hualin,www.china1ions,com/)的集中度為82.4%,大於0.8,則收為候選導航查詢候選;(北京寬溝,www.kuangou.com/)的集中度為39.8%,小於0.8,則不收為候選導航查詢候選;S306:把候選導航查詢的連結文本上呈現的文字作為查詢詞發送到若干個搜尋引擎,例如搜狗和百度,記錄第一位的結果,如表5所示tableseeoriginaldocumentpage18S307:比較連結文本上呈現的文字集中的目標、搜狗第一位、百度第一位,如果三者一致,則查詢詞是導航詞,其目標是連結文本上呈現的文字集中的目標。經比較,(搜狐,www.sohu.com/)是導航查詢,(hualin,www.chinalions.com/)不是導航查詢。綜上可見,本發明實施例採用基於連結文本分析的導航發現方法,由於連結文本的數量一般遠大於搜尋引擎的點擊日誌數量,而且不受網站大小、是否常用的約束,因此可以發現更大規模的導航查詢,增大了導航資料庫的覆蓋面。同時,由於連結文本上呈現的文字通常是由網站作者生成的,因此用於導航查詢發現的數據質量更高,使獲得的導航詞更加規範、噪音較少。同時,本發明實施例在對連結文本分析的基礎上,還引入了搜尋引擎日誌等其他相關信息,並通過搜尋引擎進行驗證,以便進一步校正或修正分析結果,從而可以獲取更為準確的導力元查詢。與本發明實施例4是供的建立導航查詢資料庫的方法相對應,本發明實施例還提供了一種建立導航查詢資料庫的裝置,參見圖4,該裝置包括連結文本分析單元U4G1,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本指向的目標網址;判斷單元U402,用於對於一連結文本上呈現的文字,判斷是否存在指向次數符合預置條件的目標網址;資料庫建立單元U403,用於當存在符合預置條件的目標網址時,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。本發明實施例將連結文本資料庫作為獲取導航查詢的數據源,因此首先由連結文本分析單元U401分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的各目標網址;然後對於每個連結文本上呈現的文字,判斷單元U402判斷是否存在指向次數符合某預置條件的目標網址;如果存在符合所述預置條件的目標網址,資料庫建立單元U403則保存該連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,這樣就建立了導航查詢資料庫。該導航查詢資料庫可以用於向用戶提供導航查詢的目標網址。由於連結文本資料庫的數據量大,連結文本上呈現的文字比較規範,因此,最終建立的導航查詢資料庫具有覆蓋範圍廣,導航查詢規範、不易出錯且噪音較小等特點。由於有些網頁上的連結文本可能並不標準,使得點擊該連結時可能存在"該連結不存在"或"該連結為空"等現象,可以先將這些目標網址過濾掉。因此,參見圖5,該裝置還可以包括選擇單元U504,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL格式的目標網址輸入到所述判斷單元。由於如果向用戶提供錯誤的推薦會比不做推薦更加傷害用戶的體驗,因此保證導航查詢的準確性非常重要。在本發明的優選實施例中,該裝置還可以包括校驗單元U505,用於在判斷出某連結文本上呈現的文字具有符合預置條件的目標網址後,對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果驗證通過,則觸發資料庫建立U503單元執行所述保存的操作。在實際應用中,可以利用現有的搜尋引擎系統進行驗證,因此校驗單元U505可以包括以下子單元發送子單元U5051,用於將連結文本上呈現的文字作為查詢詞發送到至少一個搜尋引擎進行搜索;比較子單元U5052,用於比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過,並觸發所述資料庫建立單元執行所述保存的搮:作。其中,可以通過統計連結文本上呈現的文字的集中度的方式來判斷是否存在符合預置條件的目標網址。因此,判斷單元U502可以包括以下子單元統計子單元U5021,用於對於一條連結文本上呈現的文字a,統計其在連結文本資料庫中出現的總次數A^),並統計呈現該文字a的各連結文本所指向的目標網址,對於每一個目標網址t,統計呈現文字a的各連結文本指向該目標網址的次數iV"/),獲取鏈呈現文字a的各連結文本指向次數最多的目標網址^,並統計指向該目標網址,m的次數,m);計算子單元U5022,用於計算iV(a,U與W(a)的比值,並將其作為該連結文本上呈現的文字a的集中度,判斷該集中度是否大於某預置閾值,如果大於,則該連結文本上呈現的文字存在符合所述預置條件的目標網址,且該目標網址為、。其中,圖5中的連結文本分析單元U501及導航查詢資料庫U503,與圖4中的連結文本分析單元U401及導航查詢資料庫U403相同。前述實施例中介紹的建立導航查詢資料庫的目的是幫助用戶完成網址導航,即當用戶輸入某查詢詞時,利用該導航查詢資料庫來判斷是否為導航查詢,如果是,將導4元查詢對應的目標網址返回給用戶。下面就對利用該導力元查詢翁:據庫來進行網址導航的方法進行詳細地介紹。參見圖6,本發明實施例提供的網址導航的方法包括以下步驟S601:分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的各目標網址;S602:對於一連結文本上呈現的文字,判斷是否存在指向次數符合預置條件的目標網址;S603:如果存在,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫;S604:接收用戶輸入的查詢詞,一企索所述導航查詢資料庫,向用戶返回與所述查詢詞相匹配的目標網址。本實施例所描述的網址導航的方法,是在前述實施例中建立導航查詢資料庫的基礎上完成的,由於相應的內容已經在前面詳細描述過,因此在此不再贅述。在步驟S604中,用戶一般都是通過關鍵詞進行查詢,在所述導航查詢資料庫中對用戶輸入的關鍵詞進行匹配,如果存在與該關^fc詞相匹配的導^:查詢,即可獲得該用戶所需的與該關鍵詞對應的目標網址,並返回給用戶,從而實現面向用戶的網址導航。對於具體的對用戶輸入查詢信息的分詞、解析以及具體的數椐庫查詢匹配等數據處理過程,現有技術已經完全實現,本發明在此不再贅述。可以通過多種方法來判斷是否存在指向次數符合預置條件的目標網址。優選的,可以採用統計連結文本的集中度的方法。所述連結文本的集中度是指,對於一個鏈^矣文本a及呈現該文字a的各鏈4妄文本所指向的某目標網址u,該連結文本a以多高的比例集中在u上。具體的,對於一條連結文本上呈現的文字a,統計其出現的總次數iV(a),並統計呈現該文字a的連結文本被指向的目標網址,對於每一個目標網址t,統計呈現該文字a的各連結文本所指向該目標網址的次數iV(a力,獲取呈現該文字a的各連結文本所指向次數最多的目標網址^,並統計指向該目標網址^的次數7V"U;然後計算W(fl,U與W(fl)的比值,並將其作為該鏈4妄文本上呈現的文字a的集中度,判斷該集中度是否大於某預置閣值,如果大於,則該連結文本上呈現的文字存在符合所述預置條件的目標網址,且該目標網址為~,。為了進一步提高網址導航的精度,本發明的優選實施例中還可以包括驗證的步驟,即在判斷出某連結文本上呈現的文字具有符合預置條件的目標網址後,對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,只有驗證通過,才執行所述保存的步驟。此時可以將上述過程得到的連結文本上呈現的文字-目標網址對(a,、)看作是導航查詢候選集合。其中,驗證的過程可以如下進行將導航查詢候選集合中的連結文本上呈現的文字作為查詢詞發送到多家搜尋引擎進行搜索,比較^與各搜尋引擎返回的排在第一位的搜索結果進行比較,如果一致,則認為a是導航查詢,且其目標網址為、。與上述本發明實施例提供的網址導航的方法相對應,本發明實施例還提供了一種網址導航的系統,參見圖7,該系統包括連結文本分析單元U701,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;判斷單元U702,用於對於一連結文本上呈現的文字,判斷是否存在指向次數符合預置條件的目標網址;導航查詢資料庫U703,用於保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係;接口單元U704,用於接收用戶輸入的查詢詞,並展示相應的目標網址;;險索單元U705,用於斥企索所述導航查詢資料庫,向用戶返回與所述查詢詞相匹酉己的目標網址。連結文本分析單元U7G1分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的各目標網址;然後對於每個連結文本上呈現的文字,判斷單元U702判斷是否存在指向次數符合某預置條件的目標網址;如果存在符合所述預置條件的目標網址,資料庫建立單元U703則保存該連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,這樣就建立了導航查詢資料庫。當用戶需要查詢某網址時,接口單元U704接收用戶輸入的查詢詞,檢索單元U705檢索所述導航查詢資料庫,如果存在與用戶輸入的查詢詞相匹配的導航查詢,則返回該導航查詢對應的目標網址,並由接口單元U704展示給用戶。在本發明的優選實施例中,參見圖8,該系統還可以包括選擇單元U806,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL格式的目標網址輸入到判斷單元U802。即,只需判斷符合URL格式的目標網址中是否存在符合預置條件的目標網址。校驗單元U807,用於在判斷出某連結文本上呈現的文字具有符合預置條件的目標網址後,對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行—驗證,如果一驗i正通過,該連結文本-目標地址對才會保存在導關元查詢資料庫中。在實際應用中,可以利用現有的搜尋引擎系統進行驗證,因此校驗單元U807可以包括以下子單元發送子單元U8071,用於將連結文本上呈現的文字作為查詢詞發送到至少一個搜尋引擎進行搜索;比較子單元U8072,用於比較各搜索51擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過,並觸發所述資料庫建立單元執行所述保存的操作。其中,可以通過統計連結文本上呈現的文字的集中度的方式來判斷是否存在符合預置條件的目標網址。因此,判斷單元U802可以包括以下子單元統計子單元U8021,用於對於一條連結文本上呈現的文字a,統計其出現的總次數7V0),並統計呈現該文字a的各連結文本所指向的目標網址,對於每一個目標網址t,統計呈現該文字a的各連結文本指向該目標網址的次數iV(W),獲取呈現該文字a的各連結文本指向次數最多的目標網址L,並統計指向該目標網址^的次悽tA^人);計算子單元U8022,用於計算iV(a,U與W(")的比值,並將其作為該連結文本上呈現的文字a的集中度,判斷該集中度是否大於某預置閾值,如果大於,則該連結文本上呈現的文字存在符合所述預置條件的目標網址,且該目標網址為C。其中,圖8中的連結文本分析單元U801及導航查詢資料庫U803,與圖7中的連結文本分析單元U701及導航查詢資料庫U703相同。參見圖9,本發明實施例提供了另一種網址導航的方法,該方法包括以下步驟S901:接收用戶輸入的查詢詞;S902:分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的各目標網址;S903:在所述各目標網址中,判斷是否存在符合預置條件的目標網址;S904:如果存在,向用戶返回所述符合預置條件的目標網址。,該實施例才是供的網址導^^的方法與前述網址導^t方法的不同之處在於,該方法不需要建立導航查詢資料庫,當接收到用戶輸入的查詢詞時,直接分析連結文本資料庫中是否存在與所述查詢詞相匹配的連結文本上呈現的文字,如果存在,則獲取呈現該文字的各連結文本所指向的各目標網址,然後直接判斷是否存在符合某預置條件的目標網址,如果存在,則認為用戶想要進行導航查詢,並將所述符合預置條件的目標網址返回給用戶。同樣,由於有些連結文本可能並不標準,使得點擊該連結時可能存在"該連結不存在"或"該連結為空"等現象。因此,在本發明的優選實施例中,可以先將這些目標網址過濾掉。優選的,可以通過以下方式進行過濾判斷各目標網址是否符合URL格式,將不符合URL格式的目標網址過濾掉,然後只判斷符合URL格式的目標網址中,是否存在符合預置條件的目標網址。其中,判斷是否存在符合預置條件的目標網址的方法也可以如前述實施例進行,即統計連結文本上呈現的文字a出現的總次數iV(a),及呈現該文字a的各連結文本指向次數最多的目標網址L,並獲取指向該目標網址^的次數判斷iV(fl人)與AA(fl)的比值是否大於預置閾值,如果大於,則該目標網址/符合預置條件。與圖9中描述的網址導航方法相對應,本發明實施例還提供了一種網址導航系統,參見圖10,該系統包括接口單元U1001,用於接收用戶輸入的查詢詞,並展示相應的目標網址;連結文本分析單元U1002,用於分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的目標網址;判斷單元U1003,用於在所述各目標網址中,判斷是否存在符合預置條件的目標網址;如果存在,將所述符合預置條件的目標網址通過所述接口單元向用戶展示。優選的,參見圖11,該系統還可以包括選擇單元U1104,用於選擇符合統一資源定位符URL才各式的目標網址,並將所述符合URL才各式的目標網址輸入到所述判斷單元。其中,判斷單元U1103可以包括以下子單元統計子單元U11031,用於統計連結文本上呈現的文字a出現的總次數及呈現該文字a的各連結文本所指向次數最多的目標網址^,並獲取被指向該目才示網址的次悽tl);計算子單元ui1032,用於判斷iV(。,u與W(。)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。以上對本發明所提供的一種建立導4元查詢資料庫的方法及裝置、一種網址導航的方法及系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處。綜上所述,本說明書內容不應理解為對本發明的限制。權利要求1.一種建立導航查詢資料庫的方法,其特徵在於,包括分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;如果存在,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。2、根據權利要求1所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址之前還包括選捧符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。3、根據權利要求1所述的方法,其特徵在於,還包括對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果-險證通過,則進入所述保存的步驟。4、根據權利要求2所述的方法,其特徵在於將連結文本上呈現的文字作為查詢詞發送到多個搜尋引擎進行搜索,比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則-驗證通過。5、根據權利要求1至4任意一項所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數iV(a),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址^的次itiV(fl人);判斷W(a,U與iV(a)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。6、一種建立導航查詢資料庫的裝置,其特徵在於,包括連結文本分析單元,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;判斷單元,用於對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;資料庫建立單元,用於當存在符合預置條件的目標網址時,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。7、根據權利要求6所述的裝置,其特徵在於,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL才各式的目標網址輸入到所述判斷單元。8、才艮據權利要求6所述的裝置,其特徵在於,還包括衝t驗單元,用於對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果驗證通過,則觸發所述資料庫建立單元執行所述保存的操作。9、根據權利要求8所述的裝置,其特徵在於,所述校驗單元包括發送子單元,用於將連結文本上呈現的文字作為查詢詞發送到至少一個搜尋引擎進行搜索;比較子單元,用於比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過,並觸發所述資料庫建立單元執行所述保存的操作。10、根據權利要求6至9任意一項所述的裝置,其特徵在於,所述判斷單元包括統計子單元,用於統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數iV(fl),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址l的次數iV(a,c);計算子單元,用於判斷iV"D與iV(a)的比值是否大於預置閾值,,如果大於,則該目標網址^符合預置條件。11、一種網址導航方法,其特徵在於,包括分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;如果存在,保存連結文本上呈現的文字及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫;接收用戶輸入的查詢詞,才企索所述導航查詢資料庫,向用戶返回與所述查詢詞相匹配的網址。12、根據權利要求11所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址之前還包括選捧符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。13、根據權利要求11所述的方法,其特徵在於,還包括對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進行驗證,如果—險證通過,則進入所述保存的步驟。14、根據權利要求13所述的方法,其特徵在於將連結文本上呈現的文字作為查詢詞發送到多個搜尋引擎進行搜索,比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過。15、根據權利要求11至14任意一項所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數7V("),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址^的次數iV(a,U;判斷iV("人)與A^)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。16、一種網址導航系統,其特徵在於,包括連結文本分析單元,用於分析連結文本資料庫,獲取連結文本上呈現的文字及呈現該文字的各連結文本所指向的目標網址;判斷單元,用於對於一連結文本上呈現的文字,判斷是否存在符合預置條件的目標網址;導航查詢資料庫,用於保存連結文本上呈現的文字及所述符合預置條件的目才示網址的對應關係;4妄口單元,用於4妻收用戶l命入的查詢詞,並展示相應的目標網址;才企索單元,用於才企索所述導航查詢資料庫,向用戶返回與所述查詢詞相匹配的目才示網址。17、根據權利要求16所述的系統,其特徵在於,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL格式的目標網址輸入到所述判斷單元。18、根據權利要求16所述的系統,其特徵在於,還包括校驗單元,用於對連結文本上呈現的文字及對應的所述符合預置條件的目標網址進^f亍一驗證。19、根據權利要求18所述的裝置,其特徵在於,所述校驗單元包括發送子單元,用於將連結文本上呈現的文字作為查詢詞發送到多個:l叟索引擎進行搜索;比較子單元,用於比較各搜尋引擎返回的第一位的結果與所述符合預置條件的目標網址是否一致,如果是,則驗證通過。20、根據權利要求16至19任意一項所述的裝置,其特徵在於,所述判斷單元包括統計子單元,用於統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數iV("),及呈現該文字a的各連結文本指向次數最多的目標網址/,並獲取指向該目標網址^的次數^);計算子單元,用於判斷iV(a人)與A^)的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。21、一種網址導4元方法,其特徵在於,包括才妄收用戶輸入的查詢詞;分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的目標網址;在所述各目標網址中,判斷是否存在符合預置條件的目標網址;如果存在,向用戶返回所述符合預置條件的目標網址。22、根據權利要求21所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址之前還包括選擇符合統一資源定位符URL格式的目標網址,並對所述符合URL格式的目標網址進行所述判斷的步驟。23、根據權利要求21或22所述的方法,其特徵在於,所述判斷是否存在符合預置條件的目標網址的具體實現包括統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數iV(fl),及呈現該文字a的各連結文本指向次數最多的目標網址^,並獲取指向該目標網址^的次數7V(a,0;判斷7V(a,U與W(")的比值是否大於預置閾值,如果大於,則該目標網址^符合預置條件。24、一種網址導航系統,其特徵在於,包括接口單元,用於接收用戶輸入的查詢詞,並展示相應的目標網址;連結文本分析單元,用於分析連結文本資料庫,獲取與所述查詢詞相匹配的連結文本上呈現的文字,並獲取呈現該文字的各連結文本所指向的目標網址;判斷單元,用於在所述各目標網址中,判斷是否存在符合預置條件的目標網址;如果存在,將所述符合預置條件的目標網址通過所述接口單元向用戶展示。25、根據權利要求24所述的系統,其特徵在於,還包括選擇單元,用於選擇符合統一資源定位符URL格式的目標網址,並將所述符合URL才各式的目標網址輸入到所述判斷單元。26、根據權利要求24或25所述的系統,其特徵在於,所述判斷單元包括統計子單元,用於統計連結文本上呈現的文字a在連結文本資料庫中出現的總次數7V&),及呈現該文字a的各連結文本指向次數最多的目標網址t,,並獲取指向該目標網址f的次數iV(a,^);計算子單元,用於判斷A^人)與A^)的比值是否大於預置閾值,如果大於,則該目標網址c符合預置條件。全文摘要本發明公開了一種建立導航查詢資料庫的方法,該方法包括分析連結文本資料庫,獲取連結文本及其指向的各目標網址;對於一連結文本,判斷是否存在指向次數符合預置條件的目標網址;如果存在,保存連結文本及所述符合預置條件的目標網址的對應關係,建立導航查詢資料庫。本發明還公開了一種建立導航查詢資料庫的裝置、一種網址導航方法及系統。通過本發明,可以發現更大規模的導航查詢,增大了導航資料庫的覆蓋面。同時,由於連結文本通常是由網站作者生成的,因此用於導航查詢發現的數據質量更高,使獲得的導航查詢更加規範、噪音較少。文檔編號G06F17/30GK101369286SQ20081022441公開日2009年2月18日申請日期2008年10月14日優先權日2008年10月14日發明者佟子健,勇王申請人:北京搜狗科技發展有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀