新四季網

提高網站站內搜索效率的方法和裝置與流程

2023-10-28 19:01:11 4


本申請涉及搜索領域,具體而言,涉及一種提高網站站內搜索效率的方法和裝置。



背景技術:

在以往網站建設、企業信息系統搭建過程中,由於信息結構簡單、內容稀缺,站內搜索不是網站系統的必要裝備。但隨著Web2.0帶來的海量信息井噴式湧現,企業自身對信息架構、管理、發布的需求,以及用戶對信息的組織、查詢、可尋性的要求越來越高,於是站內搜索出現了。

通常情況下,用戶在進行網站站內搜索時,如果結果頁中沒有想要的結果,會通過改變搜索關鍵詞的方式繼續嘗試找到自己想要的結果。

在用戶找到想要的頁面之前,可能會經歷數次無效的搜索,不能快速找到目標頁面。

針對上述的問題,目前尚未提出有效的解決方案。



技術實現要素:

本申請實施例提供了一種提高網站站內搜索效率的方法和裝置,以至少解決現有技術中用戶搜索效率比較低的技術問題。

根據本申請實施例的一個方面,提供了一種提高網站站內搜索效率的方法,包括:從訪問目標網站的訪問日誌中,提取表示所述目標網站的站內搜索結果頁的統一資源定位符URL;根據所述目標網站的站內搜索結果頁的URL,確定用於匹配所述目標網站的站內搜索結果頁的匹配式;從所述訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,所述第一關鍵詞和所述第二關鍵詞均為用於在所述目標網站進行站內搜索的關鍵詞,所述第一搜索結果頁為接收到所述第一關鍵詞後加載的頁面,所述第一目標頁面為加載出的所述第一搜索結果頁中任一搜索結果表示的頁面,所述第二關鍵詞為在接收到所述第一關鍵詞之前接收到的關鍵詞,並且在接收到所述第二關鍵詞後,所述目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,所述第二搜索結果頁為接收到所述第二關鍵詞後加載的頁面;利用所述匹配式對所述第一搜索結果頁的URL進行匹配;以及在所述匹配式與所述第一搜索 結果頁的URL匹配成功的情況下,關聯所述第二關鍵詞和所述第一目標頁面。

進一步地,關聯所述第二關鍵詞和所述第一目標頁面包括:添加所述第二關鍵詞至所述第一目標頁面的頁面標籤。

進一步地,所述匹配式為正則表達式,利用所述匹配式對所述第一搜索結果頁的URL進行匹配包括:判斷所述第一搜索結果頁的URL中表示主機名的欄位與所述正則表達式中表示域名的欄位是否相同,其中,在所述第一搜索結果頁的URL中表示主機名的欄位與所述正則表達式中表示域名的欄位相同的情況下,確定所述匹配式與所述第一搜索結果頁的URL匹配成功。

進一步地,在從訪問目標網站的訪問日誌中,提取表示所述目標網站的站內搜索結果頁的統一資源定位符URL之前,所述方法還包括:在所述目標網站部署日誌獲取程序;以及運行所述日誌獲取程序以獲取所述訪問日誌。

進一步地,從訪問目標網站的訪問日誌中,提取表示所述目標網站的站內搜索結果頁的統一資源定位符URL包括:從所述訪問日誌中提取URL域名為所述目標網站的域名的URL,得到所述目標網站的站內搜索結果頁的URL。

根據本申請實施例的另一方面,提供了一種提高網站站內搜索效率的裝置,包括:第一提取單元,用於從訪問目標網站的訪問日誌中,提取表示所述目標網站的站內搜索結果頁的統一資源定位符URL;確定單元,用於根據所述目標網站的站內搜索結果頁的URL,確定用於匹配所述目標網站的站內搜索結果頁的匹配式;第二提取單元,用於從所述訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,所述第一關鍵詞和所述第二關鍵詞均為用於在所述目標網站進行站內搜索的關鍵詞,所述第一搜索結果頁為接收到所述第一關鍵詞後加載的頁面,所述第一目標頁面為加載出的所述第一搜索結果頁中任一搜索結果表示的頁面,所述第二關鍵詞為在接收到所述第一關鍵詞之前接收到的關鍵詞,並且在接收到所述第二關鍵詞後,所述目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,所述第二搜索結果頁為接收到所述第二關鍵詞後加載的頁面;匹配單元,用於利用所述匹配式對所述第一搜索結果頁的URL進行匹配;以及關聯單元,用於在所述匹配式與所述第一搜索結果頁的URL匹配成功的情況下,關聯所述第二關鍵詞和所述第一目標頁面。

進一步地,所述關聯單元包括:添加子單元,用於添加所述第二關鍵詞至所述第一目標頁面的頁面標籤。

進一步地,所述匹配式為正則表達式,所述匹配單元包括:判斷子單元,用於判斷所述第一搜索結果頁的URL中表示主機名的欄位與所述正則表達式中表示域名的字 段是否相同,其中,在所述第一搜索結果頁的URL中表示主機名的欄位與所述正則表達式中表示域名的欄位相同的情況下,確定所述匹配式與所述第一搜索結果頁的URL匹配成功。

進一步地,所述裝置包括:部署單元,用於在所述第一提取單元從訪問目標網站的訪問日誌中,提取表示所述目標網站的站內搜索結果頁的統一資源定位符URL之前,在所述目標網站部署日誌獲取程序;以及運行單元,用於運行所述日誌獲取程序以獲取所述訪問日誌。

進一步地,所述第一提取單元包括:提取子單元,用於從所述訪問日誌中提取URL域名為所述目標網站的域名的URL,得到所述目標網站的站內搜索結果頁的URL。

在本申請實施例中,採用從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL,根據目標網站的站內搜索結果頁的URL,確定用於匹配目標網站的站內搜索結果頁的匹配式,從訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,第一關鍵詞和第二關鍵詞均為用於在目標網站進行站內搜索的關鍵詞,第一搜索結果頁為接收到第一關鍵詞後加載的頁面,第一目標頁面為加載出的第一搜索結果頁中任一搜索結果表示的頁面,第二關鍵詞為在接收到第一關鍵詞之前接收到的關鍵詞,並且在接收到第二關鍵詞後,目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,第二搜索結果頁為接收到第二關鍵詞後加載的頁面,利用匹配式對第一搜索結果頁的URL進行匹配,以及在匹配式與第一搜索結果頁的URL匹配成功的情況下,關聯第二關鍵詞和第一目標頁面。通過讀取用戶的訪問日誌,得到用戶使用的關鍵詞、訪問過的頁面的URL,根據目標網站的站內搜索結果頁的URL,構造能夠匹配目標網站的站內搜索結果頁的匹配式,使用匹配式對用戶的搜索結果頁進行匹配,篩選出用戶進行站內搜索的搜索結果頁。把本次有效站內搜索之前進行的無效搜索的關鍵詞與本次有效站內搜索所搜索出的目標網站頁面進行關聯,使用戶輸入無效搜索關鍵詞後也能搜索出想要的頁面,解決了現有技術中網站站內搜索效率低的技術問題,達到了提高網站站內搜索效率的技術效果。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:

圖1是根據本申請實施例的一種提高網站站內搜索效率的方法的流程圖;以及

圖2是根據本申請實施例的一種提高網站站內搜索效率的裝置的示意圖。

具體實施方式

為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。

需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本申請的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。

首先對本申請實施例所涉及的技術術語作如下解釋:

統一資源定位符(Uniform Resource Locator,簡稱,URL):統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的地址。網際網路上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

正則表達式:又稱正規表示法、常規表示法,是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。在很多文本編輯器裡,正則表達式通常被用來檢索、替換那些符合某個模式的文本。

根據本申請實施例,提供了一種提高網站站內搜索效率的方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。

圖1是根據本申請實施例的一種提高網站站內搜索效率的方法的流程圖,如圖1所示,該方法包括如下步驟S102至步驟S110:

步驟S102,從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL,即從訪問日誌中提取出目標網站的站內搜索結果頁的URL。

步驟S104,根據目標網站的站內搜索結果頁的URL,確定用於匹配目標網站的站內搜索結果頁的匹配式,即根據目標網站站內搜索結果頁的URL,確定出匹配式,該匹配式滿足的條件是:用它匹配目標網站的站內搜索結果頁URL時,匹配成功,否則,匹配失敗。

步驟S106,從訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,第一關鍵詞和第二關鍵詞均為用於在目標網站進行站內搜索的關鍵詞,第一搜索結果頁為接收到第一關鍵詞後加載的頁面,第一目標頁面為加載出的第一搜索結果頁中任一搜索結果表示的頁面,第二關鍵詞為在接收到第一關鍵詞之前接收到的關鍵詞,並且在接收到第二關鍵詞後,目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,第二搜索結果頁為接收到第二關鍵詞後加載的頁面。即,從訪問日誌中提取出用戶進行搜索的關鍵詞、用戶輸入關鍵詞後加載出的頁面、該加載出來的頁面的搜索結果所指向的頁面中那些被用戶點擊過的頁面。其中,第一關鍵詞為用戶輸入之後,對其搜索結果頁的搜索結果指向的頁面又進行了訪問的關鍵詞,也就是有效搜索關鍵詞。用戶輸入第一關鍵詞後,加載出來的頁面為第一搜索結果頁,第一搜索結果頁的搜索結果指向的多個頁面中那些被用戶訪問過的頁面為第一目標頁面,第一目標頁面可以為多個。第二關鍵詞為用戶輸入之後,對其搜索結果頁指向的頁面未進行任何訪問的關鍵詞,也就是無效搜索關鍵詞。用戶輸入第二關鍵詞後,加載出來的頁面為第二搜索結果頁。

步驟S108,利用匹配式對第一搜索結果頁的URL進行匹配。即,利用匹配式對第一搜索結果頁的URL進行匹配,篩選出目標網站站內搜索的搜索結果頁。如果匹配成功,說明該第一搜索結果頁為目標網站的站內搜索的搜索結果頁,如果匹配失敗,說明該第一搜索結果頁不是目標網站的站內搜索的搜索結果頁。

步驟S110,在匹配式與第一搜索結果頁的URL匹配成功的情況下,關聯第二關鍵詞和第一目標頁面。當匹配式與第一搜索結果頁的URL匹配成功時,說明該第一搜索結果頁是目標網站站內搜索的搜索結果頁。此時,把第二關鍵詞和第一目標頁面進行關聯,即,當第一搜索結果頁是目標網站站內搜索的搜索結果頁時,把之前的無效搜索關鍵詞與第一目標頁面進行關聯。

需要注意的是,本申請實施例中的網站均只能提供站內搜索功能,不能提供站外搜索功能。

例如,用戶在A網站輸入關鍵詞「國慶閱兵」,進行站內搜索,得到一個搜索結果頁,假設該搜索結果頁中某一條搜索結果為「國慶閱兵有七大不同」,在用戶點擊了該搜索結果後,得到了一個第一目標頁面。另一條搜索結果為「新中國14次國慶閱兵| 海軍陸戰隊|步兵」,在用戶點擊了該搜索結果後,又得到了另一個第一目標頁面。由於用戶對搜索結果頁中的搜索結果進行了點擊(可以是點擊一個搜索結果,也可以是點擊多個搜索結果),所以該次搜索的關鍵詞「國慶閱兵」是第一關鍵詞,也稱為有效搜索關鍵詞。用戶輸入第一關鍵詞後加載出的頁面,為第一搜索結果頁,第一搜索結果頁所指向的頁面中那些被用戶點擊過的頁面為第一目標頁面。

又例如,用戶在B網站輸入關鍵詞「國慶放假」,進行站內搜索,得到一個搜索結果頁。用戶對該搜索結果頁的各條搜索結果未進行任何點擊,接著又輸入了關鍵詞「國慶放假遊玩」,進行站內搜索,得到一個搜索結果頁。假設該搜索結果頁中某一條搜索結果為「『十一』出境遊進入倒計時|遊客|出遊」,在用戶點擊了該搜索結果後,得到了一個第一目標頁面。由於用戶使用關鍵詞「國慶放假」進行搜索時,對搜索結果頁的各條搜索結果未進行任何點擊,所以關鍵詞「國慶放假」是第二關鍵詞,說明用戶沒有在搜索結果頁中找到想要的搜索結果,因此,關鍵詞「國慶放假」是無效搜索關鍵詞。用戶輸入第二關鍵詞後加載出來的頁面,為第二搜索結果頁。由於用戶使用關鍵詞「國慶放假出遊」進行搜索時,對得到的站內搜索結果頁中的搜索結果進行了點擊,所以關鍵詞「國慶放假出遊」是第一關鍵詞。用戶輸入第一關鍵詞後加載出的頁面,為第一搜索結果頁,第一搜索結果頁所指向的頁面中那些被用戶點擊過的頁面為第一目標頁面。把關鍵詞「國慶放假」與用戶使用關鍵詞「國慶放假出遊」進行搜索得到的第一目標頁面建立關聯,這樣當用戶使用關鍵詞「國慶放假」進行搜索時,也能搜索出該第一目標頁面。

本申請實施例所提供的提高網站站內搜索效率的方法,通過讀取用戶的訪問日誌,得到用戶使用的關鍵詞、訪問過的頁面的URL,根據目標網站的站內搜索結果頁的URL,構造能夠匹配目標網站的站內搜索結果頁的匹配式,使用匹配式對用戶的搜索結果頁進行匹配,篩選出用戶進行站內搜索的搜索結果頁。把本次有效站內搜索之前進行的無效搜索的關鍵詞與本次有效站內搜索所搜索出的目標網站頁面進行關聯,使用戶輸入無效搜索關鍵詞後也能搜索出想要的頁面,解決了現有技術中網站站內搜索效率低的技術問題,達到了提高網站站內搜索效率的技術效果。

可選地,關聯第二關鍵詞和第一目標頁面包括:添加第二關鍵詞至第一目標頁面的頁面標籤。即,通過把無效搜索的關鍵詞添加到第一目標頁面的頁面標籤中,使無效搜索的關鍵詞和第一目標頁面建立關聯,使用戶使用無效搜索關鍵詞也能搜索到想要的頁面。也就是說,關聯無效搜索關鍵詞和有效搜索關鍵詞所搜索出來的站內頁面的方法,可以是把無效搜索關鍵詞添加到有效搜索關鍵詞所搜索出來的站內頁面的頁面標籤中。

例如,用戶一共進行了5次站內搜索。下面使用A、B、C、D、E表示用戶輸入的搜索關鍵詞。

用戶第一次站內搜索輸入的搜索關鍵詞為A,加載出搜索結果頁,搜索結果頁用pageA表示,用戶點擊了搜索結果頁pageA的兩條搜索結果所指向的頁面,這兩個頁面分別用pageA1和pageA2表示。

用戶第二次站內搜索輸入的搜索關鍵詞為B,加載出搜索結果頁,搜索結果頁用pageB表示,用戶點擊了搜索結果頁pageB的一條搜索結果所指向的頁面,這個頁面用pageB1表示。

用戶第三次站內搜索輸入的搜索關鍵詞為C,加載出搜索結果頁,搜索結果頁用pageC表示,用戶未點擊搜索結果頁pageC的任何搜索結果所指向的頁面。

用戶第四次站內搜索輸入的搜索關鍵詞為D,加載出搜索結果頁,搜索結果頁用pageD表示,用戶未點擊搜索結果頁pageD的任何搜索結果所指向的頁面。

用戶第五次站內搜索輸入的搜索關鍵詞為E,加載出搜索結果頁,搜索結果頁用pageE表示,用戶點擊了搜索結果頁pageE的其中一條搜索結果所指向的頁面,這個頁面用pageE1表示。

用戶輸入關鍵詞A之後,對搜索結果頁的搜索結果所指向的頁面進行了訪問,因此關鍵詞A是第一關鍵詞,也就是有效搜索關鍵詞,關鍵詞A的搜索結果頁pageA是第一搜索結果頁,頁面pageA1和pageA2為第一目標頁面。

用戶輸入關鍵詞B之後,對搜索結果頁的搜索結果所指向的頁面進行了訪問,因此關鍵詞B是第一關鍵詞,也就是有效搜索關鍵詞,關鍵詞B的搜索結果頁pageB是第一搜索結果頁,頁面pageB1為第一目標頁面。

用戶輸入關鍵詞C之後,未點擊搜索結果頁的任何搜索結果所指向的頁面,因此,關鍵詞C是第二關鍵詞,也就是無效搜索關鍵詞,關鍵詞C的搜索結果頁pageC是第二搜索結果頁。

依此類推,關鍵詞D是第二關鍵詞,也就是無效搜索關鍵詞。關鍵詞D的搜索結果頁pageD是第二搜索結果頁。

關鍵詞E是第一關鍵詞,也就是有效搜索關鍵詞。關鍵詞E的搜索結果頁pageE是第一搜索結果頁。頁面pageE1為第一目標頁面。

將第二關鍵詞C與第二關鍵詞D添加到第一目標頁面pageE1的頁面標籤中,使得 用戶在使用關鍵詞C和關鍵詞D進行站內搜索也能搜索出頁面pageE1。

可選地,匹配式為正則表達式,利用匹配式對第一搜索結果頁的URL進行匹配包括:判斷第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位是否相同,其中,在第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位相同的情況下,確定匹配式與第一搜索結果頁的URL匹配成功。即,使用正則表達式對第一搜索結果頁進行匹配,如果第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位相同,則匹配成功,說明該第一搜索結果頁是目標網站站內搜索結果頁。

正則表達式有很多用法,例如:替換指定內容到行尾、數字替換、刪除每一行行尾的指定字符、匹配字符串,等等。

比如有兩個字符串:「123451265345」和「2345」,需要刪除每個字符串末尾的「345」。解決方法如下:在替換對話框中,啟用「正則表達式」複選框,在查找內容裡面輸入「345$」,其中,「$」表示從行尾匹配。

可以使用正則表達式作為匹配式,用於匹配URL的正則表達式可以為以下形式:「^http://([\\w-]+\.)+[\\w-]+(/[\\w-./?%&=]*)?$」。

在鳳凰網輸入搜索關鍵詞「天津爆炸」,選擇站內搜索,搜索結果頁的搜索結果指向的部分頁面的URL為:

http://news.ifeng.com/a/20150814/44423078_0.shtml

http://news.ifeng.com/a/20150815/44433711_0.shtml

http://news.ifeng.com/a/20150813/44417356_0.shtml

http://news.ifeng.com/a/20150829/44546931_0.shtml

從上面幾條URL可以看出它們的域名都為news.ifeng.com,只是後面的路徑不同,因此可以通過判斷URL表示主機名的欄位與正則表達式中表示域名的欄位是否相同來判斷是否為目標網站站內頁面,如果URL表示主機名的欄位與正則表達式中表示域名的欄位相同,則該URL為目標網站站內頁面。

可選地,在從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL之前,方法包括:在目標網站部署日誌獲取程序;以及運行日誌獲取程序以獲取訪問日誌。即,通過在目標網站部署並運行日誌獲取程序來獲取用戶訪問日誌。其中,用戶訪問日誌記錄了用戶在目標網站的訪問信息,可以包括用戶 輸入的搜索關鍵詞、點擊的頁面、在頁面的停留時間,等等。

可選地,從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL包括:從訪問日誌中提取URL域名為目標網站的域名的URL,得到目標網站的站內搜索結果頁的URL。即,如果某一個URL的域名與目標網站的域名相同,則這個URL所表示的頁面是這個目標網站的站內頁面。

根據本申請實施例,還提供了一種提高網站站內搜索效率的裝置。該提高網站站內搜索效率的裝置可以執行上述提高網站站內搜索效率的方法,上述提高網站站內搜索效率的方法也可以通過該提高網站站內搜索效率的裝置實施。

圖2是根據本申請實施例的一種提高網站站內搜索效率的裝置的示意圖。如圖2所示,該裝置包括第一提取單元20、確定單元22、第二提取單元24、匹配單元26和關聯單元28。

第一提取單元20,用於從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL。即從訪問日誌中提取出目標網站的站內搜索結果頁的URL。

確定單元22,用於根據目標網站的站內搜索結果頁的URL,確定用於匹配目標網站的站內搜索結果頁的匹配式。即根據目標網站站內搜索結果頁的URL,確定出匹配式,該匹配式滿足的條件是:用它匹配目標網站的站內搜索結果頁URL時,匹配成功,否則,匹配失敗。

第二提取單元24,用於從訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,第一關鍵詞和第二關鍵詞均為用於在目標網站進行站內搜索的關鍵詞,第一搜索結果頁為接收到第一關鍵詞後加載的頁面,第一目標頁面為加載出的第一搜索結果頁中任一搜索結果表示的頁面,第二關鍵詞為在接收到第一關鍵詞之前接收到的關鍵詞,並且在接收到第二關鍵詞後,目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,第二搜索結果頁為接收到第二關鍵詞後加載的頁面。即,從訪問日誌中提取出用戶進行搜索的關鍵詞、用戶輸入關鍵詞後加載出的頁面、該加載出來的頁面的搜索結果所指向的頁面中那些被用戶點擊過的頁面。其中,第一關鍵詞為用戶輸入之後,對其搜索結果頁的搜索結果指向的頁面又進行了訪問的關鍵詞,也就是有效搜索關鍵詞。用戶輸入第一關鍵詞後,加載出來的頁面為第一搜索結果頁,第一搜索結果頁的搜索結果指向的多個頁面中那些被用戶訪問過的頁面為第一目標頁面,第一目標頁面可以為多個。第二關鍵詞為用戶輸入之後,對其搜索結果頁指向的頁面未進行任何訪問的關鍵詞,也就是無效搜索關鍵詞。用戶輸入 第二關鍵詞後,加載出來的頁面為第二搜索結果頁。

匹配單元26,用於利用匹配式對第一搜索結果頁的URL進行匹配。即,利用匹配式對第一搜索結果頁的URL進行匹配,篩選出目標網站站內搜索的搜索結果頁。如果匹配成功,說明該第一搜索結果頁為目標網站的站內搜索的搜索結果頁,如果匹配失敗,說明該第一搜索結果頁不是目標網站的站內搜索的搜索結果頁。

關聯單元28,用於在匹配式與第一搜索結果頁的URL匹配成功的情況下,關聯第二關鍵詞和第一目標頁面。即,當第一搜索結果頁是目標網站站內搜索的搜索結果頁時,把之前的無效搜索關鍵詞與第一目標頁面進行關聯。

需要注意的是,本申請實施例中的網站均只能提供站內搜索功能,不能提供站外搜索功能。

例如,用戶在A網站輸入關鍵詞「國慶閱兵」,進行站內搜索,得到一個搜索結果頁,假設該搜索結果頁中某一條搜索結果為「國慶閱兵有七大不同」,在用戶點擊了該搜索結果後,得到了一個第一目標頁面。另一條搜索結果為「新中國14次國慶閱兵|海軍陸戰隊|步兵」,在用戶點擊了該搜索結果後,又得到了另一個第一目標頁面。由於用戶對搜索結果頁中的搜索結果進行了點擊(可以是點擊一個搜索結果,也可以是點擊多個搜索結果),所以該次搜索的關鍵詞「國慶閱兵」是第一關鍵詞,也稱為有效搜索關鍵詞。用戶輸入第一關鍵詞後加載出的頁面,為第一搜索結果頁,第一搜索結果頁所指向的頁面中那些被用戶點擊過的頁面為第一目標頁面。

又例如,用戶在B網站輸入關鍵詞「國慶放假」,進行站內搜索,得到一個搜索結果頁。用戶對該搜索結果頁的各條搜索結果未進行任何點擊,接著又輸入了關鍵詞「國慶放假遊玩」,進行站內搜索,得到一個搜索結果頁。假設該搜索結果頁中某一條搜索結果為「『十一』出境遊進入倒計時|遊客|出遊」,在用戶點擊了該搜索結果後,得到了一個第一目標頁面。由於用戶使用關鍵詞「國慶放假」進行搜索時,對搜索結果頁的各條搜索結果未進行任何點擊,所以關鍵詞「國慶放假」是第二關鍵詞,說明用戶沒有在搜索結果頁中找到想要的搜索結果,因此,關鍵詞「國慶放假」是無效搜索關鍵詞。用戶輸入第二關鍵詞後加載出來的頁面,為第二搜索結果頁。由於用戶使用關鍵詞「國慶放假出遊」進行搜索時,對得到的站內搜索結果頁中的搜索結果進行了點擊,所以關鍵詞「國慶放假出遊」是第一關鍵詞。用戶輸入第一關鍵詞後加載出的頁面,為第一搜索結果頁,第一搜索結果頁所指向的頁面中那些被用戶點擊過的頁面為第一目標頁面。把關鍵詞「國慶放假」與用戶使用關鍵詞「國慶放假出遊」進行搜索得到的第一目標頁面建立關聯,這樣當用戶使用關鍵詞「國慶放假」進行搜索時,也能搜索出該第一目標頁面。

本申請實施例所提供的提高網站站內搜索效率的裝置,通過讀取用戶的訪問日誌,得到用戶使用的關鍵詞、訪問過的頁面的URL,根據目標網站的站內搜索結果頁的URL,構造能夠匹配目標網站的站內搜索結果頁的匹配式,使用匹配式對用戶的搜索結果頁進行匹配,篩選出用戶進行站內搜索的搜索結果頁。把本次有效站內搜索之前進行的無效搜索的關鍵詞與本次有效站內搜索所搜索出的目標網站頁面進行關聯,使用戶輸入無效搜索關鍵詞後也能搜索出想要的頁面,解決了現有技術中網站站內搜索效率低的技術問題,達到了提高網站站內搜索效率的技術效果。

可選地,關聯單元包括添加子單元。該添加子單元用於添加第二關鍵詞至第一目標頁面的頁面標籤。即,通過把無效搜索的關鍵詞添加到第一目標頁面的頁面標籤中,使無效搜索的關鍵詞和第一目標頁面建立關聯,使用戶使用無效搜索關鍵詞也能搜索到想要的頁面。也就是說,關聯無效搜索關鍵詞和有效搜索關鍵詞所搜索出來的站內頁面的方法,可以是把無效搜索關鍵詞添加到有效搜索關鍵詞所搜索出來的站內頁面的頁面標籤中。

例如,用戶一共進行了5次站內搜索。下面使用A、B、C、D、E表示用戶輸入的搜索關鍵詞。

用戶第一次站內搜索輸入的搜索關鍵詞為A,加載出搜索結果頁,搜索結果頁用pageA表示,用戶點擊了搜索結果頁pageA的兩條搜索結果所指向的頁面,這兩個頁面分別用pageA1和pageA2表示。

用戶第二次站內搜索輸入的搜索關鍵詞為B,加載出搜索結果頁,搜索結果頁用pageB表示,用戶點擊了搜索結果頁pageB的一條搜索結果所指向的頁面,這個頁面用pageB1表示。

用戶第三次站內搜索輸入的搜索關鍵詞為C,加載出搜索結果頁,搜索結果頁用pageC表示,用戶未點擊搜索結果頁pageC的任何搜索結果所指向的頁面。

用戶第四次站內搜索輸入的搜索關鍵詞為D,加載出搜索結果頁,搜索結果頁用pageD表示,用戶未點擊搜索結果頁pageD的任何搜索結果所指向的頁面。

用戶第五次站內搜索輸入的搜索關鍵詞為E,加載出搜索結果頁,搜索結果頁用pageE表示,用戶點擊了搜索結果頁pageE的其中一條搜索結果所指向的頁面,這個頁面用pageE1表示。

用戶輸入關鍵詞A之後,對搜索結果頁的搜索結果所指向的頁面進行了訪問,因此關鍵詞A是第一關鍵詞,也就是有效搜索關鍵詞,關鍵詞A的搜索結果頁pageA是第一搜索結果頁,頁面pageA1和pageA2為第一目標頁面。

用戶輸入關鍵詞B之後,對搜索結果頁的搜索結果所指向的頁面進行了訪問,因此關鍵詞B是第一關鍵詞,也就是有效搜索關鍵詞,關鍵詞B的搜索結果頁pageB是第一搜索結果頁,頁面pageB1為第一目標頁面。

用戶輸入關鍵詞C之後,未點擊搜索結果頁的任何搜索結果所指向的頁面,因此,關鍵詞C是第二關鍵詞,也就是無效搜索關鍵詞,關鍵詞C的搜索結果頁pageC是第二搜索結果頁。

依此類推,關鍵詞D是第二關鍵詞,也就是無效搜索關鍵詞。關鍵詞D的搜索結果頁pageD是第二搜索結果頁。

關鍵詞E是第一關鍵詞,也就是有效搜索關鍵詞。關鍵詞E的搜索結果頁pageE是第一搜索結果頁。頁面pageE1為第一目標頁面。

將第二關鍵詞C與第二關鍵詞D添加到第一目標頁面pageE1的頁面標籤中,使得用戶在使用關鍵詞C和關鍵詞D進行站內搜索也能搜索出頁面pageE1。

可選地,匹配式為正則表達式,匹配單元包括判斷子單元。該判斷子單元用於判斷第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位是否相同,其中,在第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位相同的情況下,確定匹配式與第一搜索結果頁的URL匹配成功。即,使用正則表達式對第一搜索結果頁進行匹配,如果第一搜索結果頁的URL中表示主機名的欄位與正則表達式中表示域名的欄位相同,則匹配成功,說明該第一搜索結果頁是目標網站站內搜索結果頁。

正則表達式有很多用法,例如:替換指定內容到行尾、數字替換、刪除每一行行尾的指定字符、匹配字符串,等等。

比如有兩個字符串:「123451265345」和「2345」,需要刪除每個字符串末尾的「345」。解決方法如下:在替換對話框中,啟用「正則表達式」複選框,在查找內容裡面輸入「345$」,其中,「$」表示從行尾匹配。

可以使用正則表達式作為匹配式,用於匹配URL的正則表達式可以為以下形式:「^http://([\\w-]+\.)+[\\w-]+(/[\\w-./?%&=]*)?$」。

在鳳凰網輸入搜索關鍵詞「天津爆炸」,選擇站內搜索,搜索結果頁的搜索結果指向的部分頁面的URL為:

http://news.ifeng.com/a/20150814/44423078_0.shtml

http://news.ifeng.com/a/20150815/44433711_0.shtml

http://news.ifeng.com/a/20150813/44417356_0.shtml

http://news.ifeng.com/a/20150829/44546931_0.shtml

從上面幾條URL可以看出它們的域名都為news.ifeng.com,只是後面的路徑不同,因此可以通過判斷URL表示主機名的欄位與正則表達式中表示域名的欄位是否相同來判斷是否為目標網站站內頁面,如果URL表示主機名的欄位與正則表達式中表示域名的欄位相同,則該URL為目標網站站內頁面。

可選地,裝置包括部署單元和運行單元。部署單元用於在第一提取單元從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL之前,在目標網站部署日誌獲取程序。運行單元,用於運行日誌獲取程序以獲取訪問日誌。即,通過在目標網站部署並運行日誌獲取程序來獲取用戶訪問日誌。其中,用戶訪問日誌記錄了用戶在目標網站的訪問信息,可以包括用戶輸入的搜索關鍵詞、點擊的頁面、在頁面的停留時間,等等。

可選地,第一提取單元包括提取子單元。該提取子單元用於從訪問日誌中提取URL域名為目標網站的域名的URL,得到目標網站的站內搜索結果頁的URL。即,如果某一個URL的域名與目標網站的域名相同,則這個URL所表示的頁面是這個目標網站的站內頁面。

所述提高網站站內搜索效率的裝置包括處理器和存儲器,上述第一提取單元20、確定單元22、第二提取單元24、匹配單元26和關聯單元28等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。

處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來在提高站內搜索效率。

存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。

本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:從訪問目標網站的訪問日誌中,提取表示目標網站的站內搜索結果頁的統一資源定位符URL,根據目標網站的站內搜索結果頁的URL,確定用於匹配目標網站的站內搜索結果頁的匹配式,從訪問日誌中提取第一關鍵詞、第二關鍵詞、第一搜索結果頁的URL、第一目標頁面,其中,第一關鍵詞和第二關鍵詞 均為用於在目標網站進行站內搜索的關鍵詞,第一搜索結果頁為接收到第一關鍵詞後加載的頁面,第一目標頁面為加載出的第一搜索結果頁中任一搜索結果表示的頁面,第二關鍵詞為在接收到第一關鍵詞之前接收到的關鍵詞,並且在接收到第二關鍵詞後,目標網站未加載第二搜索結果頁中的任一搜索結果表示的頁面,第二搜索結果頁為接收到第二關鍵詞後加載的頁面,利用匹配式對第一搜索結果頁的URL進行匹配,以及在匹配式與第一搜索結果頁的URL匹配成功的情況下,關聯第二關鍵詞和第一目標頁面。

上述本申請實施例序號僅僅為了描述,不代表實施例的優劣。

在本申請的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。

在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、伺服器或者網絡設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程序代碼的介質。

以上所述僅是本申請的優選實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護範圍。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀