新四季網

基於網上交易平臺的檢索方法、裝置和伺服器的製作方法

2023-10-11 17:23:54 1

專利名稱:基於網上交易平臺的檢索方法、裝置和伺服器的製作方法
技術領域:
本申請涉及網絡數據處理領域,特別涉及基於網上交易平臺的檢索方法、裝置和伺服器。
背景技術:
基於網上交易平臺的搜索,一般都是接收用戶輸入的查詢關鍵詞之後,會將包括了查詢關鍵詞的一些產品顯示給用戶,這些包括了查詢關鍵詞的產品就是用戶可能會感興趣的產品。這些產品一般可以通過與關鍵詞相關聯的形式,使得某個輸入相關聯的關鍵詞, 就可以得到與該關鍵詞相關聯的產品。當用戶搜索某一款具體的產品時,現有技術一般採用如下方式根據產品的名稱、 類目或/和屬性進行關鍵詞匹配,只是這種搜索方式只能適用於純產品類目詞或產品名稱和屬性等關鍵詞。當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,就有可能在存在這類產品的情況下還是搜索不到結果。例如,對於「適合女士用的手機」的關鍵詞,由於資料庫中保存的數據一般是根據產品名稱、類目或屬性等關鍵詞建立的,並沒有保存僅僅具有描述性質的關鍵詞的信息,因此就無法搜索到用戶需要的結果。舉例來講,「飛利浦 588」是一款普遍被認為適合女士用的手機,但是當用戶直接在網上交易平臺中搜索「適合女士用的手機」是無法搜索到這款手機的。由以上對現有技術的分析可知,現有技術在實現網上交易平臺的檢索時,由於不能完全和用戶的需求相匹配,所以如果出現搜索不到用戶感興趣的結果時,就需要用戶變換查詢詞繼續搜索,這樣就增加了用戶和伺服器之間的交互次數,在伺服器端也會增加對於查詢詞的匹配過程,就會增加伺服器的工作量,進一步影響網上交易平臺伺服器的運行速度和性能。總之,目前需要本領域技術人員迫切解決的一個技術問題就是如何能夠創新的提出一種基於網上交易平臺的檢索方法,以解決現有技術中無法搜索到用戶需求的結果, 導致影響網上交易平臺伺服器運行速度和性能的技術問題。

發明內容
本申請所要解決的技術問題是提供一種基於網上交易平臺的檢索方法,用以解決現有技術中無法搜索到用戶需求的結果導致的影響網上交易平臺伺服器運行速度和性能的技術問題。本申請還提供了一種基於網上交易平臺的檢索裝置和伺服器,用以保證上述方法在實際中的實現及應用。為了解決上述問題,本申請公開了一種網頁資料庫的建立方法,包括抓取網頁;分析所述網頁的關鍵字,得到所述網頁上涉及到的產品關鍵詞;按照預置規則分析所述產品關鍵詞,以得到與所述網頁相關的至少一個產品標識;將所述網頁、至少一個產品標識,以及,網頁和產品標識之間的關聯保存至預置的資料庫。本申請公開了一種基於網上交易平臺的檢索方法,包括依據瀏覽器當前提交的查詢詞,從預置的網頁資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的網頁資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁;對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。本申請公開了一種基於網上交易平臺的檢索裝置,包括查詢初始網頁模塊,用於依據查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;獲取相關網頁模塊,用於對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁;產品相關處理模塊,用於對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;排序展示模塊,用於將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。與現有技術相比,本申請包括以下優點在本申請中,預先已經將網頁上出現的產品信息和網頁做了關聯,因此,依據用戶輸入的關鍵詞在網上交易平臺上做檢索的時候,就會考慮到產品的網頁信息,即是只要有論壇或者網頁討論過某個產品,就可以在檢索產品的時候依據這個產品和網頁之間的關聯檢索到相關產品。這避免了當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,而產品的網頁信息中具備關鍵詞的相關信息,但卻出現搜索不到產品的情況的發生,提高了用戶的查詢效率。通過本申請,用戶不需要重複搜索相關產品,這減少了用戶與搜尋引擎伺服器之間的交互次數,降低了搜尋引擎伺服器的重複運行次數,從而提高搜尋引擎伺服器的運行速度、工作效率和工作性能。當然,實施本申請的任一產品並不一定需要同時達到以上所述的所有優點。


為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖1是本申請實施例一中建立預置的資料庫的流程圖;圖2是本申請的一種基於網上交易平臺的檢索方法實施例一的流程圖;圖3是本申請的一種基於網上交易平臺的檢索方法實施例二的流程圖4是本申請方法實施例二中檢索結果的展示示意圖;圖5是本申請的一種基於網上交易平臺的檢索裝置實施例三的結構框圖;圖6是本申請的一種基於網上交易平臺的檢索裝置實施例四的結構框圖。
具體實施例方式下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬於本申請保護的範圍。本申請可用於眾多通用或專用的計算裝置環境或配置中。例如個人計算機、伺服器、手持設備或可攜式設備、平板型設備、多處理器裝置、包括以上任何裝置或設備的分布式計算環境等等。本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算環境中實踐本申請,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位於包括存儲設備在內的本地和遠程計算機存儲介質中。本申請的主要思想之一可以包括,在本申請實施例中,首先需要對於網絡爬蟲抓取到的網頁進行預處理,具體過程是針對抓取到的網頁識別出該網頁內容出主要涉及到的某幾種具體的產品,並將這些產品的產品標識與該網頁對應關聯起來,並將這種關聯關係以及關聯中涉及到的網頁和產品標識都存儲在預先設置的一個網頁資料庫中,以供後續從該網頁資料庫中再調用關聯。上述預處理過程可以離線進行,即只要爬蟲抓取到了網頁, 就可以進行同樣的預處理過程,以建立網頁資料庫。搜尋引擎伺服器在接收到瀏覽器提交的查詢詞時,依據該查詢詞可以從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁, 並對得到的初始網頁進行相關性處理,以得到滿足預置條件的相關網頁,而對涉及到的產品標識所對應的至少一個產品所述相關網頁,則繼續進行相關處理;並將進行過相關處理之後的至少一個產品按照相關性值進行排序,最後將排序之後的多個產品向客戶端展示, 具體可以展示該產品的價格或者銷量等信息。可見,採用本申請實施例進行搜索,最終得到的產品不僅與用戶輸入的查詢詞相關,同時還和某個網頁上是否涉及到該產品相關,這樣就可以避免當用戶輸入描述性質的關鍵詞時直接依據關鍵詞檢索得不到相關結果的現象。例如,對於查詢詞「適合女士用的手機」來講,如果在某個論壇或者網頁上,出現了討論「適合女士用的手機」的內容,而這個內容中涉及到了很多適合女士用的手機,包括「飛利浦588」,那麼資料庫中就會保存這個網頁和「飛利浦588^t間關聯,而後續搜尋引擎伺服器在檢索適合女士用的手機時,就會出現銷售「飛利浦588」產品的相關網頁,再把這些產品信息進行展示的時候,就不需要用戶重複搜索相關產品,從而減少了用戶與搜尋引擎伺服器之間的交互次數,降低了搜尋引擎伺服器的重複運行次數,提高了搜尋引擎伺服器的運行速度、工作效率和工作性能。參考圖1,示出了本申請一種網頁資料庫的建立方法實施例的流程圖,可以包括以下步驟
步驟101 抓取網頁。這裡的網頁是爬蟲伺服器抓取到的網頁,爬蟲伺服器無需觸發條件,一旦啟動之後便會不停地抓取網頁。步驟102 分析所述網頁的關鍵字,以得到所述網頁上涉及到的產品關鍵詞。當爬蟲從網際網路上抓取到網頁時,對抓取到的網頁進行分析,即是針對網頁中的內容進行提煉,去發現該網頁內容中出現的產品關鍵詞,例如,在某個論壇上出現了討論 「適合女士用的手機」的帖子,則本步驟會將用戶討論結果中出現的適合女士用的手機都獲取到。所述步驟102在實際應用中,具體可以採用如下方式實現步驟Al 提取所述網頁上的文本內容。在爬蟲伺服器抓取到的網頁中,不一定只有文本信息,有時也會有圖片或者廣告視頻等其他信息,因此,本步驟需要首先提取出網頁的文本內容。例如,論壇裡關於某個產品的討論信息等。步驟A2 對所述文本內容進行分析,得到所述網頁的相關關鍵詞。在本步驟可以採用分詞器對所述文本內容進行分詞,實施分詞器所得到的各個關鍵詞,即為所述網頁的相關關鍵詞。當然,本步驟也可以採用其他的一些工具對網頁的文本內容進行分詞處理,分詞的方式並不影響本申請的實現。步驟A3 從所述相關關鍵詞中獲取到與產品相關的產品關鍵詞。在本步驟中即是對從所述文本內容中得到的所有相關關鍵詞進行分析,以找到和產品相關的產品關鍵詞。例如。假設步驟A2中得到的相關關鍵詞有「的」、「因此」、「諾基亞 5530」、「聯想」等,則本步驟可以獲取到「諾基亞5530」和「聯想」作為產品關鍵詞。步驟103 按照預置規則分析所述產品關鍵詞,以得到與所述網頁相關的至少一個產品標識。所述步驟103在實際應用中,具體可以採用如下方式得到與所述網頁相關的至少一個產品標識步驟Bl 檢測所述產品關鍵詞中出現概率高於一定閾值的候選關鍵詞。在本步驟中,因為一個網頁中可能出現的產品關鍵詞有很多個,例如同時出現了 「諾基亞5530」、「聯想」和「三星」等產品關鍵詞,出現的概率分別為10次,5次和1次。而預先設定的閾值為2,則本步驟中則會篩選出候選關鍵詞為「諾基亞5530」和「聯想」。步驟B2 判斷所述候選關鍵詞與所述網頁的文本內容是否相關。在本步驟中,假設當前網頁為一個討論手機性能的帖子,而「諾基亞5530」和「聯想」這兩個候選關鍵詞都和手機有關,則在步驟Bl中得到的候選關鍵詞均與網頁相關的產品標識。但是,如果出現了 「寶潔」的候選關鍵詞,很顯然與手機性能無關,則並不會將「寶潔」作為與當前網頁相關的一個產品標識。步驟104 將所述網頁、至少一個產品標識、以及網頁和產品標識之間的關聯保存至預置的資料庫。當根據查詢詞在該資料庫中檢索時,根據檢索到的與查詢詞匹配的網頁時,根據匹配的網頁與產品標識的關係,輸出該產品標識。在本步驟中,依據獲取到的產品可以將對應的產品標識與其出現的網頁進行關聯。這裡的關聯可以理解為,該網頁和對應的產品標識之間遵循某種聯繫,當獲取到網頁時即可對應獲取到產品標識。當一個網頁上出現多個產品時,還可以依據產品出現的次數,以及在網頁出現的位置信息等,設置各個產品與網頁進行關聯時的權重。例如,當某個產品在網頁上出現的次數最多,或者出現在網頁所在模板中比較重要的板塊上,就可以將該產品的產品標識與該網頁的關聯設置較高的權重。因此,一個網頁可以關聯多個產品,且這多個產品之間按照權重關係可以進行排序。當對網頁和產品做好關聯之後,即可將網頁和至少一個的產品標識之間的關聯保存至資料庫中,並且在保存時,將該網頁的相關內容以及產品信息也一併保存至資料庫中, 以便於後續再調用時可以獲取到網頁內容和產品信息,例如,價格、銷售量等。參考圖2,示出了本申請一種基於網上交易平臺的檢索方法實施例一的流程圖,可以包括以下步驟步驟201 依據瀏覽器當前提交的查詢詞,從預置的網頁資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的網頁資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。在本實施例中,用戶在網上交易平臺提供的輸入框輸入查詢詞之後,由瀏覽器提交至後臺搜尋引擎系統,搜尋引擎系統從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁。這裡關鍵詞和網頁之間的映射關係可以採用現有技術實現,即是採用現有技術中對網頁和關鍵詞之間的匹配來實現本步驟依據查詢詞對初始網頁的檢索。這裡預置的資料庫中保存的網頁,以及該網頁涉及到的至少一個產品標識,則是解決本申請所要解決的技術問題的一個關鍵。這裡的產品標識(pid)是與該產品一一對應的唯一數字ID。步驟202 對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁。在本步驟中,需要對從預置的資料庫中獲取到的初始網頁進行相關性處理,這裡為了找出更滿足用戶需求的相關網頁,可以採用執行兩次相關性打分的處理過程。例如,可以首先採用BM25算法對初始網頁進行第一次相關性打分,並按照分值從大到小對所述初始網頁進行排序。所述第一次相關性打分的目的是減少在第二次相關性打分時的系統運算量,為進行第二次相關性打分選取數目較少且與查詢詞更為相關的網頁。在進行第二次相關性打分之前,為了在第二次相關性打分的時候減少計算量,可以對排序後的初始網頁取前若干個初始網頁執行第二次相關性打分。這裡取多少個初始網頁可以依據實際需求有所不同,例如,1000個或者800個等。取了前若干個初始網頁之後, 再對這若干個第一層相關性得分較高的初始網頁進行第二次相關性打分處理,將採用邏輯更為複雜精細的方式進行以得到相關網頁。其中一些具體的打分規則可以為當某些關鍵詞不斷重複連續出現時,則認為該關鍵詞為無用信息,並將該關鍵詞所處的網頁得分減去一個預置的數值;或者,同時進行關鍵詞所處的類目與網頁中關聯的產品標識所處的類目之間的匹配程度過濾,可以包括如果關鍵詞中提及的品牌與網頁中關聯的產品標識的品牌不相符時,將該關鍵詞所處的網頁得分減去一個預置的數值;如果關鍵詞中提及的型號與網頁中關聯的產品標識的型號不相符,同樣將該關鍵詞所處的網頁得分減去一個預置的數值。步驟203 對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理。所述相關網頁可能有很多個,那麼對於每個相關網頁所涉及到的產品標識也需要進行打分。具體地,因為不同的相關網頁所涉及到的產品有可能相同,那麼在執行本步驟時,可以首先將那些權重最大的產品標識都相同的網頁聚合到一起,即是比較各個相關網頁中權重最重的產品標識,相同產品標識的相關網頁則聚合到一個組中,而該組即是該相同產品標識的網頁組,該組中包括多個相同產品標識的不同相關網頁。得到不同的網頁組之後,則可對各個產品標識組中的相關網頁打分,而打分過程中可以依據聚合到該產品標識下的網頁數量,各個網頁的第二次相關性得分,以及,該產品標識的某些屬性,例如價格,上市時間等,該產品與查詢詞之間的相關性得分等因素,為產品標識打分的。具體實現的過程可以例如,在執行本步驟的內容時,將得到的第二次相關性得分直接相加,並從結果中選擇出若干個相關性得分高的產品,再按照這些產品的價格對網頁進行排序,按照順序給涉及到的產品標識進行打分。需要說明的是,在本步驟中,因為一個網頁組聚合了多個網頁,則該網頁組中各個網頁的產品標識分值是相同的,這些產品標識分值可以作為該各個相關網頁的屬性,存儲到各個相關網頁中。步驟204 將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。對產品標識打分之後,按照產品標識得分的大小可以對各個網頁涉及到的產品從大到小進行排序,可以取前若干個產品向客戶端展示其信息。這樣的話,展示的產品信息就和網頁上是否涉及到了該產品的相關信息有關,因此,就避免了有的網店賣家採用購買廣告的方式將某個關鍵詞和自己的產品相關聯,也避免了因為用戶輸入的是描述性質的查詢詞導致查詢不到相關結果的情況。因此,採用本申請實施例,在展示產品的過程中考慮了產品的網頁信息,當用戶輸入的查詢詞沒有包括產品具體名稱或者屬性等時,而產品的網頁信息中具備關鍵詞的相關信息,但卻出現搜索不到產品的情況,提高了用戶的查詢效率。本實施例不需要用戶重複搜索相關產品,減少了用戶與搜尋引擎伺服器之間的交互次數,降低了搜尋引擎伺服器的重複運行次數,從而提高搜尋引擎伺服器的運行速度、工作效率和工作性能。參考圖3,示出了本申請一種基於網上交易平臺的檢索方法實施例二的流程圖,可以包括以下步驟步驟301 依據瀏覽器當前提交的查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁,以及該網頁涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。在本實施例中,針對瀏覽器提交的查詢詞在提取關鍵詞時,可以利用現有的工具, 例如分詞器、詞性標註工具等,這樣還可以降低本實施例的實施成本。本步驟在前述實施例已經詳細介紹,在此不再贅述。在建立該預置的資料庫的過程中,很多討論「適合女士用的手機」的網頁,並且該頁面與具體的某一個產品標識(例如 「飛利浦588」)建立了對應的關聯關係,則該出現「適合女士用的手機」的網頁,以及網頁和具體產品,例如「飛利浦588」之間的關聯都保存至了該資料庫中。那麼在接收到瀏覽器提交的查詢詞時,對於「適合女士用的手機」查詢詞就會檢索到討論該關鍵詞的諸多網頁。步驟302 採用預定算法對所述初始網頁進行第一次相關性打分,所述第一次相關性打分的分值與初始網頁中特定的產品關鍵詞的第一參數成正比,與第二參數成反比; 所述第一參數為在當前的一個初始網頁中出現的概率,所述第二參數為在網頁資料庫中的所有網頁中出現的概率。在本步驟中,現有技術中有很多種相關性算法可以執行,例如BM25,本步驟即是採用現有技術中任一種相關性算法對所有的初始網頁進行相關性打分,這樣每個初始網頁就對應一個相關性分值,再按照相關性分值從大到小的順序給所述初始網頁進行排序。以BM25為例,對網頁進行BM25算法處理之後,每一個網頁所得到的分值與兩個參數有關,第一參數是在一個網頁中特定的產品關鍵詞出現的概率大小,第二參數是在網頁資料庫的所有網頁中出現的概率大小,且第一參數的概率越大則對應網頁的第一次相關性分值就越高,並且第二參數的概率越小對應網頁的第一次相關性分值就越高。舉例來講,對於關鍵詞「的」,因為是語氣助詞,所以在一個網頁中出現的概率會非常高,但是因為其在所有網頁中出現的概率也大,也即其出現的概率較大的網頁個數較多,所以其第一次相關性分值就相對較低。在本申請實施例中,第一次相關性分值的大小分別與第一參數和第二參數所成比例的具體比值,可以依據實際應用的需求有所改變。步驟303 對進行第一次相關打分之後的初始網頁按照預設閾值獲取分值較高的前若干個網頁,並依據產品關鍵詞在網頁中出現的概率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前若干個網頁進行第二次相關性打分,以得到相關網頁。在本步驟中,對於排序之後的初始網頁,可以按照預設的一個閾值獲取前若干個網頁。例如,只獲取前1000個初始網頁,這1000個初始網頁的相關性分值高於剩餘的初始網頁。此處需要對截取得到的前若干個網頁進行第二次相關性打分,以得到1000個初始網頁的第二次相關性分值。在本步驟中,假設查詢詞為「國慶假期去哪裡玩」,則所述查詢詞的相鄰關鍵詞可以為「國慶」和「假期」,那麼當「國慶」和「假期」在一個網頁中以「國慶假期」的方式出現時, 就認為該查詢詞的相鄰關鍵字在網頁中同時出現的距離最近,那麼該網頁的第二次相關性打分的分值就會較高。並且,假設「國慶」和「假期」同時出現了,但是是以「國慶的假期」這樣的方式出現,假設該網頁中預設大小的窗口為20,只要「國慶的假期」的大小不大於20, 就認為該查詢詞中相鄰的關鍵詞在網頁中預設大小的窗口內同時出現,相應的該網頁的第二次相關性打分的分值也會較高。需要說明的是,在實際應用中有很多種情況,因此,除了這三個參數之外,本領域技術人員可以根據需求的不同增加其他參數的設定,均不影響本申請的實現。步驟304 對所述相關網頁中產品標識相同的網頁進行分組,得到多組產品標識相同的網頁組。針對獲取得到的最終的1000個初始網頁,可以比較各個初始網頁關聯的產品標識是否相同,對於只與一個產品標識關聯的初始網頁只需比較這一個產品標識,而與多個產品標識關聯的初始網頁則可以依據產品標識的出現次數或者出現的位置信息來選擇權重最大的一個產品標識參與比較。最終需要將產品標識都相同的網頁聚合到一個網頁組中,以產生多組產品標識相同的網頁組。步驟305 對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性進行相關性打分。在本步驟中,需要針對每個產品標識相同的網頁組中所涉及到的產品進行相關性打分。此處進行相關性處理時依據該網頁組中的網頁數量、各個網頁的第二次相關性分值, 以及產品本身的屬性,例如,價格信息、銷量信息等,同時還可以依據該產品與用戶輸入的查詢詞之間的相關性分值,來對各網頁組中涉及到的產品進行打分。需要說明的是,在實際應用場景中,因為用戶需求或者網絡運行情況等可能有所不同,那麼此處各個依據在進行相關性打分的過程中所佔的比重也可以不完全相同。前述步驟即是通過獲取這個網頁上關聯的產品,將所有「適合女士用的手機」檢索出來。步驟306 將所述打分結果作為各個網頁組中的網頁屬性進行存儲。在本步驟中,可以將步驟305中對各個產品進行相關性打分的分值作為各個網頁組中的網頁屬性進行存儲。當然,在實際應用中,也可以不進行存儲,是否在網頁中存儲其涉及到的產品的相關性分值並不影響本申請實施例的實現,本步驟並不是實現本申請實施例的必要過程。步驟307 按照所述各個產品的打分結果對各個網頁重新排序,得到重新排序之後的網頁。在步驟305對各個產品進行相關性打分之後,依據這個打分結果從大到小地在各個網頁組內對各個網頁重新排序。步驟308 在產品標識相同的網頁組中截取排序之後的前預設個數的網頁作為該產品的檢索結果。針對產品標識相同的網頁組,可以截取排序之後前預定個數的網頁作為該產品的檢索結果,如果用戶檢索了相關的關鍵詞,後續可以通過關鍵詞檢索到相關網頁,再由相關網頁和產品之間的關聯檢索到對應的產品。步驟309 將檢索結果在瀏覽器上向用戶端展示。在本步驟中則將檢索到的對應產品信息在客戶端上進行展示。在具體應用時,例如當關鍵詞為「適合女士用的手機」時,檢索結果的產品展現形式可以參考圖4所示。對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本申請所必須的。與上述本申請一種基於網上交易平臺的檢索方法實施例一所提供的方法相對應, 參見圖5,本申請還提供了一種基於網上交易平臺的檢索裝置實施例三,在本實施例中,該裝置可以包括查詢初始網頁模塊501,用於依據瀏覽器當前提交的查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。獲取相關網頁模塊502,用於對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁。產品相關處理模塊503,用於對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理。展示模塊504,用於將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。本實施例所述的裝置可以集成到基於網上交易平臺的搜尋引擎伺服器上,也可以單獨作為一個實體與搜尋引擎伺服器相連,另外,需要說明的是,當本申請所述的方法採用軟體實現時,可以作為搜尋引擎的伺服器新增的一個功能,也可以單獨編寫相應的程序,本申請不限定所述方法或裝置的實現方式。本實施例中,可以在依據用戶輸入的查詢詞檢索產品的時候,考慮到網頁上曾經出現該產品的情況,例如,在百度知道上有專門討論關於該查詢詞相關的產品等,就可以在檢索產品的時候依據這個產品和網頁之間的關聯檢索到相關產品。這樣就會使得用戶即便只是輸入一些描述性質的查詢詞,也能檢索到滿足其描述的產品,提高了用戶的查詢效率。 因此採用本申請實施例檢索產品一般情況下都能檢索到用戶所需求的產品,也不需要用戶重複搜索相關產品,從而減少了用戶與搜尋引擎伺服器之間的交互次數,降低了搜尋引擎伺服器的重複運行次數,從而提高搜尋引擎伺服器的運行速度、工作效率和工作性能。與上述本申請一種基於網上交易平臺的檢索方法實施例二所提供的方法相對應, 參見圖6,本申請還提供了一種基於網上交易平臺的檢索裝置的優選實施例四,在本實施例中,該裝置具體可以包括查詢初始網頁模塊501,用於依據瀏覽器當前提交的查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯。第一相關性處理子模塊601,用於採用預定算法對所述初始網頁進行第一次相關性打分,所述第一次相關性打分的分值與初始網中特定的產品關鍵詞的第一參數成正比, 與第二參數成反比,所述第一參數為在當前的一個初始網頁中出現的概率,所述第二參數為在網頁資料庫中的所有網頁中出現的概率。第二相關性處理子模塊602,用於對進行第一次相關打分之後的初始網頁按照預設閾值獲取分值較高的前若干個網頁,並依據產品關鍵詞在網頁中出現的概率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前若干個網頁進行第二次相關性打分,以得到相關網頁。聚合分組子模塊603,用於對所述相關網頁中產品標識相同的網頁進行分組,得到多組產品標識相同的網頁組。產品相關處理子模塊604,用於對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性進行相關性打分。存儲子模塊605,用於將所述打分結果作為各個網頁組中的網頁屬性進行存儲。重新排序子模塊606,用於按照所述各個產品的打分結果對各個網頁重新排序,得到重新排序之後的網頁。獲取檢索結果子模塊607,用於在產品標識相同的網頁組中截取排序之後前預設個數的網頁作為該產品的檢索結果。與上述本申請一種基於網上交易平臺的檢索方法和裝置實施例相對應,本申請還提供了一種基於網上交易平臺的搜尋引擎伺服器的實施例,在本實施例中,該伺服器具體可以包括前述裝置實施例公開的任一裝置。需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或
者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個......」限定的要素,
並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。以上對本申請所提供的一種基於網上交易平臺的檢索方法、裝置及搜尋引擎伺服器進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式
及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
權利要求
1.一種網頁資料庫的建立方法,其特徵在於,包括 抓取網頁;分析所述網頁的關鍵字,得到所述網頁上涉及到的產品關鍵詞; 按照預置規則分析所述產品關鍵詞,以得到與所述網頁相關的至少一個產品標識; 將所述網頁、至少一個產品標識,以及,網頁和產品標識之間的關聯保存至預置的資料庫。
2.根據權利要求1所述的方法,其特徵在於,所述分析所述網頁的關鍵字,以得到所述網頁上涉及到的產品關鍵詞,具體包括提取所述網頁上的文本內容;對所述文本內容進行分析以得到所述網頁的相關關鍵詞; 從所述相關關鍵詞中獲取到與產品相關的產品關鍵詞。
3.根據權利要求1所述的方法,其特徵在於,所述按照預置規則分析所述產品關鍵詞, 具體包括檢測所述產品關鍵詞中出現概率高於一定閾值的候選關鍵詞; 判斷所述候選關鍵詞與所述網頁的文本內容是否相關。
4.一種基於網上交易平臺的檢索方法,其特徵在於,包括依據查詢詞,從預置的網頁資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的網頁資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁; 對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理; 將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。
5.根據權利要求1所述的方法,其特徵在於,所述對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁;具體包括採用預定算法對所述初始網頁進行第一次相關性打分,所述第一次相關性打分的分值與初始網中特定的產品關鍵詞的第一參數成正比,與第二參數成反比,所述第一參數為在當前的一個初始網頁中出現的概率,所述第二參數為在網頁資料庫中的所有網頁中出現的概率;對進行第一次相關打分之後的初始網頁按照預設閾值獲取分值較高的前若干個網頁, 並依據產品關鍵詞在網頁中出現的概率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前若干個網頁進行第二次相關性打分,得到相關網頁。
6.根據權利要求1所述的方法,其特徵在於,所述對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理,具體包括對所述相關網頁中產品標識相同的網頁進行分組,得到多組產品標識相同的網頁組; 對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性進行相關性打分;將所述打分結果作為各個網頁組中的網頁屬性進行存儲。
7.根據權利要求3所述的方法,其特徵在於,所述將進行過相關處理之後的至少一個產品按照相關性值進行排序,具體包括按照所述各個產品的打分結果對各個網頁重新排序,得到重新排序之後的網頁; 在產品標識相同的網頁組中截取排序之後前預設個數的網頁作為該產品的檢索結果。
8.一種基於網上交易平臺的檢索裝置,其特徵在於,包括查詢初始網頁模塊,用於依據查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;獲取相關網頁模塊,用於對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁;產品相關處理模塊,用於對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;排序展示模塊,用於將進行過相關處理之後的至少一個產品按照相關性值向客戶端展7J\ ο
9.根據權利要求8所述的裝置,其特徵在於,所述獲取相關網頁模塊具體包括第一相關性處理子模塊,用於採用預定算法對所述初始網頁進行第一次相關性打分, 所述第一次相關性打分的分值與初始網中特定的產品關鍵詞的第一參數成正比,與第二參數成反比,所述第一參數為在當前的一個初始網頁中出現的概率,所述第二參數為在網頁資料庫中的所有網頁中出現的概率;第二相關性處理子模塊,用於對進行第一次相關打分之後的初始網頁按照預設閾值獲取分值較高的前若干個網頁,並依據產品關鍵詞在網頁中出現的概率、所述查詢詞的相鄰關鍵字在網頁中同時出現的距離和所述查詢詞中的相鄰關鍵字在網頁中預設大小的窗口內是否同時出現,對所述前若干個網頁進行第二次相關性打分,以得到相關網頁。
10.根據權利要求8所述的裝置,其特徵在於,所述產品相關處理模塊具體包括聚合分組子模塊,用於對所述相關網頁中產品標識相同的網頁進行分組,得到多組產品標識相同的網頁組;產品相關處理子模塊,用於對各網頁組中產品標識對應的產品依據該網頁組中網頁數量、各個網頁的相關性得分以及產品屬性進行相關性打分;存儲子模塊,用於將所述打分結果作為各個網頁組中的網頁屬性進行存儲。
全文摘要
本申請提供了一種基於網上交易平臺的檢索方法、裝置和伺服器,所述方法包括依據瀏覽器當前提交的查詢詞,從預置的資料庫中查詢得到與該查詢詞匹配的初始網頁;所述預置的資料庫用於保存網頁及其涉及到的至少一個產品標識,和,網頁和產品標識之間的關聯;對所述初始網頁進行相關性處理以得到滿足預置條件的相關網頁;對所述相關網頁涉及到的產品標識所對應的至少一個產品進行相關處理;將進行過相關處理之後的至少一個產品按照相關性值向客戶端展示。採用本申請實施例公開的檢索方法、裝置和伺服器,可以減少用戶與搜尋引擎伺服器之間的交互次數,降低搜尋引擎伺服器的重複運行次數,從而提高搜尋引擎伺服器的運行速度、工作效率和工作性能。
文檔編號G06Q30/00GK102456057SQ201010529419
公開日2012年5月16日 申請日期2010年11月1日 優先權日2010年11月1日
發明者潘曉雯 申請人:阿里巴巴集團控股有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀