新四季網

一種用於搜索的智能提示的方法、模塊和系統的製作方法

2023-05-08 13:57:36

一種用於搜索的智能提示的方法、模塊和系統的製作方法
【專利摘要】本發明公開了一種用於搜索的智能提示的方法、模塊和系統。根據本發明的方法,伺服器執行以下步驟:用分詞器分出前綴詞和後綴詞;同義擴展成前綴同義詞和後綴同義詞列表;然後遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞獲得候選詞;再通過用戶歷史搜索行為的分析計算各候選詞的概率。客戶端執行以下步驟:計算候選詞的本地相關度;計算候選詞的點擊預估值,然後根據點擊預估值從選擇候選詞顯示。本發明中,提示詞通過前綴詞和後綴詞匹配獲得,並結合了同義詞,並綜合了眾多用戶搜索的意圖,再結合了本地相關度,從而使得提示詞更接近用戶搜索意圖。
【專利說明】一種用於搜索的智能提示的方法、模塊和系統
【技術領域】
[0001]本發明涉及數據搜索、數據挖掘中的關鍵詞搜索,尤其涉及關鍵詞輸入中的人工智慧。
【背景技術】
[0002]智能提示是一種幫助用戶明確輸入意圖,方便用戶快捷輸入,提高用戶體驗的方法。智能提示主要應用於搜尋引擎和開發平臺中,可以根據用戶的輸入,通過下拉框或者標籤等不同的展現形式,向用戶進行自動提示。
[0003]目前主流搜尋引擎主要是先統計伺服器端保存的用戶搜索歷史數據,根據搜索詞的搜索頻率,建立熱門詞詞典,當用戶輸入關鍵詞後,根據字符串前綴匹配的方法,從熱門詞詞典中查找候選提示詞,再根據搜索頻率篩選出提示詞,依次展現在搜索框下方。這種智能提示,利用字符串前綴匹配查找候選提示詞,可能會遺漏一些與搜索關鍵詞相關的候選提示詞。利用熱門詞詞典中搜索頻率篩選候選提示詞,沒有結合當前用戶本地的搜索歷史數據,可能會導致給出的提示詞與用戶搜索意圖偏差。出現上述問題的根源在於習慣性語言表達方式。在中文中,修飾名詞的詞總是在被修飾詞之前。比如「休閒褲」,其中「休閒」只是修飾詞,而「褲」才是主要的名詞。用戶在客戶端輸入「休閒褲」後,按前綴匹配的方式篩選出的都是與「休閒」相關的內容。但實際上用戶主要是想查找與「褲」相關的內容。這導致提示詞與用戶搜索意圖出現明顯偏差。

【發明內容】

[0004]本發明所要解決的問題是搜尋引擎中提示詞合理性的問題。
[0005]為解決上述問題,本發明採用的方案如下:
根據本發明的一種用於搜索的智能提示方法,包括客戶端和伺服器,客戶端與伺服器通過網絡相連,該方法包括以下步驟:
521:客戶端獲取初始字符串;
522:客戶端發送初始字符串至伺服器;
S29:伺服器接收初始字符串;
S3:伺服器根據初始字符串搜索熱詞獲得候選詞信息列表;
S41:伺服器將候選詞信息列表發送至終端;
S49:客戶端接收候選詞信息列表;
S5:客戶端根據候選詞信息列表獲取候選詞列表;
S91:客戶端展示候選詞列表;
其特徵在於,所述步驟S3包括:
531:伺服器根據分詞器拆分初始字符串獲得前綴詞和後綴詞;
532:伺服器根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞;
533:伺服器遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表;
其中,所述同義詞庫為伺服器用於保存關鍵詞之間同義關聯關係的資料庫;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立;所述的熱詞庫為伺服器用於保存熱詞信息的資料庫;所述熱詞信息包括熱詞、熱詞序號和熱詞搜索頻次;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配。
[0006]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,該方法還包括:
S34:伺服器根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概率;
其中,所述的用戶歷史搜索行為資料庫用於保存歷史行為信息。
[0007]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S34包括:
S34al:伺服器在用戶歷史搜索行為資料庫中查找原始字符串與初始字符串相同且點擊熱詞與候選詞相同的歷史行為信息,獲得候選詞的點擊頻次;
S34a2:伺服器根據對候選詞的點擊頻次做歸一化處理獲得候選詞的概率;
其中,所述的歷史行為信息包括原始字符串、點擊熱詞和點擊頻次。
[0008]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S34包括:
S34bl:根據候選詞在用戶歷史搜索行為資料庫查找歷史行為信息;
S34b2:統計該歷史行為信息下不同前綴匹配方式和不同後綴匹配方式下的點擊頻
次;
S34b3:對不同前綴匹配方式和不同後綴匹配方式下的點擊頻次進行自然對數運算獲得不同前綴匹配方式和不同後綴匹配方式下的1git值;
S34b4:根據二元線性回歸參數方程計算公式
logil = ^+^1+ ? 中參數,Ir 為的值;
S34b5:根據公式p/y=ljX)=_I_計算候選詞的概率,其中
-V " ?.,,)
汝〉=為+紐+紅;
S34b6 ;歸一化處理各個候選詞的候選詞的概率;
其中,所述的歷史行為信息包括點擊熱詞、九種候選詞匹配類型的點擊頻次。
[0009]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S5包括:
551:客戶端根據本地歷史搜索資料庫計算候選詞信息列表中每個候選詞的本地相關
度;` 552:客戶端根據候選詞的本地相關度、候選詞信息計算每個候選詞的點擊預估值;
553:客戶端根據候選詞的點擊預估值從候選詞信息列表選取候選詞列表;
其中,所述本地歷史搜索資料庫為客戶端用於保存本地歷史搜索信息;所述本地歷史搜索信息包括本地歷史搜索字符串、本地歷史搜索時間、本地歷史搜索頻次;所述步驟S51包括: 5511:用分詞器將本地歷史搜索資料庫中的本地歷史搜索字符串和候選詞信息列表中的候選詞拆分成關鍵詞列表並計算每個關鍵詞的統計頻次;
5512:根據關鍵詞列表中的關鍵詞的統計頻次構建關鍵詞空間向量;
S513:根據候選詞拆分的關鍵詞在關鍵詞列表中關鍵詞的統計頻次構建候選詞空間向
量;
S514:計算關鍵詞空間向量與候選詞空間向量的餘弦值,獲得候選詞的本地相關度。
[0010]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S511中所述的計算關鍵詞的統計頻次包括按時間加權計算的統計頻次的步驟。
[0011]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S52中: CTR = AXRXC ;其中CTR為候選詞的點擊預估值4為候選詞的概率;R為候選詞的本
地相關度;C為根據候選詞的類型確定的常數。
[0012]進一步,根據本發明的用於搜索的智能提示方法,其特徵在於,所述步驟S52中: CTR = AXRXCXP ;其中CTR為候選詞的點擊預估值;A為候選詞的概率;R為候選詞
的本地相關度;C為根據候選詞的類型確定的常數;P為候選詞的搜索頻次;其中所述的候選詞信息還包括候選詞的搜索頻次。
[0013]根據本發明的一種用於搜索的智能提示裝置,其特徵在於,包括:
分詞裝置,用於拆分初始字符串獲得前綴詞和後綴詞;
同義擴展裝置,用於根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞;
後綴樹遍歷裝置,用於遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配;
熱詞庫構建裝置,用於管理和維護用於保存熱詞信息的資料庫;
後綴樹構建裝置,用於管理和維護熱詞後綴樹;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立;
歷史行為分析裝置,用於根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概
率;
用戶歷史搜索行為資料庫裝置,用於保存歷史行為信息。
[0014]進一步,根據本發明的一種用於搜索的智能提示系統,包括客戶端和伺服器,客戶端與伺服器通過網絡相連,其特徵在於:
所述的伺服器包括:
分詞模塊,用於拆分初始字符串獲得前綴詞和後綴詞;
同義擴展模塊,用於根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞;
後綴樹遍歷模塊,用於遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配;
熱詞庫構建模塊,用於管理和維護用於保存熱詞信息的資料庫;
後綴樹構建模塊,用於管理和維護熱詞後綴樹;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立;
歷史行為分析模塊,用於根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概
率;
用戶歷史搜索行為資料庫模塊,用於保存歷史行為信息;
所述的客戶端包括:
本地相關度計算模塊,用於根據本地歷史搜索資料庫計算候選詞信息列表中每個候選詞的本地相關度;
點擊預估值計算模塊,用於根據候選詞的本地相關度、候選詞信息計算每個候選詞的點擊預估值;
候選詞選取模塊,用於根據候選詞的點擊預估值從候選詞信息列表選取候選詞列表;本地歷史搜索資料庫存儲模塊,用於保存本地歷史搜索信息,所述的本地歷史搜索信息包括本地歷史搜索字符串、本地歷史搜索時間、本地歷史搜索頻次;
所述的本地相關度計算模塊包括:
關鍵詞分布統計模塊,用於用分詞器將本地歷史搜索資料庫中的本地歷史搜索字符串和候選詞信息列表中的候選詞拆分成關鍵詞列表並計算每個關鍵詞的統計頻次;
關鍵詞空間向量構建模塊,用於根據關鍵詞列表中的關鍵詞的統計頻次構建關鍵詞空間向量;
候選詞空間向量構建模塊,用於根據候選詞拆分的關鍵詞在關鍵詞列表中關鍵詞的統計頻次構建候選詞空間向量;
向量餘弦計算模塊,用於計算關鍵詞空間向量與候選詞空間向量的餘弦值,獲得候選詞的本地相關度。
[0015]本發明的技術效果如下:
1、本發明中,提示詞通過前綴詞和後綴詞匹配獲得,並結合了同義詞,因此更容易接近語言所表達的含義。
[0016]2、本發明中,前綴詞和後綴詞的匹配通過構建熱詞廣義後綴樹實現,並結合熱詞序號,使得搜索過程快捷,消耗的CPU時間少。
[0017]3、本發明中,最終提示詞結合了概率計算,計算的概率綜合了眾多用戶搜索的意圖,從而使得提示詞更接近用戶搜索意圖。
[0018]4、本發明中,最終提示詞結合了本地相關度,通過用戶搜索歷史分析用戶搜索意圖,從而使得提示詞更接近用戶搜索意圖。
【具體實施方式】
[0019]下面對本發明的
【發明內容】
和權利要求作進一步詳細說明。
[0020]—、本發明的應用場合與應用環境
本發明應用於搜尋引擎的智能提示。搜索時,用戶通過網頁的文本編輯框輸入需要搜索的字符串,然後根據本發明的裝置、方法或系統,在網頁的文本編輯框下以下拉框的形式顯示用戶可能搜索的多個提示詞,用戶選擇下拉框中的提示詞後,搜尋引擎根據提示詞進行搜索。當然,出現提示詞的下拉框後,用戶也可以不選擇下拉框繼續輸入文本,然後搜尋引擎根據輸入的文本進行搜索。採用智能提示的下拉框的好處是方便用戶輸入,減少用戶文本輸入的人工和耗時。提示詞的獲取主要過程可以歸納成如下步驟:
521:客戶端獲取初始字符串;
522:客戶端發送初始字符串至伺服器;
S29:伺服器接收初始字符串;
S3:伺服器根據初始字符串搜索熱詞獲得候選詞信息列表;
S41:伺服器將候選詞信息列表發送至終端;
S49:客戶端接收候選詞信息列表;
S5:客戶端根據候選詞信息列表獲取候選詞列表;
S91:客戶端展示候選詞列表;
上述過程中,客戶端可以主要以網頁形式出現。當然也可以製作成專用的應用程式實現。網頁形式的客戶端一般安裝在用戶終端上。用戶以網頁的方式訪問搜尋引擎的伺服器。當然,本發明中,客戶端也可以安裝在伺服器側。客戶端位於伺服器側的情形還可以理解為某應用程式劃分成客戶端模塊和服務端模塊,客戶端模塊和服務端模塊分別為本發明的客戶端和伺服器。此時,客戶端模塊和服務端模塊之間用於連接兩者的「網絡」可以理解成更為廣泛的通信方式,比如通過本地內存,或管道(Pipe),或套接字(Socket)等等。
[0021 ] 上述過程中,步驟S21中「客戶端獲取初始字符串」可以理解成前述「用戶通過網頁的文本編輯框輸入需要搜索的字符串」。根據前述對客戶端的理解,「客戶端獲取初始字符串」的步驟還可以通過其他形式。一般來說,客戶端獲取的初始字符串是由人工輸入的字符串,而且是用戶輸入過程中由客戶端獲取的,通常並非用戶最終需要搜索的字符串。
[0022]上述過程中,步驟S91中「客戶端展示候選詞列表」可以理解為前述的「在網頁的文本編輯框下以下拉框的形式顯示用戶可能搜索的多個提示詞」,候選詞也即為提示詞,多個提示詞構成了候選詞列表。
[0023]上述過程可以理解為本發明的現有技術,因為很多搜尋引擎也確實按照上述步驟實現智能提示的過程。本發明解決本發明所要解決的問題通過步驟S3和步驟S5的具體實施實現。本說明書後續的說明內容主要針對步驟S3和步驟S5的具體實施以及和步驟S3、S5相關的技術內容。而對於上述過程中的其他步驟,本領域技術人員可以理解,本說明書不再詳述。
[0024]二、本說明書中的基本概念
本發明所指的關鍵詞是由分詞器將字符串拆分後得到的能夠表達一定語義的詞。比如「休閒褲」拆分後的得到兩個關鍵詞,「休閒」和「褲」。
[0025]本發明所指的前綴詞是由分詞器將字符串拆分後得到的關鍵詞中的第一個關鍵詞。比如「休閒褲」拆分後的得到兩個關鍵詞,「休閒」和「褲」。其中「休閒」為前綴詞。
[0026]本發明所指的後綴詞是由分詞器將字符串拆分後得到的關鍵詞中的最後一個關鍵詞。比如「休閒褲」拆分後的得到兩個關鍵詞,「休閒」和「褲」。其中「褲」為後綴詞。
[0027]本領域技術人員理解,如果字符串通過分詞器拆分後只能得到一個關鍵詞,則該關鍵詞即是前綴詞又是後綴詞。
[0028]本發明所指的候選詞為由一個或多個關鍵詞構成的字符串。
[0029]本發明所指的候選詞列表可以理解為多個候選詞組成的數組。
[0030]本發明所指的候選詞信息包括候選詞和候選詞的屬性信息或者僅僅是候選詞。候選詞的屬性信息可以包括候選詞的搜索頻次、候選詞的概率和/或候選詞本地相關度。
[0031]本發明所指的候選詞信息列表可以理解為多個候選詞信息組成的數組。
[0032]本發明所指的分詞器為用於將字符串拆分成多個關鍵詞的模塊或裝置,主要通過詞典查找將字符串拆分成多個關鍵詞。本領域技術人員理解,分詞器為現有技術。在本發明的具體實施過程中,分詞器可以通過市場購買獲得,也可以自己構造。
[0033]本發明所指的熱詞為由一個或多個關鍵詞構成的字符串,為伺服器用於保存用戶搜索歷史的字符串。
[0034]本發明所指的熱詞信息包括熱詞、熱詞序號、熱詞搜索頻次。其中熱詞序號用於建立快速查找的索引,熱詞搜索頻次用於統計熱詞被搜索的次數。
[0035]三、實施例1
本實施例中,前述步驟S3通過以下步驟實現:
531:伺服器根據分詞器拆分初始字符串獲得前綴詞和後綴詞;
532:伺服器根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞;
533:伺服器遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表。
[0036]本實施例中,同義詞庫為伺服器用於保存關鍵詞之間同義關聯關係的資料庫。同義詞庫通常由商業詞典提供,也可以自己建立。
[0037]本實施例中,步驟S31由分詞模塊或裝置實現。分詞模塊或裝置也即前述的分詞器。本領域技術人員理解,經步驟S31處理後的前綴詞和後綴詞可能是相同。在前綴詞和後綴詞相同的情形下,前綴同義詞和後綴同義詞也相同,因此步驟S32可以做簡化處理,只需要搜索前綴詞的同義詞或後綴詞的同義詞即可。
[0038]本實施例中,步驟S32由同義擴展模塊或裝置實現。本領域技術人員理解,一個詞的同義詞可能有多個,因此步驟S32得到的得前綴同義詞和後綴同義詞通常為一列表。
[0039]本實施例中,步驟S33由後綴樹遍歷模塊或裝置實現。這裡,前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配。「前綴匹配和或後綴匹配」中的「和或」表示的是搜索的熱詞可能滿足前綴匹配或者後綴匹配或者前綴後綴均匹配。後綴樹遍歷模塊或裝置通過遍歷熱詞後綴樹實現。熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立。熱詞後綴樹的建立通過後綴樹構建模塊或裝置實現。後綴樹構建模塊或裝置,用於管理和維護熱詞後綴樹。總所周知,後綴樹(Suffix tree)是用於用來支持有效的字符串匹配和查詢的樹形的數據結構。後綴樹可以表達一字符串,而廣義後綴樹可以表達多個字符串。廣義後綴樹的構建和遍歷均為現有技術,本說明書不再累述。需要說明的是,熱詞後綴樹中的熱詞來自熱詞庫,但熱詞後綴樹中的熱詞並不包含熱詞庫中所有的熱詞,只是熱詞庫中高頻搜索的熱詞。高頻搜索的熱詞可以通過對熱詞庫中所有的熱詞根據熱詞的搜索頻次排序獲得:首先根據熱詞的搜索頻次對熱詞庫中的熱詞進行按降序排序,然後獲取排序後的熱詞中前N個熱詞。N在實際應用中通常為事先設定,比如10000或100000等。更為高效的方法還可以在排序前做一次按熱詞的搜索頻次的閾值過濾,只有熱詞的搜索頻次大於某一設定閾值的熱詞才進行排序。
[0040]本實施例中,前述的熱詞庫為伺服器用於保存熱詞信息的資料庫,該數據也用於保存用戶搜索歷史。保存用戶搜索歷史由熱詞庫構建模塊或裝置實現。熱詞庫構建模塊或裝置用於管理和維護用於保存熱詞信息的資料庫。熱詞信息包括熱詞、熱詞序號、熱詞搜索頻次。保存用戶搜索歷史的過程如下:用戶通過客戶端向伺服器提交被搜索的字符串請求搜索後,伺服器接收到被搜索的字符串後在執行搜索的同時,還執行將被搜索的字符串作為熱詞加入至熱詞庫中的步驟:如果熱詞庫中已經保存有該被搜索的字符串,則將相應的熱詞搜索頻次加1,否則將保存被搜索的字符串至熱詞庫,並將該熱詞的搜索頻次設為I。
[0041]需要說明的是,步驟S33獲得的候選詞信息列表為多個候選詞信息組成的數組。本實施例中,候選詞信息僅僅是熱詞,而步驟S5中獲得的候選詞列表即為候選詞信息列表。在其他實施方式下以及後續的實施例候選詞信息可以包括更多的內容:比如候選詞的熱詞序號、候選詞的屬性信息。
[0042]四、實施例2
本實施例建立在實施例1的基礎上,具體為,在實施例1的步驟S33後增加了一個步驟,即步驟S34:伺服器根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概率。
[0043]本實施例的步驟S34由歷史行為分析裝置或裝置實現,所要解決的問題在於對某一特定的候選詞用戶歷史搜索的統計分析得到用戶輸入初始字符串的條件下用戶意圖輸入該候選詞的概率。本實施例的輸入是步驟S33獲得的候選詞信息列表,輸出也為候選詞信息列表,不過輸出的候選詞信息列表中的候選詞信息增加了候選詞的概率。
[0044]候選詞的概率的計算通過用戶歷史搜索行為分析計算獲得。用戶歷史搜索行為數據保存在用戶歷史搜索行為資料庫中,該過程由用戶歷史搜索行為資料庫的裝置或模塊實現。用戶歷史搜索行為資料庫保存了歷史行為信息。實現步驟S34的方法有很多種。本發明說明書提供了兩種其中的實施方式:實施方式I和實施方式2。其中實施方式I為一種簡單的實施方式。實施方式2為通過邏輯回歸算法對候選詞的匹配類型統計分析的方法。
[0045]實施方式I
設歷史行為信息包括原始字符串、點擊熱詞和點擊頻次。伺服器在用戶歷史搜索行為資料庫中查找原始字符串與初始字符串相同且點擊熱詞與候選詞相同的歷史行為信息。歷史行為信息中的點擊頻次可以作為候選詞的概率。由於點擊頻次是大於O的整數,而一般意義上的概率為(Ti之間的值,為此還可以對各個候選詞點擊頻次做歸一化處理後作為候選詞的概率,點擊頻次歸一化處理可以參考如下方法:設候選詞信息列表中包括有K
個候選詞,各個候選詞的點擊頻次分別為:
【權利要求】
1.一種用於搜索的智能提示方法,包括客戶端和伺服器,客戶端與伺服器通過網絡相連,該方法包括以下步驟: S21:客戶端獲取初始字符串; S22:客戶端發送初始字符串至伺服器; S29:伺服器接收初始字符串; S3:伺服器根據初始字符串搜索熱詞獲得候選詞信息列表; S41:伺服器將候選詞信息列表發送至終端; S49:客戶端接收候選詞信息列表; S5:客戶端根據候選詞信息列表獲取候選詞列表; S91:客戶端展示候選詞列表; 其特徵在於,所述步驟S3包括: S31:伺服器根據分詞器拆分初始字符串獲得前綴詞和後綴詞; S32:伺服器根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞; S33:伺服器遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表; 其中,所述同義詞庫為伺服器用於保存關鍵詞之間同義關聯關係的資料庫;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立;所述的熱詞庫為伺服器用於保存熱詞信息的資料庫;所述熱詞信息包括熱詞、熱詞序號和熱詞搜索頻次;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配。
2.如權利要求1所述的用於搜索的智能提示方法,其特徵在於,該方法還包括: S34:伺服器根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概率; 其中,所述的用戶歷史搜索行為資料庫用於保存歷史行為信息。
3.如權利要求2所述的用於搜索的智能提示方法,其特徵在於,所述步驟S34包括: S34al:伺服器在用戶歷史搜索行為資料庫中查找原始字符串與初始字符串相同且點擊熱詞與候選詞相同的歷史行為信息,獲得候選詞的點擊頻次; S34a2:伺服器根據對候選詞的點擊頻次做歸一化處理獲得候選詞的概率; 其中,所述的歷史行為信息包括原始字符串、點擊熱詞和點擊頻次。
4.如權利要求2所述的用於搜索的智能提示方法,其特徵在於,所述步驟S34包括: S34bl:根據候選詞在用戶歷史搜索行為資料庫查找歷史行為信息; S34b2:統計該歷史行為信息下不同前綴匹配方式和不同後綴匹配方式下的點擊頻次; S34b3:對不同前綴匹配方式和不同後綴匹配方式下的點擊頻次進行自然對數運算獲得不同前綴匹配方式和不同後綴匹配方式下的1git值; S34b4:根據二元線性回歸參數方程計算公式lcig u = & +為;+ & &中參數的值; S34b5:根據公式
5.如權利要求1或2或3或4所述的用於搜索的智能提示方法,其特徵在於,所述步驟S5包括: S51:客戶端根據本地歷史搜索資料庫計算候選詞信息列表中每個候選詞的本地相關度; S52:客戶端根據候選詞的本地相關度、候選詞信息計算每個候選詞的點擊預估值; S53:客戶端根據候選詞的點擊預估值從候選詞信息列表選取候選詞列表; 其中,所述本地歷史搜索資料庫為客戶端用於保存本地歷史搜索信息;所述本地歷史搜索信息包括本地歷史搜索字符串、本地歷史搜索時間、本地歷史搜索頻次;所述步驟S51包括: S511:用分詞器將本地歷史搜索資料庫中的本地歷史搜索字符串和候選詞信息列表中的候選詞拆分成關鍵詞列表並計算每個關鍵詞的統計頻次; S512:根據關鍵詞列表中的關鍵詞的統計頻次構建關鍵詞空間向量; S513:根據候選詞拆分的關 鍵詞在關鍵詞列表中關鍵詞的統計頻次構建候選詞空間向量; S514:計算關鍵詞空間向量與候選詞空間向量的餘弦值,獲得候選詞的本地相關度。
6.如權利要求5所述的用於搜索的智能提示方法,其特徵在於,所述步驟S511中所述的計算關鍵詞的統計頻次包括按時間加權計算的頻次的步驟。
7.如權利要求5所述的用於搜索的智能提示方法,其特徵在於,所述步驟S52中: CTR = AXRXC ;其中CTR為候選詞的點擊預估值4為候選詞的概率;R為候選詞的本地相關度;C為根據候選詞的類型確定的常數。
8.如權利要求5所述的用於搜索的智能提示方法,其特徵在於,所述步驟S52中: CTR = AXRXCXP ;其中CTR為候選詞的點擊預估值;A為候選詞的概率;R為候選詞的本地相關度;C為根據候選詞的類型確定的常數;P為候選詞的搜索頻次。
9.一種用於搜索的智能提示裝置,其特徵在於,包括: 分詞裝置,用於拆分初始字符串獲得前綴詞和後綴詞; 同義擴展裝置,用於根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞; 後綴樹遍歷裝置,用於遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配; 熱詞庫構建裝置,用於管理和維護用於保存熱詞信息的資料庫; 後綴樹構建裝置,用於管理和維護熱詞後綴樹;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立; 歷史行為分析裝置,用於根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概率; 用戶歷史搜索行為資料庫裝置,用於保存歷史行為信息。
10.一種用於搜索的智能提示系統,包括客戶端和伺服器,客戶端與伺服器通過網絡相連,其特徵在於: 所述的伺服器包括: 分詞模塊,用於拆分初始字符串獲得前綴詞和後綴詞; 同義擴展模塊,用於根據前綴詞和後綴詞在同義詞庫中查找獲得前綴同義詞和後綴同義詞; 後綴樹遍歷模塊,用於遍歷熱詞後綴樹查找前綴匹配和或後綴匹配的熱詞,獲得候選詞信息列表;所述的前綴匹配為熱詞的前綴與所述前綴詞或前綴同義詞相匹配;所述的後綴匹配為熱詞的後綴與所述後綴詞或後綴同義詞匹配; 熱詞庫構建模塊,用於管理和維護用於保存熱詞信息的資料庫; 後綴樹構建模塊,用於管理和維護熱詞後綴樹;所述的熱詞後綴樹為伺服器根據熱詞庫中的高頻搜索熱詞依據廣義後綴樹的數據結構而建立; 歷史行為分析模塊,用於根據用戶歷史搜索行為資料庫的分析計算每個候選詞的概率; 用戶歷史搜索行為資料庫模塊,用於保存歷史行為信息; 所述的客戶端包括: 本地相關度 計算模塊,用於根據本地歷史搜索資料庫計算候選詞信息列表中每個候選詞的本地相關度; 點擊預估值計算模塊,用於根據候選詞的本地相關度、候選詞信息計算每個候選詞的點擊預估值; 候選詞選取模塊,用於根據候選詞的點擊預估值從候選詞信息列表選取候選詞列表;本地歷史搜索資料庫存儲模塊,用於保存本地歷史搜索信息,所述的本地歷史搜索信息包括本地歷史搜索字符串、本地歷史搜索時間、本地歷史搜索頻次; 所述的本地相關度計算模塊包括: 關鍵詞分布統計模塊,用於用分詞器將本地歷史搜索資料庫中的本地歷史搜索字符串和候選詞信息列表中的候選詞拆分成關鍵詞列表並計算每個關鍵詞的統計頻次; 關鍵詞空間向量構建模塊,用於根據關鍵詞列表中的關鍵詞的統計頻次構建關鍵詞空間向量; 候選詞空間向量構建模塊,用於根據候選詞拆分的關鍵詞在關鍵詞列表中關鍵詞的統計頻次構建候選詞空間向量; 向量餘弦計算模塊,用於計算關鍵詞空間向量與候選詞空間向量的餘弦值,獲得候選詞的本地相關度。
【文檔編號】G06F17/30GK103631929SQ201310653732
【公開日】2014年3月12日 申請日期:2013年12月9日 優先權日:2013年12月9日
【發明者】羅晶, 尹巖, 嚴敏 申請人:江蘇金智教育信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀