檢索詞核心權重確定方法和裝置的製作方法
2023-11-08 07:51:02 6
專利名稱:檢索詞核心權重確定方法和裝置的製作方法
技術領域:
本發明實施例涉及檢索技術領域,尤其涉及一種檢索詞核心權重確定方法和裝置。
背景技術:
檢索詞(query)分析是檢索系統的基礎,在智能廣告檢索中,拍賣詞僅能命中檢 索詞中的部分切詞(term),這時對檢索詞的切詞進行賦權就非常重要了,因為只有對檢索 詞的切詞進行合理的賦權才能對拍賣詞進行合理的分級和排序。現有的檢索詞分析主要根據切詞的重要性賦權結果進行核心分析,確定核心權重。在實現本發明過程中,發明人發現現有技術中至少存在如下問題(1)切詞的重要性分析訓練的語料是檢索詞,但未考慮用戶的行為,例如檢索詞 變換、修改或換頁等操作;(2)切詞重要性詞典在一次挖掘之後,作為一個靜態的詞典使用,因而在不同檢索 詞中相同的切詞,賦權結果是相同的;(3)根據切詞的重要性賦權結果進行核心分析未引入其他維度的信息,而這些信 息會對核心分析的結果造成影響,例如地域和時間詞等;綜上所述,現有的檢索詞分析方法存在核心權重準確度低、核心分析效果欠佳的 缺陷。
發明內容
本發明實施例提供一種檢索詞核心權重確定方法和裝置,以提高核心權重的準確 度,提高核心分析的效果。本發明實施例提供一種檢索詞核心權重確定方法,包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在所述第一詞典文件中查找到所述檢索詞,則輸出所述第一詞典文件對應的 第一數據文件中保存的與所述檢索詞對應的核心權重;如果在所述第一詞典文件中未查找到所述檢索詞,則對所述檢索詞進行處理,並 在所述第一詞典文件中查找處理後的檢索詞,如果查找到所述處理後的檢索詞,則輸出所 述第一詞典文件對應的第一數據文件中保存的與所述處理後的檢索詞對應的核心權重;如 果在所述第一詞典文件中未查找到所述處理後的檢索詞,則對所述處理後的檢索詞進行切 詞計算,獲得所述處理後的檢索詞的核心權重。本發明實施例還提供一種檢索詞核心權重確定裝置,包括查找模塊,用於在線下核心計算生成的第一詞典文件中查找檢索詞;第一輸出模塊,用於當所述查找模塊在所述第一詞典文件中查找到所述檢索詞 時,輸出所述第一詞典文件對應的第一數據文件中保存的與所述檢索詞對應的核心權重;
第二輸出模塊,用於當所述查找模塊在所述第一詞典文件中未查找到所述檢索詞 時,對所述檢索詞進行處理,所述查找模塊在所述第一詞典文件中查找到處理後的檢索詞 之後,輸出所述第一詞典文件對應的第一數據文件中保存的與所述處理後的檢索詞對應的 核心權重;計算模塊,用於當所述查找模塊在所述第一詞典文件中未查找到所述處理後的檢 索詞時,對所述處理後的檢索詞進行切詞計算,獲得所述處理後的檢索詞的核心權重。本發明實施例的檢索詞核心權重確定方法和裝置,當在線下核心計算生成的第一 詞典文件中未查找到檢索詞時,對檢索詞進行處理,並在第一詞典文件中查找處理後的檢 索詞,查到後,輸出處理後的檢索詞對應的核心權重;如果仍未查到,則對處理後的檢索詞 進行切詞計算,獲得處理後的檢索詞的核心權重。本發明實施例實現了提高核心權重的準 確度,進而提高了核心分析的效果。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發 明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根 據這些附圖獲得其他的附圖。圖1為本發明檢索詞核心權重確定方法一個實施例的流程圖;圖2為本發明檢索詞核心權重確定方法另一個實施例的流程圖;圖3為本發明對第二檢索詞進行切詞計算一個實施例的流程圖;圖4為本發明線下核心計算一個實施例的流程圖;圖5為本發明關聯檢索詞構成的超圖一個實施例的示意圖;圖6為本發明檢索詞核心權重確定裝置一個實施例的結構示意圖;圖7為本發明檢索詞核心權重確定裝置另一個實施例的結構示意圖。
具體實施例方式為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例 中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員 在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。圖1為本發明檢索詞核心權重確定方法一個實施例的流程圖,如圖1所示,該實施 例可以包括步驟101,在線下核心計算生成的第一詞典文件中查找檢索詞。步驟102,判斷是否查找到檢索詞。如果查找到,則執行步驟107 ;如果在第一詞典 文件中未查找到上述檢索詞,則執行步驟103 步驟106。步驟103,對檢索詞進行處理。步驟104,在第一詞典文件中查找處理後的檢索詞。步驟105,判斷是否在第一詞典文件中查找到處理後的檢索詞。如果查找到,則執 行步驟107 ;如果在第一詞典文件中未查找到處理後的檢索詞,則執行步驟106。
步驟106,對處理後的檢索詞進行切詞計算,獲得處理後的檢索詞的核心權重。步驟107,輸出第一詞典文件對應的第一數據文件中保存的核心權重。具體地,對於在第一詞典文件中,查找到檢索詞的情形,步驟107中輸出的是第一 詞典文件對應的第一數據文件中保存的與檢索詞對應的核心權重;對於在第一詞典文件中,查找到處理後的檢索詞的情形,步驟107中輸出的是第 一詞典文件對應的第一數據文件中保存的與處理後的檢索詞對應的核心權重。上述實施例中,在線下核心計算生成的第一詞典文件中未查找到檢索詞時,對檢 索詞進行處理,並在第一詞典文件中查找處理後的檢索詞,查到後,輸出處理後的檢索詞對 應的核心權重;如果仍未查到,則對處理後的檢索詞進行切詞計算,獲得處理後的檢索詞的 核心權重。本實施例實現了提高核心權重的準確度,進而提高了核心分析的效果。圖2為本發明檢索詞核心權重確定方法另一個實施例的流程圖,如圖2所示,該實 施例可以包括步驟201,在線下核心計算生成的第一詞典文件中查找檢索詞。步驟202,判斷是否查找到檢索詞。如果查找到,則執行步驟210 ;如果在第一詞典 文件中未查找到上述檢索詞,則執行步驟203步驟209。步驟203,去除檢索詞中的地域名詞,獲得第一檢索詞。具體地,去除檢索詞中的地域名詞針對的是檢索詞的混排切詞粒度首先對檢索 詞中包含的所有切詞進行詞性標註;其次,在預先保存的地域名詞表中,查找標註為地域名 詞的切詞,如果在地域名詞表中查找到上述標註為地域名詞的切詞,則去除該標註為地域 名詞的切詞。另外,為了防止將地域名詞去除後出現孤零的單字,例如當檢索詞為「北京到上 海機票」,在去除地域名詞後會出現「到機票」這種無意義的檢索詞,本實施例使用一個詞 表將與地域名詞有關並且在去除地域名詞後會孤單的單字,在去除地域名詞的時候一併去 除。去除檢索詞中的地域名詞後,原檢索詞中未被去除的切詞將依照原有的順序拼裝 成另外一個新的檢索詞,即第一檢索詞;考慮到去除地域名詞後會出現一些基本詞轉移的 情況,例如當檢索詞為「新浪鄂州網」時,基本詞為「新浪\鄂州\網」,去除地域名詞「鄂州」 後形成的第一檢索詞為「新浪網」,基本詞為「新浪\網」,基本詞發生了轉移,本實施例中, 在去除檢索詞中的地域名詞後,首先需要進行基本詞轉移的判斷,如果基本詞發生轉移,則 不再去除該檢索詞中的地域名詞。優選地,本實施例中,在去除地域名詞時限制了地域名詞的數量,例如;可以設定 最多去除5個地域名詞,即順序去除地域名詞滿5個後不再去除檢索詞中的地域名詞;去除 的地域名詞作為地域切詞,也具有權重,目前設定為0. 1,並將該地域切詞放置在後續處理 得到核心切詞的尾部。步驟204,在第一詞典文件中查找第一檢索詞。步驟205,判斷是否在第一詞典文件中查找到第一檢索詞。如果查找到,則執行步 驟210 ;如果在第一詞典文件中未查找到第一檢索詞,則執行步驟206 步驟209。步驟206,對第一檢索詞進行規約操作,獲得第二檢索詞。本實施例中,對第一檢索詞進行規約操作是指裁剪第一檢索詞中信息量小的切
7詞,例如第一檢索詞中的介詞等;同樣,需要對第二檢索詞進行基本詞轉移判斷,如果進 行規約操作後,第一檢索詞的基本詞發生轉移,則仍使用第一檢索詞進行後續處理,否則使 用第二檢索詞進行後續處理。步驟207,在第一詞典文件中查找第二檢索詞。步驟208,判斷在第一詞典文件中是否查找到第二檢索詞。如果查找到,則執行步 驟210 ;如果在第一詞典文件中未查找到第二檢索詞,則執行步驟209。步驟209,對第二檢索詞進行切詞計算,獲得第二檢索詞的核心權重。步驟210,輸出第一詞典文件對應的第一數據文件中保存的核心權重。具體地,對於在第一詞典文件中,查找到檢索詞的情形,步驟210中輸出的是第一 詞典文件對應的第一數據文件中保存的與檢索詞對應的核心權重;對於在第一詞典文件中,查找到第一檢索詞的情形,步驟210中輸出的是第一詞 典文件對應的第一數據文件中保存的與第一檢索詞對應的核心權重;對於在第一詞典文件中,查找到第二檢索詞的情形,步驟210中輸出的是第一詞 典文件對應的第一數據文件中保存的與第二檢索詞對應的核心權重。
本實施例中,輸出的核心權重的數據結構可以為 typedef struct—query—core—t
u_int signl ;/ u_int sign2 ;/ float rel ;//
V切詞籤名ι V切詞籤名2 核心權重
u_int flag;//標記由哪些基本詞粘接而成} query_core t ;下面結合圖3,對步驟209中對第二檢索詞進行切詞計算,獲得第二檢索詞的核心 權重的過程進行詳細介紹。圖3為本發明對第二檢索詞進行切詞計算一個實施例的流程圖,如圖3所示,該實 施例包括步驟301,對第二檢索詞進行切詞,獲得第二檢索詞包含的各切詞的重要性權重。具體地,可以通過調用切詞重要性接口獲得第二檢索詞包含的各切詞的重要性權 重;其中切詞重要性接口的輸入為一個檢索詞切詞後獲得的切詞序列,返回的是各切詞的 重要性權重。步驟302,在線下核心計算生成的第二詞典文件中查找上述切詞,獲得第二詞典文 件對應的第二數據文件中保存的上述切詞對應的關聯檢索詞和該關聯檢索詞對應的核心 成分。本實施例中,關聯檢索詞是通過分析挖掘大量檢索日誌得到用戶經常一起查詢的 檢索詞,例如檢索「手機」的用戶有3. 4%的概率會同時檢索「諾基亞手機」。步驟303,以上述切詞的重要性權重對上述切詞對應的關聯檢索詞進行加權,按照 關聯檢索詞的權重由大至小的順序,選取預定數量的關聯檢索詞和該關聯檢索詞對應的核 心成分組成第一特徵向量。具體地,本實施例根據關聯檢索詞的權重,按照由大至小的順序對關聯檢索詞進行去重排序,去重規則為對於同一關聯檢索詞具有不同權重的情形,取較大的權重作為該 關聯檢索詞的權重。然後在排序後的關聯檢索詞中按照權重由大至小的順序,選擇預定數 量的關聯檢索詞和該預定數量的關聯檢索詞對應的核心成分組成第一向量fv,第一向量 fv的元素為切詞的籤名以及對應的權重。其中,該預定數量可以為20。步驟304,計算每個切詞對應的關聯檢索詞和該關聯檢索詞對應的核心成分組成 的第二特徵向量fvn與第一特徵向量fv的夾角的餘弦值,該餘弦值為每個切詞的權重。步驟305,按照切詞的權重由大到小的順序對上述切詞進行排序,選擇權重最大的 切詞作為核心切詞T。。步驟306,將切詞中除核心切詞之外的其他切詞Ti與該核心切詞T。進行粘接,獲 得粘接切詞Tp。步驟307,根據上述切詞中除核心切詞之外的其他切詞Ti與核心切詞Τ。對應的關 聯檢索詞,獲得粘接切詞Tp對應的關聯檢索詞和該粘接切詞Tp對應的關聯檢索詞的核心成 分,Tp對應的關聯檢索詞和該Tp對應的關聯檢索詞的核心成分組成第三特徵向量。具體地,將Ti與Τ。的關聯檢索詞通過切詞的重要性權重加權後,按照關聯檢索詞 的權重由大至小的順序,選取預定數量(例如20)的關聯檢索詞,並將選取的關聯檢索詞 進行組合獲得Tp對應的關聯檢索詞和該Tp對應的關聯檢索詞的核心成分,Tp對應的關聯檢 索詞和該Tp對應的關聯檢索詞的核心成分組成第三特徵向量fvp。步驟308,計算第三特徵向量fvp與第一特徵向量fv的夾角的餘弦值,作為粘接切 詞Tp的權重,並對粘接切詞Tp的權重進行修正,修正後的粘接切詞的權重為第二檢索詞的 核心權重。具體地,在步驟308中,如果計算出來Tp的權重小於T。的權重R。,則將Tp的權重 直接修正為R。+delta,其中,delta為0. 0001/η, η為被粘貼的非核心切詞Ti在步驟305中 的排序位置。本實施例中,對於進行切詞計算權重的所有切詞,都將標誌(flag)的第31位設為 1。另外,對於「幹手機」這類詞,切詞後獲得的切詞「幹\手機」中只有一個切詞「手 機」能在第二詞典文件中查找到關聯檢索詞以及該關聯檢索詞對應的核心成分,而其他切 詞都沒有關聯檢索詞以及對應的核心成分,這時直接使用切詞的重要性權重對各個切詞進 行加權,並將flag的第30位設為1。上述實施例中,在線下核心計算生成的第一詞典文件中未查找到檢索詞時,對檢 索詞進行去除地域名詞和規約操作,並在第一詞典文件中查找處理後的檢索詞,查到後,輸 出處理後的檢索詞對應的核心權重;如果仍未查到,則對處理後的檢索詞進行切詞計算, 獲得處理後的檢索詞的核心權重。本實施例實現了提高核心權重的準確度,進而提高了核 心分析的效果。經實驗驗證,利用本實施例提供的方法,獲得核心權重的準確率可以達到 92. 22%。本發明圖1、圖2和圖3所示實施例中的第一詞典文件、第一數據文件、第二詞典文 件和第二數據文件是通過進行線下核心計算生成的,下面對線下核心計算進行詳細介紹。圖4為本發明線下核心計算一個實施例的流程圖,如圖4所示,該實施例可以包 括
步驟401,將預定時間內的檢索日誌匯總為日誌文件。具體地,首先,可以每天定時從網頁搜索日誌機下載根據用戶標識(cookieid)排 序的檢索日誌c00kie_S0rt. *文件;該檢索日誌COOkie_SOrt. *文件中的每一行代表了用 戶的一次檢索行為。例如假設一個檢索日誌COOkie_SOrt. *文件中的一行為0000A7F0842AA9C4668858 26 70E8E6DC 121. 227. 2. 7222/Apr/2009 20:31:430-1-1-1-1-10 福利彩票雙色球-100其中,「0000A7F0842AA9C46688582670E8E6DC」為用戶的 cookieid ;「福利彩票雙 色球」為檢索詞。然後將下載得到的檢索日誌中,預定時間內的檢索詞去重後匯總到同一行下(以 「\t」分隔),一行中檢索詞的個數限制為100個,若檢索詞的個數超過100將被捨棄;並將 多個檢索日誌匯總成以日期命名的一個文件,例如2009年4月22日的檢索日誌處理後的 文件名為20090422。每一行包含的檢索詞可以為濱海古圓奉賢濱海古圓最後,去除檢索詞中的地域名詞,並對檢索詞進行規約操作,並具體可以為首先 對檢索詞中包含的所有切詞進行詞性標註;其次,在預先保存的地域名詞表中,查找標註為 地域名詞的切詞,如果在地域名詞表中查找到上述標註為地域名詞的切詞,則去除該標註 為地域名詞的切詞。再次,調用規約模塊進行規約操作,即裁剪檢索詞中信息量小的切詞, 例如檢索詞中的介詞等。經上述處理後的檢索詞追加到當月的匯總日誌文件中,以年月命名,例如 200905。生成當月匯總日誌文件後,將刪除原始的日誌文件以及中間文件。本實施例中,在 每月的1日,以時間新老順序依次將多月的檢索日誌匯總成單一的日誌文件;較新的檢索 日誌置於該日誌文件靠前的位置,反之則放到日誌文件靠後的位置。步驟402,對日誌文件中的檢索詞進行編碼,並對編碼後的檢索詞進行關聯挖掘, 獲得關聯檢索詞。具體地,考慮到時效性以及系統內存開銷,本實施例限制了檢索詞的編碼範圍,例 如可以將編碼範圍限定為1 232_1,另外由於步驟401已經按照檢索日誌的生成時間由 新至舊的順序,對檢索日誌進行整合生成日誌文件,從而可以保證較新的檢索詞能夠得到 編碼並被處理,具有較好的時效性。編碼是將檢索詞映射為標識(Identifier ;以下簡稱 ID),可以節約存儲開銷,另外關聯挖掘過程都將基於檢索詞的ID進行,而非基於檢索詞本 身。考慮到內存的實際情況,哈希(hash)表中不可能保存所有的檢索詞到ID的編碼 對〈query,ID>,因此當哈希表已滿時,將進行哈希表的遍歷,並刪除哈希表中統計計數低於 2的〈query,ID>對;因而這些被刪除的檢索詞,如果在後續的檢索流中再次出現,將會被重 新編碼。另外限制ID的範圍為1 232_1,超過部分則不再進行編碼,也不再進行後續的挖 掘處理。在內存為16G的機器上,設置的哈希節點數為256X10MXM00,內存為32G的機 器上哈希節點數可調整為256 X 10 X 4600。編碼針對的對象是到日前為止積累下來的多個月的檢索日誌合併成的日誌文件,輸出為ID化的檢索日誌流OlueryIDLog),以及ID到檢索詞的映射文件(QueryIDMap)。ID 到檢索詞的映射文件的一個示例如下1 baidu2 sina3 google其中,第一列為檢索詞ID,第二列為檢索詞。ID化的檢索日誌流(QueryIDLog)的一個示例如下1 2 32 13 2當ID開始溢出時,可以刪除時間最老的日誌文件,例如當文件名為200905和 200904的檢索日誌合併生成的日誌文件,在編碼時ID溢出,需要刪除的文件是200904,以
節省磁碟開銷。編碼之後,對日誌文件使用apriori算法進行關聯挖掘,獲得關聯檢索詞。本實施 例中,關聯檢索詞是通過分析挖掘大量檢索日誌得到用戶經常一起查詢的檢索詞,例如檢 索「手機」的用戶有3. 4%的概率會同時檢索「諾基亞手機」。具體地,本實施例的關聯挖掘算法的輸入是編碼後的事務數據,輸出是關聯檢索 詞構成的超圖(hyper-graph)。超圖中的節點為關鍵檢索詞,兩個節點之間的連線上的權 值為兩個關聯檢索詞的相關程度。圖5為本發明關聯檢索詞構成的超圖一個實施例的示意 圖。本實施例中的關聯挖掘算法是一種挖掘數據流的算法,能夠在有限的內存空間上 完成對無限量數據的實時挖掘,該算法是可遞增的,因此具有很好的可伸縮性。該算法在保證一定誤差限度的前提下得到的關聯檢索詞挖掘結果是正確結果的 子集,但可能會漏掉少量的正確結果,因此會產生誤差,然而該誤差不會超過預定的閾值, 所以該算法的誤差是可控的。假設該算法的參數最小支持度為s,誤差係數為S,總事務數 為N,則該算法的性質如下1、所有支持度計數大於sXN的頻繁項和頻繁項集被該算法挖掘到的概率大於 1"δ ;2、該算法不會挖掘出任何支持度計數小於sXN的頻繁項或者頻繁項集;3、該算法對頻繁項或者頻繁項集的支持度的近似值與其真實值相等的概率不小 於U ;4、該算法使用的內存開銷最多不超過0+21nO/S))/s。支持本實施例的關聯挖掘算法處理海量數據的技術是數據流壓縮技術,數據流壓 縮技術在保證一定精度的前提下,可以對數據流進行有損的壓縮。雖然會帶來一定的誤差, 但如上所述這種誤差是可控的。本實施例的關聯挖掘算法分為兩部分1、頻繁1項集挖掘;2、頻繁2項集挖掘。具 體流程如下1、頻繁1項挖掘算法頻繁1項挖掘算法0122]輸入事務數據流S,最小支持度閾值S,誤差概率δ。
0123]輸出S中的頻繁1項集P。
0124]方法
0125](1)設Iitl為內存開銷的上限,其值通過最小支持度閾值s和誤差概率δ求得
權利要求
1.一種檢索詞核心權重確定方法,其特徵在於,包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在所述第一詞典文件中查找到所述檢索詞,則輸出所述第一詞典文件對應的第一 數據文件中保存的與所述檢索詞對應的核心權重;如果在所述第一詞典文件中未查找到所述檢索詞,則對所述檢索詞進行處理,並在所 述第一詞典文件中查找處理後的檢索詞,如果查找到所述處理後的檢索詞,則輸出所述第 一詞典文件對應的第一數據文件中保存的與所述處理後的檢索詞對應的核心權重;如果在 所述第一詞典文件中未查找到所述處理後的檢索詞,則對所述處理後的檢索詞進行切詞計 算,獲得所述處理後的檢索詞的核心權重。
2.根據權利要求1所述的方法,其特徵在於,所述對所述檢索詞進行處理,並在所述第 一詞典文件中查找處理後的檢索詞,如果查找到所述處理後的檢索詞,則輸出所述第一詞 典文件對應的第一數據文件中保存的與所述處理後的檢索詞對應的核心權重包括去除所述檢索詞中的地域名詞,獲得第一檢索詞;在所述第一詞典文件中查找所述第一檢索詞,如果查找到,則輸出所述第一詞典文件 對應的第一數據文件中保存的與所述第一檢索詞對應的核心權重;如果在所述第一詞典文件中未查找到所述第一檢索詞,則對所述第一檢索詞進行規約 操作,獲得第二檢索詞,並在所述第一詞典文件中查找所述第二檢索詞,如果查找到,則輸 出所述第一詞典文件對應的第一數據文件中保存的與所述第二檢索詞對應的核心權重。
3.根據權利要求2所述的方法,其特徵在於,所述對所述處理後的檢索詞進行切詞計 算,獲得所述處理後的檢索詞的核心權重包括對所述第二檢索詞進行切詞,並獲得所述第二檢索詞包含的各切詞的重要性權重;在線下核心計算生成的第二詞典文件中查找所述切詞,獲得所述第二詞典文件對應的 第二數據文件中保存的所述切詞對應的關聯檢索詞和所述關聯檢索詞對應的核心成分;以所述切詞的重要性權重對所述切詞對應的關聯檢索詞進行加權,按照所述關聯檢索 詞的權重由大至小的順序,選取預定數量的關聯檢索詞和所述關聯檢索詞對應的核心成分 組成第一特徵向量;計算所述切詞對應的關聯檢索詞和所述關聯檢索詞對應的核心成分組成的第二特徵 向量與所述第一特徵向量的夾角的餘弦值,所述餘弦值為所述切詞的權重;按照所述切詞的權重由大到小的順序對所述切詞進行排序,選擇權重最大的切詞作為 核心切詞;將所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞進行粘接,獲得粘接 切詞,並根據所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞對應的關聯檢索 詞,獲得所述粘接切詞對應的關聯檢索詞和所述粘接切詞對應的關聯檢索詞的核心成分, 所述粘接切詞對應的關聯檢索詞和所述粘接切詞對應的關聯檢索詞的核心成分組成第三 特徵向量;計算所述第三特徵向量與所述第一特徵向量的夾角的餘弦值,作為所述粘接切詞的權 重,並對所述粘接切詞的權重進行修正,修正後的粘接切詞的權重為所述第二檢索詞的核 心權重。
4.根據權利要求1-3任意一項所述的方法,其特徵在於,還包括進行線下核心計算,生成所述第一詞典文件、所述第一數據文件、所述第二詞典文件和所述第二數據文件。
5.根據權利要求4所述的方法,其特徵在於,所述進行線下核心計算,生成所述第一詞 典文件、所述第一數據文件、所述第二詞典文件和所述第二數據文件包括將預定時間內的檢索日誌匯總為日誌文件;對所述日誌文件中的檢索詞進行編碼,並對編碼後的檢索詞進行關聯挖掘,獲得關聯 檢索詞;根據所述關聯檢索詞生成倒排索引文件;對所述倒排索引文件中的關聯檢索詞進行核心分析,獲得所述第一詞典文件和所述第 一數據文件;對所述倒排索引文件中的檢索詞進行切詞,並對所述檢索詞包含的切詞進行核心分 析,獲得所述第二詞典文件和所述第二數據文件。
6.一種檢索詞核心權重確定裝置,其特徵在於,包括查找模塊,用於在線下核心計算生成的第一詞典文件中查找檢索詞;第一輸出模塊,用於當所述查找模塊在所述第一詞典文件中查找到所述檢索詞時,輸 出所述第一詞典文件對應的第一數據文件中保存的與所述檢索詞對應的核心權重;第二輸出模塊,用於當所述查找模塊在所述第一詞典文件中未查找到所述檢索詞時, 對所述檢索詞進行處理,所述查找模塊在所述第一詞典文件中查找到處理後的檢索詞之 後,輸出所述第一詞典文件對應的第一數據文件中保存的與所述處理後的檢索詞對應的核 心權重;計算模塊,用於當所述查找模塊在所述第一詞典文件中未查找到所述處理後的檢索詞 時,對所述處理後的檢索詞進行切詞計算,獲得所述處理後的檢索詞的核心權重。
7.根據權利要求6所述的裝置,其特徵在於,所述第二輸出模塊包括去除子模塊,用於去除所述檢索詞中的地域名詞,獲得第一檢索詞;第一權重輸出子模塊,用於在所述查找模塊在所述第一詞典文件中查找到所述第一檢 索詞之後,輸出所述第一詞典文件對應的第一數據文件中保存的與所述第一檢索詞對應的 核心權重;規約子模塊,用於當所述查找模塊在所述第一詞典文件中未查找到所述第一檢索詞 時,對所述第一檢索詞進行規約操作,獲得第二檢索詞;第二權重輸出子模塊,用於在所述查找模塊在所述第一詞典文件中查找到所述第二檢 索詞之後,輸出所述第一詞典文件對應的第一數據文件中保存的與所述第二檢索詞對應的 核心權重。
8.根據權利要求7所述的裝置,其特徵在於,所述計算模塊包括切詞子模塊,用於對所述第二檢索詞進行切詞,並獲得所述第二檢索詞包含的各切詞 的重要性權重;切詞查找子模塊,用於在線下核心計算生成的第二詞典文件中查找所述切詞,獲得所 述第二詞典文件對應的第二數據文件中保存的所述切詞對應的關聯檢索詞和所述關聯檢 索詞對應的核心成分;選取子模塊,用於以所述切詞的重要性權重對所述切詞對應的關聯檢索詞進行加權, 按照所述關聯檢索詞的權重由大至小的順序,選取預定數量的關聯檢索詞和所述關聯檢索詞對應的核心成分組成第一特徵向量;第一計算子模塊,用於計算所述切詞對應的關聯檢索詞和所述關聯檢索詞對應的核心 成分組成的第二特徵向量與所述第一特徵向量的夾角的餘弦值,所述餘弦值為所述切詞的 權重;排序子模塊,用於按照所述切詞的權重由大到小的順序對所述切詞進行排序,選擇權 重最大的切詞作為核心切詞;粘接子模塊,用於將所述切詞中除所述核心切詞之外的其他切詞與所述核心切詞進行 粘接,獲得粘接切詞;成分獲得子模塊,用於根據所述切詞中除所述核心切詞之外的其他切詞與所述核心切 詞對應的關聯檢索詞,獲得所述粘接切詞對應的關聯檢索詞和所述粘接切詞對應的關聯檢 索詞的核心成分,所述粘接切詞對應的關聯檢索詞和所述粘接切詞對應的關聯檢索詞的核 心成分組成第三特徵向量;第二計算子模塊,用於計算所述第三特徵向量與所述第一特徵向量的夾角的餘弦值, 作為所述粘接切詞的權重;修正子模塊,用於對所述第二計算子模塊計算的粘接切詞的權重進行修正,修正後的 粘接切詞的權重為所述第二檢索詞的核心權重。
9.根據權利要求6-8任意一項所述的裝置,其特徵在於,還包括線下計算模塊,用於進行線下核心計算,生成所述第一詞典文件、所述第一數據文件、 所述第二詞典文件和所述第二數據文件。
10.根據權利要求9所述的裝置,其特徵在於,所述線下計算模塊包括 匯總子模塊,用於將預定時間內的檢索日誌匯總為日誌文件; 編碼子模塊,用於對所述日誌文件中的檢索詞進行編碼;挖掘子模塊,用於對所述編碼子模塊編碼後的檢索詞進行關聯挖掘,獲得關聯檢索詞;生成子模塊,用於根據所述挖掘子模塊獲得的關聯檢索詞生成倒排索引文件; 第一獲得子模塊,用於對所述生成子模塊生成的倒排索引文件中的關聯檢索詞進行核 心分析,獲得所述第一詞典文件和所述第一數據文件;第二獲得子模塊,用於對所述生成子模塊生成的倒排索引文件中的檢索詞進行切詞, 並對所述檢索詞包含的切詞進行核心分析,獲得所述第二詞典文件和所述第二數據文件。
全文摘要
本發明實施例提供一種檢索詞核心權重確定方法和裝置,該檢索詞核心權重確定方法包括在線下核心計算生成的第一詞典文件中查找檢索詞;如果在第一詞典文件中查找到所述檢索詞,則輸出第一詞典文件對應的第一數據文件中保存的與檢索詞對應的核心權重;如果在第一詞典文件中未查找到檢索詞,則對檢索詞進行處理,並在第一詞典文件中查找處理後的檢索詞,如果查找到處理後的檢索詞,則輸出第一詞典文件對應的第一數據文件中保存的與處理後的檢索詞對應的核心權重;如果在第一詞典文件中未查找到處理後的檢索詞,則對處理後的檢索詞進行切詞計算,獲得處理後的檢索詞的核心權重。本發明實施例實現了提高核心權重的準確度,進而提高了核心分析的效果。
文檔編號G06F17/30GK102103604SQ20091024287
公開日2011年6月22日 申請日期2009年12月18日 優先權日2009年12月18日
發明者潘子浩, 秦首科 申請人:百度在線網絡技術(北京)有限公司