搜索庫生成方法及裝置與流程
2023-06-12 16:49:22 1

本發明實施例屬於信息處理領域,尤其涉及一種搜索庫生成方法及裝置。
背景技術:
在IPTV/OTT、智能電視等產品中,由於遙控器的限制,不能直接輸入漢字,基於漢字拼音或者漢字拼音首字母的輸入和搜索方法是很常用的一種查詢方法。
而漢字存在多音字,同一個字在不同詞語或語句中可以有不同的讀音。例如,新聞《殼牌重啟北冰洋油氣勘探遭抗議》中「殼」的讀音應為[qiào],但現實情況是很多人會把「殼」讀為[ké],以至於在百度搜索中詢問「殼牌怎麼讀」的結果超過千條。現有技術中,詞句中漢字對應的拼音是由計算機根據詞句中每個漢字對應的標準拼音讀音拼接起來的,因為讀音只能有一個並且漢字有多音字的問題,詞句翻譯的漢字拼音很可能出現錯誤,最簡單的方法是通過人工糾正錯誤拼音讀音進行搜索。某些複雜系統是根據詞語在語句中的語義、位置、文法來分析漢字的多音字讀音,這種方法需要維護一個複雜的語義庫,而且隨著多音字使用語義、位置、文法的不同,語義庫需要不斷擴展和更新,需要較高的技術實現能力和維護成本。針對上述技術方法實現的詞句用拼音搜索準確度較低,搜索效率也比較低,開發維護成本較高,自動化程度低。
故,有必要提出一種新的技術方案,以解決上述技術問題。
技術實現要素:
本發明實施例提供了一種搜索庫生成方法及裝置,旨在解決現有的拼音輸入搜索因存在多音字導致搜索不準確且搜索效率較低的問題。
本發明實施例是這樣實現的,一種搜索庫生成方法,所述方法包括:
建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合;
獲取用戶輸入的搜索關鍵字;
按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合;
基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
進一步地,所述按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合,包括:
獲取用戶採納的搜索結果詞句;
將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄;
基於所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字;
基於所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合。
進一步地,所述基於所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合,包括:
基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數佔比;
過濾所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字,以生成第二搜索拼音組合;
對應的,所述基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫,包括:
基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
進一步地,所述基於第一搜索拼音組合,按預設多音字搜索規則對第一拼音搜索庫進行過濾,生成第二拼音搜索庫,包括:
刪除所述第一拼音搜索庫中,除第一搜索拼音組合和預設拼音組合之外的其他拼音組合,以生成第二拼音搜索庫。
進一步地,所述建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合,包括:
獲取詞句中的文字個數和多音字個數;
基於所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合;
基於詞句的全部拼音組合建立第一拼音搜索庫。
本發明實施例的另一目的在於提供一種搜索庫生成裝置,所述裝置包括:
第一拼音搜索庫建立單元,用於建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合;
搜索關鍵字獲取單元,用於獲取用戶輸入的搜索關鍵字;
第一搜索拼音組合生成單元,用於按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合;
第二拼音搜索庫生成單元,用於基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
進一步地,所述第一搜索拼音組合生成單元包括:
搜索結果詞句獲取模塊,用於獲取用戶採納的搜索結果詞句;
關聯記錄生成模塊,用於將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄;
搜索關鍵字獲取模塊,用於基於所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字;
第一搜索拼音組合生成模塊,用於基於所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合。
進一步地,所述第一搜索拼音組合生成模塊,包括:
關聯次數佔比統計模塊,用於基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數佔比;
第二搜索拼音組合生成模塊,用於過濾所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字,以生成第二搜索拼音組合;
對應的,所述第二拼音搜索庫生成單元,包括:
第二拼音搜索庫生成模塊,用於基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
進一步地,所述第二拼音搜索庫生成單元包括:
第二拼音搜索庫生成模塊,還用於刪除所述第一拼音搜索庫中,除第一搜索拼音組合和預設拼音組合之外的其他拼音組合,以生成第二拼音搜索庫。
進一步地,所述第一拼音搜索庫建立單元包括:
個數獲取模塊,用於獲取詞句中的文字個數和多音字個數;
拼音組合獲取模塊,用於基於所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合;
第一拼音搜索庫建立模塊,用於基於詞句的全部拼音組合建立第一拼音搜索庫。
在本發明實施例中,通過建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合,獲取用戶輸入的搜索關鍵字,按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合,基於所述第一搜索拼音組合,按預設多音字搜索規則對第一拼音搜索庫進行過濾,生成第二拼音搜索庫,將用戶輸入的搜索關鍵字結合用戶搜索習慣過濾後生成拼音搜索庫,從而提高多音字拼音搜索效率和搜索準確率。
附圖說明
圖1是本發明第一實施例提供的一種搜索庫生成方法的流程圖;
圖2是本發明第二實施例提供的一種搜索庫生成方法的流程圖;
圖3是本發明第三實施例提供的一種搜索庫生成裝置的結構圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
應當理解,當在本說明書和所附權利要求書中使用時,術語「包括」指示所描述特徵、整體、步驟、操作、元素和/或組件的存在,但並不排除一個或多個其它特徵、整體、步驟、操作、元素、組件和/或其集合的存在或添加。
還應當理解,在此本發明說明書中所使用的術語僅僅是出於描述特定實施例的目的而並不意在限制本發明。如在本發明說明書和所附權利要求書中所使用的那樣,除非上下文清楚地指明其它情況,否則單數形式的「一」、「一個」及「該」意在包括複數形式。
還應當進一步理解,在本發明說明書和所附權利要求書中使用的術語「和/或」是指相關聯列出的項中的一個或多個的任何組合以及所有可能組合,並且包括這些組合。
如在本說明書和所附權利要求書中所使用的那樣,術語「如果」可以依據上下文被解釋為「當...時」或「一旦」或「響應於確定」或「響應於檢測到」。類似地,短語「如果確定」或「如果檢測到[所描述條件或事件]」可以依據上下文被解釋為意指「一旦確定」或「響應於確定」或「一旦檢測到[所描述條件或事件]」或「響應於檢測到[所描述條件或事件]」。
本發明實施例中,建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合,獲取用戶輸入的搜索關鍵字,按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合,基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
為了說明本發明所述的技術方案,下面通過具體實施例來進行說明。
實施例一:
圖1示出了本發明第一實施例提供的一種搜索庫生成方法的流程圖,詳述如下:
步驟S11,建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合。
可選地,所述步驟S11包括:
A1、獲取詞句中的文字個數和多音字個數。
A2、基於所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合。
A3、基於詞句的全部拼音組合建立第一拼音搜索庫。其中,將所述詞句的全部拼音組合都建立索引。
具體地,當詞句中不存在多音字時,當詞句中存在至少一個字不止一個讀音時,基於所述文字個數和所述多音字個數利用如下公式計算詞句的拼音組合個數:
其中D表示詞句的拼音組合個數,ni表示詞句中漢字的有效讀音個數,其中,1≤i≤m。當ni=1時,該漢字為單音字,當ni>1時,該漢字為多音字,m表示詞句中漢字的個數。如,當m=4時,例如,「哪吒鬧海」一詞中,「哪」字有4中讀音,分別是:[nǎ],[něi],[na],[né];「吒」字有2種讀音:[zhà],[zhā];「鬧」字有1種讀音:[nào];「海」字有1種讀音:[hǎi]。基於上述公式可知:
即,「哪吒鬧海」一詞全部拼音組合共有8個,分別如下:
1.[nǎ][zhà][nào][hǎi];
2.[něi][zhà][nào][hǎi];
3.[na][zhà][nào][hǎi];
4.[né][zhà][nào][hǎi];
5.[nǎ][zhā][nào][hǎi];
6.[něi][zhā][nào][hǎi];
7.[na][zhā][nào][hǎi];
8.[né][zhā][nào][hǎi]。
其中,第8種為標準讀音。將這8個拼音組合全部存入第一拼音搜索庫,其他詞句做相似處理,基於詞句的全部拼音組合建立第一拼音搜索庫,所述第一拼音搜索庫中包括詞句的標準拼音組合。對詞句的標準拼音組合進行標記。
步驟S12,獲取用戶輸入的搜索關鍵字。
其中,用戶輸入的搜索關鍵字可以是搜索關鍵字的拼音,也可以是搜索關鍵字的拼音首字母。例如,在IPTV機頂盒、OTT機頂盒等媒體播放業務中,可以通過遙控器輸入搜索關鍵字的拼音首字母進行搜索。對應地,所述步驟S11中所述第一拼音搜索庫可以是基於由拼音首字母組合建立。
步驟S13,按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合。
可選地,結合用戶搜索輸入習慣,所述步驟S13包括:
B1、獲取用戶採納的搜索結果詞句。
B2、將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄。
B3、基於所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字。
B4、基於所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合。
通過將用戶輸入的搜索關鍵字和用戶採納的搜索結果詞句建立關聯,結合用戶的輸入習慣生成第一搜索拼音組合,提高用戶的搜索效率。
可選地,針對涉及多音字的詞句的搜索,為提高搜索的準確率,所述B4包括:
B41、獲取每一個搜索關鍵字中的多音字個數。
B42、選取多音字個數大於或等於1的搜索關鍵字,生成第一搜索拼音組合。
具體地,若用戶最後採納的搜索結果詞句中包含多音字,通過獲取所述搜索結果詞句關聯的搜索關鍵字的多音字的個數,將不包含多音字的搜索關鍵字過濾,生成第一搜索拼音組合。
步驟S14,基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
可選地,為了進一步提高用戶使用拼音搜索的準確率,所述步驟S14包括:
C1、刪除所述第一拼音搜索庫中,除第一搜索拼音組合和預設拼音組合之外的其他拼音組合,以生成第二拼音搜索庫。
具體地,所述第一拼音搜索庫中包含詞句的全部拼音組合,結合所述第一搜索拼音組合和預設拼音組合,如,詞句的標準拼音組合,對所述第一拼音搜索庫進行過濾,將除第一搜索拼音組合(即用戶採納的結果詞句)和預設拼音組合(詞句的標準拼音組合)以外的其餘拼音組合刪除。
本發明第一實施例中,通過建立第一拼音搜索庫,獲取用戶輸入的搜索關鍵字,按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合,基於所述第一搜索拼音組合,按預設多音字搜索規則對第一拼音搜索庫進行過濾,生成第二拼音搜索庫,將用戶輸入的搜索關鍵字結合用戶搜索習慣過濾後生成拼音搜索庫,從而提高多音字拼音搜索效率和搜索準確率。
實施例二:
圖2示出了本發明第二實施例提供的一種搜索庫生成方法的流程圖,本實施例是對實施例一種步驟S13的進一步描述,詳述如下:
步驟S21,建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合。具體步驟內容請參考實施例一步驟S11,在此不再贅述。
步驟S22,獲取用戶輸入的搜索關鍵字。具體步驟內容請參考實施例一驟S12,在此不再贅述。
步驟S23,獲取用戶採納的搜索結果詞句。
步驟S24,將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄。
通過將用戶輸入的搜索關鍵字和用戶採納的搜索結果詞句建立關聯,結合用戶的輸入習慣生成第一搜索拼音組合,提高用戶的搜索效率。
步驟S25,基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數佔比。
可選地,在預設時間間隔內更新統計所述關聯次數佔比,以便確保搜索的準確性。
可選地,針對涉及多音字的詞句的搜索,為提高搜索的準確率,在所述步驟S25之前,包括:
D1、基於所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字。
D2、獲取每一個搜索關鍵字中的多音字個數。
D3、選取多音字個數大於或等於1的搜索關鍵字,生成第一搜索拼音組合。
具體地,若用戶最後採納的搜索結果詞句中包含多音字,通過獲取所述搜索結果詞句關聯的搜索關鍵字的多音字的個數,將不包含多音字的搜索關鍵字過濾,生成第一搜索拼音組合。
步驟S26,過濾所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字,以生成第二搜索拼音組合。
步驟S27,根據所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
具體地,所述第一拼音搜索庫中包含詞句的全部拼音組合,結合所述第一搜索拼音組合和預設拼音組合,如,詞句的標準拼音組合,對所述第一拼音搜索庫進行過濾,將除第一搜索拼音組合(即用戶採納的結果詞句)和預設拼音組合(詞句的標準拼音組合)以外的其餘拼音組合刪除。
以一個應用場景為例,用戶輸入搜索關鍵字查找電影《諜影重重》,搜索結果詞句為「諜影重重」,其中,多音字為第3、4個字「重」,其讀音有2種,分別為[zhòng]和[chóng]。以拼音首字母建立索引,該詞句的全部拼音組合為:DYCC,DYCZ,DYZC,DYZZ,用戶以此四種拼音首字母為搜索關鍵字進行搜索可能出現的情況如下:
1.搜索關鍵字:D,搜索關聯次數:1302次;
2.搜索關鍵字:DY,搜索關聯次數:1988次;
3.搜索關鍵字:DYCC,搜索關聯次數:73089次;
4.搜索關鍵字:DYZZ,搜索關聯次數:885次;
5.搜索關鍵字:DYC,搜索關聯次數:3280次;
6.搜索關鍵字:DYZ,搜索關聯次數:23次;
7.搜索關鍵字:DYZC,搜索關聯次數:0次;
8.搜索關鍵字:DYCZ,搜索關聯次數:0次。
其中,標記DYCC為標準拼音組合。獲取搜索關鍵字中的多音字個數,選取多音字個數大於等於1的搜索關鍵字,即,選取序號3-8,即DYCC、DYZZ、DYC、DYZ、DYZC以及DYCZ6種組合生成第一搜索拼音組合,在這6種組合中選取與搜索結果詞句字數相同的搜索關鍵字DYCC、DYZZ、DYZC以及DYCZ,而將字數少於搜索結果詞句字數的搜索關鍵字的關聯次數合併至包含其全部搜索關鍵字的組合中,如,DYCC的實際搜索關聯次數為76369次,即為搜索關鍵字DYCC的搜索關聯次數73089次與DYC的搜索關聯次數3280次之和,同樣的,DYZC的實際搜索關聯次數為23次,即為搜索關鍵字DYZC的搜索關聯次數0次與搜索關鍵字DYZ的搜索關聯次數23次之和,其他組合的實際搜索關聯次數也是如此。基於所述關聯次數,統計搜索關鍵字的關聯次數佔比,將所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字過濾,通過計算可知,DYCZ和DYZC被過濾刪除,根據標準拼音組合DYCC和用戶習慣搜索拼音組合DYZZ生成第二搜索拼音組合,基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。用戶可使用該拼音搜索庫進行搜索查找。
本發明第二實施例中,通過建立第一拼音搜索庫,獲取用戶輸入的搜索關鍵字,再獲取用戶採納的搜索結果詞句,將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄,基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數,將所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字過濾,生成第二搜索拼音組合,基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。將用戶輸入的搜索關鍵字結合用戶搜索拼音輸入習慣生成拼音搜索庫,從而提高多音字拼音搜索效率和搜索準確率。
應理解,在本發明實施例一和實施例二中,上述各過程的序號的大小並不意味著執行順序的先後,各過程的執行順序應以其功能和內在邏輯確定,而不應對本發明實施例的實施過程構成任何限定。
實施例三:
圖3示出了本發明第三實施例提供的一種搜索庫生成裝置的結構圖,該裝置可以用於但不限於集成播控平臺、IPTV系統、OTT網際網路視頻系統、互動數位電視系統或智能電視。為了便於說明,僅示出了與本發明實施例相關的部分。
該搜索庫生成裝置包括:第一拼音搜索庫建立單元31、搜索關鍵字獲取單元32、第一搜索拼音組合生成單元33、第二拼音搜索庫生成單元34,其中:
第一拼音搜索庫建立單元31,用於建立第一拼音搜索庫,所述第一拼音搜索庫包括詞句的全部拼音組合。
可選地,所述第一拼音搜索庫建立單元31包括:
個數獲取模塊,用於獲取詞句中的文字個數和多音字個數;
拼音組合獲取模塊,用於基於所述文字個數和所述多音字個數,獲取所述詞句的全部拼音組合;
第一拼音搜索庫建立模塊,用於基於詞句的全部拼音組合建立第一拼音搜索庫。其中,將所述詞句的全部拼音組合都建立索引。
具體地,基於詞句的全部拼音組合建立第一拼音搜索庫,所述第一拼音搜索庫中包括詞句的標準拼音組合。對詞句的標準拼音組合進行標記。
搜索關鍵字獲取單元32,用於獲取用戶輸入的搜索關鍵字。
其中,用戶輸入的搜索關鍵字可以是搜索關鍵字的拼音,也可以是搜索關鍵字的拼音首字母。例如,在IPTV機頂盒、OTT機頂盒等媒體播放業務中,可以通過遙控器輸入搜索關鍵字的拼音首字母進行搜索。對應地,所述第一拼音搜索庫可以是基於由拼音首字母組合建立。
第一搜索拼音組合生成單元33,用於按預設拼音組合規則對所述搜索關鍵字進行過濾,生成第一搜索拼音組合。
可選地,結合用戶搜索輸入習慣,所述第一搜索拼音組合生成單元33包括:
搜索結果詞句獲取模塊,用於獲取用戶採納的搜索結果詞句;
關聯記錄生成模塊,用於將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄;
搜索關鍵字獲取模塊,用於基於所述關聯記錄,獲取同一個搜索結果詞句所對應的所有搜索關鍵字;
第一搜索拼音組合生成模塊,用於基於所述同一個搜索結果詞句所對應的所有搜索關鍵字,生成第一搜索拼音組合。
通過將用戶輸入的搜索關鍵字和用戶採納的搜索結果詞句建立關聯,結合用戶的輸入習慣生成第一搜索拼音組合,提高用戶的搜索效率。
可選地,針對涉及多音字的詞句的搜索,為提高搜索的準確率,所述第一搜索拼音組合生成模塊包括:
多音字個數獲取模塊,用於獲取每一個搜索關鍵字中的多音字個數;
搜索關鍵字選取模塊,用於選取多音字個數大於或等於1的搜索關鍵字;
第一搜索拼音組合生成模塊,用於生成第一搜索拼音組合。
具體地,若用戶最後採納的搜索結果詞句中包含多音字,通過獲取所述搜索結果詞句關聯的搜索關鍵字的多音字的個數,將不包含多音字的搜索關鍵字過濾,生成第一搜索拼音組合。
可選地,所述第一搜索拼音組合生成模塊,還包括:
關聯次數佔比統計模塊,用於基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數佔比。
第二搜索拼音組合生成模塊,用於過濾所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字,以生成第二搜索拼音組合。
第二拼音搜索庫生成單元34,用於基於所述第一搜索拼音組合,按預設多音字搜索規則對所述第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
可選地,為了進一步提高用戶使用拼音搜索的準確率,所述第二拼音搜索庫生成單元34包括:
第二拼音搜索庫生成模塊,還用於刪除所述第一拼音搜索庫中,除第一搜索拼音組合和預設拼音組合之外的其他拼音組合,以生成第二拼音搜索庫。
具體地,所述第一拼音搜索庫中包含詞句的全部拼音組合,結合所述第一搜索拼音組合和預設拼音組合,如,詞句的標準拼音組合,對所述第一拼音搜索庫進行過濾,將除第一搜索拼音組合(即用戶採納的結果詞句)和預設拼音組合(詞句的標準拼音組合)以外的其餘拼音組合刪除。
可選地,在所述第一搜索拼音組合生成模塊還包括:關聯次數佔比統計模塊和第二搜索拼音組合生成模塊時,對應地,所述第二拼音搜索庫生成模塊,還用於基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。
本發明第三實施例中,通過建立第一拼音搜索庫,獲取用戶輸入的搜索關鍵字,再獲取用戶採納的搜索結果詞句,將所述搜索關鍵字和所述搜索結果詞句建立關聯,並生成關聯記錄,基於所述關聯記錄,統計所述關聯記錄中同一個搜索關鍵字關聯同一個搜索結果詞句的關聯次數,將所述第一搜索拼音組合中,所述關聯次數佔比小於預設關聯次數佔比閾值的搜索關鍵字過濾,生成第二搜索拼音組合,基於所述第二搜索拼音組合對第一拼音搜索庫進行過濾,生成第二拼音搜索庫。將用戶輸入的搜索關鍵字結合用戶搜索拼音輸入習慣生成拼音搜索庫,從而提高多音字拼音搜索效率和搜索準確率。
本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬體、或者計算機軟體和電子硬體的結合來實現。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統、裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、移動硬碟、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光碟等各種可以存儲程序代碼的介質。
以上所述,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應所述以權利要求的保護範圍為準。