一種信息搜索方法和裝置製造方法
2023-06-14 09:57:56 1
一種信息搜索方法和裝置製造方法
【專利摘要】本申請公開了一種信息搜索方法和裝置。該方法包括:獲取查詢詞,基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,當需要收錄所述基本詞典中當前未收錄的詞組時,將所述當前未收錄的詞組存儲在所述新詞詞典中;根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息,從各個詞典對應的搜索結果信息中確定最終的搜索結果。應用本發明使得信息搜索結果更加全面。
【專利說明】一種信息搜索方法和裝置
【技術領域】
[0001]本申請涉及信息搜索【技術領域】,尤其涉及一種信息搜索方法和裝置。
【背景技術】
[0002]在當前信息化的社會中,信息搜索得到了廣泛應用。目前的信息搜索過程一般包括:接收查詢詞,對查詢詞進行分詞,根據分詞結果查詢倒排資料庫,從倒排資料庫中獲取搜索結果,返回搜索結果。
[0003]其中,分詞是指,根據詞典中的詞組,將分詞目標(例如查詢詞)劃分為詞典中的一個或多個詞組;倒排資料庫用於存儲待搜索文檔的索引信息,具體地,倒排資料庫以詞典中的詞組作為索引,每一詞組對應了以該詞組作為索引的所有待搜索文檔的信息。
[0004]隨著當前信息更新速度的加快,會不斷湧現出新詞,即未在詞典中收錄的詞,這些新詞常常可以由詞典中已經收錄的詞組(簡稱舊詞)組成,但是卻擁有與組成該新詞的各個舊詞迥然不同的含義,比如「屌絲」由「屌」和「絲」組成,但是「屌絲」的含義卻與「屌」和「絲」的含義完全不同。
[0005]由於新詞的出現,將導致分詞所基於的詞典的內容也將發生變化,由於分詞是以詞典中收錄的詞組作為最小單元而進行的,因此,隨著詞典內容的變化,即在詞典收錄新詞以前和收錄新詞之後,將導致針對同一分詞目標的分詞結果發生變化。
[0006]具體地,在進行分詞所基於的詞典收錄新詞之前,搜尋引擎將按照詞典中已收錄的詞組對該新詞進行分詞,得到組成該新詞的各個詞組,並根據組成該新詞的各個詞組從倒排資料庫中獲取搜索結果,例如在「屌絲」被收錄到詞典之前,對該「屌絲」的分詞結果為「屌」和「絲」,則根據「屌」和「絲」從倒排資料庫中獲取搜索結果;在進行分詞所基於的詞典收錄所述新詞之後,搜尋引擎將按照所述新詞從倒排資料庫中獲取搜索結果。其中,倒排資料庫中的文檔索引信息,也會在詞典中收錄的詞組更新以後,根據更新的詞典中收錄的詞組重新對待搜索文檔建立索引。
[0007]可見,目前的信息搜索方法中,由於詞典的內容會隨著新詞的湧現和收錄而不斷發生變化,因此,導致搜索結果要麼僅能查詢到與組成查詢詞的各個詞組相關的文檔,要麼僅能查詢到與查詢詞本身相關的文檔,信息搜索的結果不夠全面。
【發明內容】
[0008]本申請提供了 一種信息搜索方法和裝置,從而使得信息搜索結果更加全面。
[0009]本申請的技術方案具體是這樣實現的:
[0010]一種信息搜索方法,該方法包括:
[0011]獲取查詢詞,基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組;
[0012]根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息,從各個詞典對應的搜索結果信息中確定最終的搜索結果。
[0013]一種信息搜索裝置,該裝置包括第一獲取模塊、分詞模塊、第二獲取模塊和確定模塊;
[0014]所述第一獲取模塊,用於獲取查詢詞;
[0015]所述分詞模塊,用於基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組;
[0016]所述第二獲取模塊,用於根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息;
[0017]所述確定模塊,用於根據各個詞典對應的搜索結果信息,確定最終的搜索結果。
[0018]由上述方案可見,本申請在接收到查詢詞以後,基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,根據每個詞典對應的分詞結果分別獲取每個詞典對應的搜索結果信息以後,根據各個詞典對應的搜索結果信息,確定最終的搜索結果,並且,其中所述的兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組。可見,由於本申請中,基於基本詞典和新詞詞典進行分詞,由於對於新詞等基本詞典中未收錄的詞組,並非像現有技術那樣直接更新詞典中已有的詞組,而是將新詞等基本詞典中未收錄的詞組另外存儲在新詞詞典中,綜合利用基本詞典和新詞詞典對查詢詞進行分詞,並根據分詞結果獲取搜索結果信息,進而確定最終的搜索結果,因此,能夠解決現有技術中由於詞典內容不斷變化導致的問題,即解決搜索結果要麼僅能查詢到與組成查詢詞的各個詞組相關的文檔,要麼僅能查詢到與查詢詞本身相關的文檔,搜索結果不夠全面的問題,使得搜索結果更加全面,提高了信息搜索質量。
【專利附圖】
【附圖說明】
[0019]圖1是本發明提供的信息搜索方法流程圖。
[0020]圖2是本發明提供的信息搜索裝置結構圖。
【具體實施方式】
[0021]圖1是本發明提供的信息搜索方法流程圖。
[0022]如圖1所示,該流程包括:
[0023]步驟101,獲取查詢詞。
[0024]本步驟中,所述獲取可以是主動獲取方式,也可以是接收等被動獲取方式。
[0025]步驟102,基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組。
[0026]其中,新詞詞典的建立方法包括:當需要收錄所述基本詞典中當前未收錄的詞組時,將所述當前未收錄的詞組存儲在所述新詞詞典中,從而建立新詞詞典。新詞詞典中會收入例如網絡上新創造的詞語例如屌絲、高富帥,等。
[0027]步驟103,根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息。[0028]步驟104,根據各個詞典對應的搜索結果信息,確定最終的搜索結果。
[0029]本步驟中,從各個詞典對應的搜索結果信息中確定最終的搜索結果,例如,可以將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
[0030]其中,從各個詞典對應的搜索結果信息中確定最終的搜索結果具體可以包括:
[0031]判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,從新詞詞典對應的搜索結果中確定最終的搜索結果,如果否,利用所述預定閾值減去新詞詞典對應的搜索結果個數,根據所得的差從基本詞典對應的搜索結果中選出相應個數的搜索結果,將新詞詞典對應的搜索結果和從基本詞典對應的搜索結果中選出的搜索結果確定為最終的搜索結果;或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中選出最終的搜索結果。
[0032]可見,由於圖1所示方法是基於兩個以上的詞典進行分詞,進而根據兩個以上的詞典的分詞結果確定最終的搜索結果,且該兩個以上的詞典包括基本詞典和新詞詞典,其中,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組,因此,當接收的查詢詞是未收錄在基本詞典中的新詞、且由已收錄在詞典中的兩個以上的舊詞組成時,採用圖1所述方法既能查詢到與組成查詢詞的各個詞組相關的文檔,也能查詢到與查詢詞本身相關的文檔,搜索結果更加全面,提高了信息搜索質量。
[0033]其中,在基於兩個以上的詞典分別對查詢詞進行分詞時,可以針對不同的詞典採用不同分詞處理函數進行分詞,具體地:
[0034]可以通過查詢處理函數資料庫獲得各個詞典的分詞處理函數,調用各個詞典的分詞處理函數分別對所述查詢詞進行分詞,其中,在所述處理函數資料庫中存儲有分詞版本號和/或詞典名稱、與分詞處理函數名稱和分詞處理函數地址之間的對應關係。
[0035]其中,在步驟103中所述的根據每個詞典對應的分詞結果分別獲取搜索結果信息,可以是直接根據每個詞典對應的分詞結果從倒排資料庫中獲取搜索結果,則在步驟104中,可以直接根據步驟103從倒排資料庫中獲取的各個詞典的搜索結果,確定出最終的搜索結果。
[0036]由於從倒排資料庫中獲取搜索結果需要一定的時間,為了提高信息搜索的速度,本 申請人:還提出,可以預先建立加速資料庫,在該加速資料庫中存儲所述兩個以上的詞典中的每個詞組對應的搜索結果條數信息。其中,在加速資料庫中具體可以存儲每個詞組與該詞組的標識(ID)和搜索結果條數(或稱為命中文檔數)之間的對應關係。
[0037]當存在加速資料庫時,步驟103中根據每個詞典對應的分詞結果分別獲取搜索結果信息具體可以包括:根據每個詞典對應的分詞結果包含的詞組,從所述加速資料庫中獲取相應詞組的搜索結果條數信息,根據獲取的每個詞組的搜索結果條數信息,確定每個詞典對應的搜索結果條數信息。步驟104中根據各個詞典對應的搜索結果信息,確定最終的搜索結果具體可以包括:判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果,從新詞詞典對應的搜索結果中確定最終的搜索結果,如果否,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果、且根據基本詞典的分詞結果從倒排資料庫中獲取基本詞典對應的搜索結果,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中確定最終的搜索結果。
[0038]之所以優先從新詞詞典的搜索結果中確定最終的搜索結果,是因為本 申請人:經分析進一步注意到,當一查詢詞是未收錄在基本詞典中的新詞、且可以由基本詞典中的兩個以上詞組組成時,通常基於該查詢詞本身(即基於該新詞、而非基於基本詞典中組成該查詢詞的兩個以上的詞組)所得到的搜索結果,與基於基本詞典中組成該查詢詞的兩個以上的詞組所得到的搜索結果相比,更符合信息搜索需求。因此,優先從新詞詞典的搜索結果中確定最終的搜索結果。
[0039]為了進一步提高信息搜索速度,所述加速資料庫可以設置在信息搜尋引擎所在設備的內存中。
[0040]其中的加速資料庫並不是必須的,例如也可以先根據新詞詞典的分詞結果從倒排資料庫中搜索結果,在新詞詞典的搜索結果不能夠滿足信息搜索需求,例如新詞詞典的搜索結果個數小於預定閾值時,再根據基本詞典的分詞結果從倒排資料庫中搜索結果,對新詞詞典的搜索結果進行補全,即利用所述預定閾值減去新詞詞典對應的搜索結果個數,根據所得的差從基本詞典對應的搜索結果中選出相應個數的搜索結果,將新詞詞典對應的搜索結果和從基本詞典對應的搜索結果中選出的搜索結果確定為最終的搜索結果;或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中選出最終的搜索結果。
[0041]根據本發明提供的上述方法,本發明還提供了相應的裝置,具體請參見圖2。
[0042]圖2是本發明提供的信息搜索裝置結構圖。
[0043]如圖2所示,該裝置包括第一獲取模塊201、分詞模塊202、第二獲取模塊203和確定模塊204。
[0044]第一獲取模塊201,用於獲取查詢詞。
[0045]分詞模塊202,用於基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,當需要收錄所述基本詞典中當前未收錄的詞組時,將所述當前未收錄的詞組存儲在所述新詞詞典中。
[0046]第二獲取模塊203,用於根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息。
[0047]確定模塊204,用於從各個詞典對應的搜索結果信息中確定最終的搜索結果。
[0048]分詞模塊202,可以用於通過查詢處理函數資料庫獲得各個詞典的分詞處理函數,調用各個詞典的分詞處理函數分別對所述查詢詞進行分詞,其中,在所述處理函數資料庫中存儲有分詞版本號和/或詞典名稱、與分詞處理函數名稱和分詞處理函數地址之間的對應關係。
[0049]確定模塊204,可以用於將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
[0050]其中,確定模塊204,具體可以用於判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,從新詞詞典對應的搜索結果中確定最終的搜索結果,如果否,利用所述預定閾值減去新詞詞典對應的搜索結果個數,根據所得的差從基本詞典對應的搜索結果中選出相應個數的搜索結果,將新詞詞典對應的搜索結果和從基本詞典對應的搜索結果中選出的搜索結果確定為最終的搜索結果;或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中選出最終的搜索結果。
[0051 ] 該裝置還可以包括加速資料庫。所述加速資料庫位於內存中。
[0052]所述加速資料庫,用於存儲所述兩個以上的詞典中的每個詞組對應的搜索結果條數信息。
[0053]第二獲取模塊203,用於根據每個詞典對應的分詞結果包含的詞組,從所述加速資料庫中獲取相應詞組的搜索結果條數信息,根據獲取的每個詞組的搜索結果條數信息,確定每個詞典對應的搜索結果條數信息;
[0054]確定模塊204,用於判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,如果否,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果、且根據基本詞典的分詞結果從倒排資料庫中獲取基本詞典對應的搜索結果,將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
[0055]確定模塊204,可以用於在新詞詞典對應的搜索結果條數信息未達到預定閾值時,利用所述預定閾值減去新詞詞典對應的搜索結果個數,根據所得的差從基本詞典對應的搜索結果中選出相應個數的搜索結果,將新詞詞典對應的搜索結果和從基本詞典對應的搜索結果中選出的搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中選出最終的搜索結果。
【權利要求】
1.一種信息搜索方法,其特徵在於,該方法包括: 獲取查詢詞,基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組; 根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息,從各個詞典對應的搜索結果信息中確定最終的搜索結果。
2.根據權利要求1所述的方法,其特徵在於,基於兩個以上的詞典分別對所述查詢詞進行分詞包括: 通過查詢處理函數資料庫獲得各個詞典的分詞處理函數,調用各個詞典的分詞處理函數分別對所述查詢詞進行分詞,其中,在所述處理函數資料庫中存儲有分詞版本號和/或詞典名稱、與分詞處理函數名稱和分詞處理函數地址之間的對應關係。
3.根據權利要求1所述的方法,其特徵在於,從各個詞典對應的搜索結果信息中確定最終的搜索結果包括: 將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果; 或者,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果; 或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
4.根據權利要求3所述的方法,其特徵在於,確定的最終的搜索結果的總條數為一定值。
5.根據權利要求3所述的方法,其特徵在於,該方法還包括:預先建立加速資料庫,在該加速資料庫中存儲所述兩個以上的詞典中的每個詞組對應的搜索結果條數信息; 所述根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息,從各個詞典對應的搜索結果信息中確定最終的搜索結果包括: 根據每個詞典對應的分詞結果包含的詞組,從所述加速資料庫中獲取相應詞組的搜索結果條數信息,根據獲取的每個詞組的搜索結果條數信息,確定每個詞典對應的搜索結果條數信息; 判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,如果否,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果、且根據基本詞典的分詞結果從倒排資料庫中獲取基本詞典對應的搜索結果,將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
6.一種信息搜索裝置,其特徵在於,該裝置包括第一獲取模塊、分詞模塊、第二獲取模塊和確定模塊; 所述第一獲取模塊,用於獲取查詢詞; 所述分詞模塊,用於基於兩個以上的詞典分別對所述查詢詞進行分詞,得到每個詞典對應的分詞結果,其中,所述兩個以上的詞典包括基本詞典和新詞詞典,所述新詞詞典用於存儲所述基本詞典中未收錄的詞組; 所述第二獲取模塊,用於根據每個詞典對應的分詞結果分別獲取搜索結果信息,得到每個詞典對應的搜索結果信息; 所述確定模塊,用於從各個詞典對應的搜索結果信息中確定最終的搜索結果。
7.根據權利要求6所述的裝置,其特徵在於, 所述分詞模塊,用於通過查詢處理函數資料庫獲得各個詞典的分詞處理函數,調用各個詞典的分詞處理函數分別對所述查詢詞進行分詞,其中,在所述處理函數資料庫中存儲有分詞版本號和/或詞典名稱、與分詞處理函數名稱和分詞處理函數地址之間的對應關係O
8.根據權利要求6所述的裝置,其特徵在於, 所述確定模塊,用於將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
9.根據權利要求8所述的裝置,其特徵在於,確定的最終的搜索結果的總條數為一定值。
10.根據權利要求8所述的裝置,其特徵在於,該裝置還包括加速資料庫, 所述加速資料庫,用於存儲所述兩個以上的詞典中的每個詞組對應的搜索結果條數信`息; 所述第二獲取模塊,用於根據每個詞典對應的分詞結果包含的詞組,從所述加速資料庫中獲取相應詞組的搜索結果條數信息,根據獲取的每個詞組的搜索結果條數信息,確定每個詞典對應的搜索結果條數信息; 所述確定模塊,用於判斷新詞詞典對應的搜索結果條數信息是否達到預定閾值,如果是,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果,將新詞詞典對應的至少部分搜索結果確定為最終的搜索結果,如果否,根據新詞詞典的分詞結果從倒排資料庫中獲取新詞詞典對應的搜索結果、且根據基本詞典的分詞結果從倒排資料庫中獲取基本詞典對應的搜索結果,將新詞詞典對應的全部搜索結果和基本詞典對應的至少部分搜索結果確定為最終的搜索結果,或者,根據與查詢詞的相關性,從新詞詞典對應的搜索結果和基本詞典對應的搜索結果中各選出至少部分確定為最終的搜索結果。
【文檔編號】G06F17/30GK103530298SQ201210232960
【公開日】2014年1月22日 申請日期:2012年7月6日 優先權日:2012年7月6日
【發明者】謝樸銳 申請人:深圳市世紀光速信息技術有限公司