一種搜索方法及裝置的製作方法
2023-10-04 23:56:54 1
專利名稱:一種搜索方法及裝置的製作方法
技術領域:
本發明涉及計算機網絡搜索技術領域,尤其涉及一種搜索方法及裝置。
背景技術:
目前,傳統的搜索方案主要為:根據用戶輸入待搜索信息在網絡中查找所有的關聯文檔,依據一定的算法規則計算每個關聯文檔與待搜索信息的關聯程度,基於關聯程度的高低對所有關聯文檔進行排序處理,將排序結果作為搜索結果返回給用戶。上述可知,關聯程度的高低直接影響關聯文檔的排序結果,直接影響用戶的搜索結果,而關聯程度的高低一般採用相關度評分直觀反映。傳統的搜索方案中,通常採用詞匹配算法進行相關度計算,例如採用BM25(BestMatch,最佳匹配)算法、proximity (Term proximity scoring,詞近鄰得分)算法等等進行相關度評分,相關度評分越高,表明關聯程度越強。以基於BM25算法的搜索方案進行說明,如下:假設用戶輸入的待搜索信息為「中國的首都」,根據BM25算法的相關度評分原則,關聯文檔中必須出現「中國」、「首都」,才能夠獲得相應的相關度評分,否則該關聯文檔的相關度評分則為O ;例如:其中一個關聯文檔為:「北京,它是一座有著3000多年的建城史,850多年的建者史的歷史文化名城;是全國政治、文化中心,也是全國最大的陸空產通樞紐」,根據上述傳統的搜索方案,該關聯文檔的相關度評分為0,表明與待搜索信息不相關,然而,從語義關係來看,該關聯文檔與待搜索信息的相關性實際上是十分好的。經過排序處理後,該關聯文檔可能排列於較後的搜索結果頁面中,不利於用戶的查看。上述例子可知,傳統的搜索方案僅僅基於詞進行相關度的匹配,並未考慮詞與詞之間的語義關係,可能造成相關度計算結果的不準確,影響搜索結果的排列順序,降低用戶對搜索結果的滿意度,降低用戶的搜索體驗
發明內容
本發明實施例所要解決的技術問題在於,提供一種搜索方法及裝置,能夠獲得更準確的搜索結果。一方面,本發明實施例提供了一種搜索方法,包括:獲取待搜索信息的關聯文檔;基於詞匹配算法及語義匹配算法,計算獲取到的每一個關聯文檔與所述待搜索信息的相關度;根據計算得到的相關度對獲取到的關聯文檔進行排序,並顯示排序結果。另一方面,本發明實施例還提供了一種搜索裝置,包括:搜索模塊,用於獲取待搜索信息的關聯文檔;計算模塊,用於基於詞匹配算法及語義匹配算法,計算所述搜索模塊獲得的每一個關聯文檔與所述待搜索信息的相關度;排序模塊,用於根據所述計算模塊計算得到的相關度對所述搜索模塊獲得的所有關聯文檔進行排序處理;
顯示模塊,用於顯示所述排序模塊獲得的排序結果。
實施本發明實施例,具有如下有益效果:
本發明實施例結合詞匹配算法及語義匹配算法,綜合考慮詞與詞的匹配,以及詞與詞之間的語義關係的匹配,獲得每一個關聯文檔與待搜索信息之間較為準確的相關度,基於該相關度進行排序並顯示排序結果,可以為用戶提供理想的搜索結果,使得用戶可以從顯示的搜索結果中快速獲得相關度較高的關聯文檔,滿足自己實際的搜索需求,提高了搜索效率,從而提高了用戶的滿意度。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明提供的搜索方法的一個實施例的流程圖2為圖1所示步驟S102的具體流程圖3為本發明提供的IDF表的示意圖4為本發明提供的MI表的示意圖5為圖1所示步驟S103的具體流程圖6為本發明提供的搜索裝置的一個實施例的結構示意圖7為圖6所示的計算模塊的實施例的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的·實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明實施例提供的方案中,搜索裝置可以基於詞匹配以及詞與詞之間的語義匹配算法,計算待搜索信息的所有關聯文檔的相關度,並根據該相關度進行排序和顯示,使得用戶可以從顯示的搜索結果中快速獲得相關度較高的關聯文檔,滿足自己的搜索需求,提高搜索效率。
其中,所述待搜索信息可以為用戶輸入的搜索關鍵詞句,其可以用query (查詢)表示。所述關聯文檔可以為:基於用戶輸入的搜索關鍵詞句,利用現有的網絡搜索技術獲得的搜索結果中包含的文檔,其可以用document (文檔)表示。
所述詞匹配算法是指搜索過程基於詞進行匹配,其可以為:BM25算法、proximity等算法,除特別說明外,本發明實施例以BM25算法為例進行說明。所述語義匹配算法是指搜索過程基於詞與詞之間的語義關係進行匹配,也即,搜索過程基於詞與詞之間的互信息進行匹配。所謂MI (Mutual Information,互信息),是對兩個隨機變量的關聯程度的描述,在文本處理中,MI用來衡量兩個詞的相關度,兩個詞的MI越大,表示該兩個詞的關聯程度越強。
下面將結合附圖1-附圖5,對本發明實施例提供的搜索方法進行詳細介紹。
請參見圖1,為本發明提供的搜索方法的一個實施例的流程圖;該方法包括:
S101,獲取待搜索信息的關聯文檔。本步驟可以參照現有技術,在此不贅述。
S102,基於詞匹配算法及語義匹配算法,計算獲取到的每一個關聯文檔與所述待搜索信息的相關度。
本步驟中,每一個關聯文檔與待搜索信息的相關度的評分可以由兩部分組成,一部分是基於詞匹配算法獲得的關聯評分,另一部分是基於語義匹配算法獲得的關聯評分。實際應用中,可以根據具體情況,預先設置兩部分關聯評分的權重,使得加權後的兩部分關聯評分所組成的相關度評分更能準確體現關聯文檔與待搜索信息的關聯程度。
S103,根據計算得到的相關度對獲取到的關聯文檔進行排序處理,並顯示排序結果O
本步驟中,可以按照每個關聯文檔與待搜索信息的相關度評分由高至低的順序,對搜索得到的所有關聯文檔進行排序和顯示,使得顯示在前的始終為與待搜索信息較相關的關聯文檔,從而使得用戶可以從顯示的搜索結果中快速獲得相關度較高的關聯文檔,滿足自己的搜索需求,提高搜索效率。可以理解的是,本步驟也可以採用其他順序進行排序處理,例如按照相關度評分由低至高的順序,或者設置一部分按照相關度評分由低至高的順序,一部分按照相關度評分由高至低的順序,等等。
請參見圖2,為圖1所示步驟S102的具體流程圖;該步驟S102包括:
S211,對所述待搜索信息進行向量化處理,獲得m個向量tp
本步驟中,對待搜索信息進行向量化處理,即是利用分詞技術,對待搜索信息進行分詞處理,將待搜索信息分割成m個詞組成,可以表示為h至tm,其中,m和i均為正整數,且 I < i < m。
S212,對獲取到的每一個關聯文檔進行向量化處理,獲得每一個關聯文檔所對應的η個向量dj。
本步驟中,對獲取到的所有關聯文檔中的每一個文檔進行向量化處理,即是利用分詞技術,對每一個關聯文檔進行分詞處理,將該關聯文檔分割成η個詞組成,可以表示為Cl1至七,其中,η和j均為正整數,且I彡j彡η。
需要說明的是,步驟S211與步驟S212在時序上不分先後,例如也可以先執行步驟S212,再執行步驟S211。步驟S211-``步驟S212中的向量化處理過程可以參照現有技術,在此不贅述。
S213,基於詞匹配算法,計算得到每一個關聯文檔與所述待搜索信息的關聯評分S10
本步驟中,詞匹配算法的公式可以為:
權利要求
1.一種搜索方法,其特徵在於,包括: 獲取待搜索信息的關聯文檔; 基於詞匹配算法及語義匹配算法,計算獲取到的每一個關聯文檔與所述待搜索信息的相關度; 根據計算得到的相關度對獲取到的關聯文檔進行排序,並顯示排序結果。
2.如權利要求1所述的方法,其特徵在於,所述基於詞匹配算法及語義匹配算法,計算獲取到的每一個關聯文檔與所述待搜索信息的相關度,包括: 對所述待搜索信息進行向量化處理,獲得m個向量ti;其中,m和i均為正整數,且1 ≤i ≤m ; 對獲取到的每一個關聯文檔進行向量化處理,獲得每一個關聯文檔所對應的η個向量屯其中,η和j均為正整數,且I SjSn; 基於詞匹配算法,計算得到每一個關聯文檔與所述待搜索信息的關聯評分S1,基於語義匹配算法,計算得到每一個關聯文檔與所述待搜索信息的關聯評分S2 ; 根據公式S= a XS1+(1-Ci)XS2,計算得到每一個關聯文檔與所述待搜索信息的相關度S,其中,α為預設的權重,且O < α < I。
3.如權利要求2所述的方法,其特徵在於:所述詞匹配算法的公式為:
4.如權利要求3所述的方法,其特徵在於,向量\的權重的計算公式如下:
5.如權利要求2所述的方法,其特徵在於:所述語義匹配算法的公式為:
6.如權利要求5所述的方法,其特徵在於,向量\與向量Clj的互信息的計算公式如下:
7.如權利要求1-6任一項所述的方法,其特徵在於,所述根據計算得到的相關度對獲取到的關聯文檔進行排序,並顯示排序結果,包括: 根據每一個關聯文檔與所述待搜索信息的相關度,按照相關度從高至低的順序對所有關聯文檔進行排序; 顯不排序後的所有關聯文檔。
8.一種搜索裝置,其特徵在於,包括: 搜索模塊,用於獲取待搜索信息的關聯文檔; 計算模塊,用於基於詞匹配算法及語義匹配算法,計算所述搜索模塊獲得的每一個關聯文檔與所述待搜索信息的相關度; 排序模塊,用於根據所述計算模塊計算得到的相關度對所述搜索模塊獲得的關聯文檔進行排序; 顯示模塊,用於顯示所述排序模塊獲得的排序結果。
9.如權利要求8所述的裝置,其特徵在於,所述計算模塊包括: 第一向量化處理單元,用於對所述待搜索信息進行向量化處理,獲得m個向量\,其中,m和i均為正整數,且1≤i≤m ; 第二向量化處理單元,用於對所述搜索模塊獲得的每一個關聯文檔進行向量化處理,獲得每一個關聯文檔所對應的η個向量Clj,其中,η和j均為正整數,且I SjSn; 詞匹配計算單元,用於基於詞匹配算法,計算得到所述第二向量化處理單元處理後的關聯文檔與 所述待搜索信息的關聯評分S1 ; 語義匹配計算單元,用於基於語義匹配算法,計算得到所述第二向量化處理單元處理後的關聯文檔與所述待搜索信息的關聯評分S2 ; 相關度計算單元,用於根據公式S= a XS1 (1-Ci)XS2,計算得到所述關聯文檔與所述待搜索信息的相關度S,其中,α為預設的權重,且O < α < I。
10.如權利要求9所述的裝置,其特徵在於,所述詞匹配算法的公式為:
11.如權利要求8-10任一項所述的裝置,其特徵在於, 所述排序模塊根據每個關聯文檔與所述待搜索信息的相關度,按照相關度從高至低的順序對所述搜索模塊獲得的所有關聯文檔進行排序; 所述顯示模塊顯示所述排序模`塊排序後的所有關聯文檔。
全文摘要
本發明實施例公開了一種搜索方法,包括獲取待搜索信息的所有關聯文檔;基於詞匹配算法及語義匹配算法,計算每一個關聯文檔與所述待搜索信息的相關度;根據計算得到的相關度對所有關聯文檔進行排序處理,並顯示排序結果。本發明實施例還公開了一種搜索裝置。本發明綜合考慮詞與詞的匹配,以及詞與詞之間的語義關係的匹配,獲得準確的相關度計算結果,為用戶提供理想的搜索結果,提高用戶的滿意度。
文檔編號G06F17/30GK103246681SQ20121003152
公開日2013年8月14日 申請日期2012年2月13日 優先權日2012年2月13日
發明者路彥雄, 楊月奎, 王亮, 焦峰 申請人:騰訊科技(深圳)有限公司