新四季網

例句索引創建方法和裝置以及例句檢索方法和裝置的製作方法

2023-04-26 19:56:41

專利名稱:例句索引創建方法和裝置以及例句檢索方法和裝置的製作方法
例句索引創建方法和裝置以及例句檢索方法和裝置
技術領域:
本發明涉及計算機技術領域,特別涉及一種例句索引創建方法和裝置以及例句檢索方法和裝置。背景技木信息檢索是指信息按一定的方式組織起來,並根據信息用戶的需要找出有關的信息的過程和技木。信息檢索已經廣泛地應用於文獻、多媒體以及翻譯領域等。在現有信息檢索技術中存在ー種特殊的信息檢索例句檢索,即用於檢索包含某些關鍵詞的例句,例句檢索通常用於單語詞典中的例句展現或者翻譯技術中的例句展現。然而,現有例句檢索通常單純基於關鍵詞匹配進行檢索,例如,應用在單語詞典的例句展現中時,用戶輸入查詢請求(query)「計算機」,會將包含關鍵詞「計算機」的例句檢索出來。應用在中-英翻譯技術中時,當用戶輸入query 「計算機」,會將包含「計算機」對應的英文的例句檢索出來,即檢索出包含「 computer」的例句。對於ー些基於語法的高級檢索,則無法實現。例如,用戶如果想要檢索「困難」作為名詞時有哪些例句,或者,想要檢索「提高」和「水平」搭配使用時有哪些例句,或者,想要檢索「蘋果」作為ー個電子品牌時有哪些例句等則無法實現。

發明內容本發明提供了一種例句索引創建方法和裝置以及例句檢索方法和裝置,從而實現基於語法的高級檢索。具體技術方案如下一種例句索引創建方法,分別針對例句庫中的各例句執行以下步驟A、對例句進行文本分析;B、根據文本分析的結果,創建該例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。其中,所述步驟A具體包括 Al、對所述例句進行分詞處理;A2、—#,— A21、A22、A23、A24 中的至少ー個A21、對分詞處理後得到的各詞語進行詞性標註;A22、對分詞處理後得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型;A23、對分詞處理後得到的各詞語進行句法分析,確定各詞語的句法角色;A24、將分詞處理後得到的各詞語進行兩兩組合;如果執行所述步驟A21,則所述步驟B具體包括逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;如果執行所述步驟A22,則所述步驟B具體包括逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引。如果執行所述步驟A23,則所述步驟B具體包括逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引。如果執行所述步驟A24,則所述步驟B具體包括將所述步驟A24得到的組合分別作為所述例句的索引。另外,該方法還包括將分詞處理後得到的各詞語分別作為所述例句的索引。其中,所述步驟A24具體包括基於句法分析確定分詞處理後得到的各詞語之間存在搭配關係的兩兩組合;其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。較優地,在所述步驟A24之前,或者,在所述步驟B之前,還包括基於預設的停用詞表對分詞處理後得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語。其中,所述例句庫為單語例句庫或者雙語例句庫。如果所述例句庫為雙語例句庫,則該方法還包括將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。更進ー步地,該方法還包括利用所述例句庫中各例句及例句對應的索引,通過倒排方式建立索引表;其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。如果針對雙語例句庫,則利用所述雙語例句庫中各雙語例句對及雙語例句對對應的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。所述索引表至少包括以下所列中的至少ー種「詞-詞性」索引表,其中的索引鍵為詞語及詞語對應的詞性的組合;「詞-NE類型」索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合;「詞-句法角色」索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及,「詞-詞」索引表,其中的索引鍵為詞語與詞語的組合。較優地,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表或「詞-詞」索引表中,索引鍵為ニ級索引鍵,具體為在索引鍵中相同的詞語歸納在一起作為第一級索引,所述「詞-詞性」索引表中第ー級索引對應的詞性作為第二級索引,所述「詞-NE類型」索引表中第一級索引對應的NE類型作為第二級索引,所述「詞-句法角色」索引表中第一級索引對應的句法角色作為第二級索引,所述「詞-詞」索引表中與第一級索引組合的另ー詞語作為第二級索引。ー種例句檢索方法,該方法包括
A、接收用戶的檢索請求query ;B、解析出所述query包含的查詢項,如果包含多個查詢項,則還解析出各查詢項之間的邏輯關係;C、利用解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果;D、如果所述query包含多個查詢項,則依據各查詢項之間的邏輯關係,對各查詢項對應的檢索結果進行整合處理,將整合處理後的檢索結果返回給所述用戶;如果所述query包含ー個查詢項,則將該查詢項對應的檢索結果返回給所述用戶;其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關係為交集或差集。其中,所述步驟C具體為
如果解析出的查詢項為詞語及該詞語對應的詞性的組合,則將該查詢項與「詞-詞性」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語及該詞語對應的NE類型的組合,則將該查詢項與「詞-NE類型」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語及該詞語對應的句法角色的組合,則將該查詢項與「詞-句法角色」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果解析出的查詢項為詞語與詞語的組合,則將該查詢項與「詞-詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。所述詞語與詞語之間的組合為存在基於句法分析的搭配關係的詞語與詞語的組合;其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。另外,解析出的查詢項還包括詞語;如果查詢項為詞語,則將該查詢項與「詞」索引表中的索引鍵進行匹配,將匹配的索弓I鍵對應的索引值作為該查詢項的檢索結果。所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表、「詞-詞」索引表中索引值、「詞」索引表中的索引值為例句或雙語例句對。較優地,如果某查詢項不是為差集的邏輯關係相鄰後端的查詢項,且該查詢項對應的檢索結果低於預設的最低檢索要求,則將該查詢項中的各詞語分別與所述「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。更進一歩地,在所述步驟E之前還包括 將所述整合處理後的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。具體地,所述檢索結果與所述query的匹配狀況F (Ri)為
m)=ん纖 ZSiRlJtem^Aword ^8(^wordk) +\+] ぺ,[+] ) +ん ぺ,[-] );
j=\た=Iw=ln=\
其中,入iteni、入WOTd、入[+]和入[_]為預設的權重參數,5 (Ri, itenij)為檢索結果Ri與第j個查詢項的匹配值,J為所述query包含的查詢項數目,5 (RijWordk)為檢索結果Ri與第k個詞語的匹配值,K為所述query中檢索所使用詞語的數目,8 (Ri, [+Jffl)為檢索結果Ri與第m個為交集的邏輯關係的匹配值,M為所述query中為交集的邏輯關係數目,8 (Ri,[-] )為檢索結果Ri與第n個為差集的邏輯關係的匹配值,N為所述query中為差集的邏輯關係數目。如果item」.為 Ri 的索引,5 (Ri, itenij)為 I,否則 5 (Ri, itenij)為 0 ;如果wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ;如果為交集的邏輯關係[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關係[_]n相鄰前端的查詢項為Ri的索引且相鄰後端的查詢項不是Ri的索引,則6 (Ri, [-] )為1,否則8 (Ri, [-]n)為O。一種例句索引創建裝置,該裝置包括文本分析単元和索引建立単元;所述文本分析単元,用於分別針對例句庫中的各例句進行文本分析;所述索引建立単元,用於根據所述文本分析単元的分析結果,創建各例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。其中,所述文本分析単元包括分詞處理子単元,還包括以下子単元中的至少ー個詞性標註子単元、NE識別子単元、句法分析子単元和搭配組合子単元;所述分詞處理子単元,用於對例句進行分詞處理;所述詞性標註子単元,用於對分詞處理後得到的各詞語進行詞性標註;所述NE識別子単元,用於對分詞處理後得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型;所述句法分析子単元,用於對分詞處理後得到的各詞語進行句法分析,確定各詞語的句法角色;所述搭配組合子単元,用於將分詞處理後得到的各詞語進行兩兩組合;所述索引建立単元根據所述詞性標註子単元的詞性標註結果,逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;或者,根據所述NE識別子単元的識別結果,逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引;或者,根據所述句法分析子単元的分析結果,逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引;或者,將所述搭配組合子単元得到的組合分別作為所述例句的索引。另外,所述索引建立単元,還用於將所述分詞處理子単元分詞處理後得到的各詞語分別作為所述例句的索引。所述搭配組合子単元具體基於句法分析確定分詞處理後得到的各詞語之間存在搭配關係的兩兩組合;其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。較優地,所述文本分析單元還包括詞語過濾子單元,用於基於預設的停用詞表,將所述分詞處理子単元分詞處理後得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語後,供所述搭配組合子単元進行組合,或者,供所述索引建立單元進行索引的建立。其中,所述例句庫為單語例句庫或者雙語例句庫。
如果所述例句庫為雙語例句庫,則所述索引建立單元將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
更進一歩地,該裝置還包括索引表建立単元,用於利用所述索引建立單元為例句庫中各例句建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。針對雙語例句庫,索引表建立単元,用於利用所述索引建立単元為雙語例句庫中各雙語例句對建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。其中,所述索引表包括以下所列中的至少ー種「詞-詞性」索引表,其中的索引鍵為詞語及詞語對應的詞性的組合;「詞-NE類型」索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合;「詞-句法角色」索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及,「詞-詞」索引表,其中的索引鍵為詞語與詞語的組合。較優地,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表或「詞-詞」索引表中,索引鍵為ニ級索引鍵,具體為在索引鍵中相同的詞語歸納在一起作為第一級索引,所述「詞-詞性」索引表中第ー級索引對應的詞性作為第二級索引,所述「詞-NE類型」索引表中第一級索引對應的NE類型作為第二級索引,所述「詞-句法角色」索引表中第一級索引對應的句法角色作為第二級索引,所述「詞-詞」索引表中與第一級索引組合的另ー詞語作為第二級索引。ー種例句檢索裝置,該裝置包括用戶側交互単元、請求解析単元、檢索處理單元和結果整合単元;所述用戶側交互単元,用於接收用戶的檢索請求query,將所述結果整合単元提供的檢索結果返回給所述用戶;所述請求解析單元,用於解析出所述query包含的查詢項,如果包含多個查詢項,則還解析出各查詢項之間的邏輯關係;所述檢索處理單元,用於利用所述請求解析単元解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果;所述結果整合單元,用於在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關係,對所述各查詢項對應的檢索結果進行整合處理,將整合處理後的檢索結果提供給所述用戶側交互単元;在所述請求解析單元解析出所述query包含一個查詢項時,將該查詢項對應的檢索結果提供給所述用戶側交互單元;其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關係為交集或差集。
如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的詞性的組合,則所述檢索處理單元將該查詢項與「詞-詞性」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的NE類型的組合,則所述檢索處理單元將該查 詢項與「詞-NE類型」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的句法角色的組合,則所述檢索處理單元將該查詢項與「詞-句法角色」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果;如果所述請求解析単元解析出的查詢項為詞語與詞語的組合,則所述檢索處理單元將該查詢項與「詞-詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。所述詞語與詞語之間的組合為存在基於句法分析的搭配關係的詞語與詞語的組合;其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。另外,所述請求解析単元解析出的查詢項包括詞語;如果所述請求解析単元解析出的查詢項為詞語,則所述檢索處理單元將該查詢項與「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。其中,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表、「詞-詞」索引表中索引值、「詞」索引表中的索引值為例句或雙語例句對。較優地,該裝置還包括補充檢索単元,用於在某查詢項不是為差集的邏輯關係相鄰後端的查詢項,且該查詢項對應的檢索結果低於預設的最低檢索要求時,將該查詢項中的各詞語分別與所述「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。具體地,所述結果整合単元可以包括整合處理子單元,用於在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關係,對所述各查詢項對應的檢索結果進行整合處理;排序處理子單元,用於將整合處理後的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。所述檢索結果與所述query的匹配狀況F(Ri)為
權利要求
1.一種例句索引創建方法,其特徵在於,分別針對例句庫中的各例句執行以下步驟 A、對例句進行文本分析; B、根據文本分析的結果,創建該例句所對應的索引; 其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。
2.根據權利要求I所述的方法,其特徵在於,所述步驟A具體包括 Al、對所述例句進行分詞處理; 八2、執行步驟六21、六22、六23、六24中的至少ー個 A21、對分詞處理後得到的各詞語進行詞性標註; A22、對分詞處理後得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型; A23、對分詞處理後得到的各詞語進行句法分析,確定各詞語的句法角色; A24、將分詞處理後得到的各詞語進行兩兩組合; 如果執行所述步驟A21,則所述步驟B具體包括逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引; 如果執行所述步驟A22,則所述步驟B具體包括逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引。
如果執行所述步驟A23,則所述步驟B具體包括逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引。
如果執行所述步驟A24,則所述步驟B具體包括將所述步驟A24得到的組合分別作為所述例句的索引。
3.根據權利要求2所述的方法,其特徵在於,該方法還包括將分詞處理後得到的各詞語分別作為所述例句的索引。
4.根據權利要求2所述的方法,其特徵在於,所述步驟A24具體包括基於句法分析確定分詞處理後得到的各詞語之間存在搭配關係的兩兩組合; 其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。
5.根據權利要求2所述的方法,其特徵在於,在所述步驟A24之前,或者,在所述步驟B之前,還包括 基於預設的停用詞表對分詞處理後得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語。
6.根據權利要求I所述的方法,其特徵在於,所述例句庫為單語例句庫或者雙語例句庫。
7.根據權利要求6所述的方法,其特徵在幹,如果所述例句庫為雙語例句庫,則該方法還包括 將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
8.根據權利要求I所述的方法,其特徵在於,該方法還包括 利用所述例句庫中各例句及例句對應的索引,通過倒排方式建立索引表;其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。
9.根據權利要求7所述的方法,其特徵在於,該方法還包括 利用所述雙語例句庫中各雙語例句對及雙語例句對對應的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。
10.根據權利要求8或9所述的方法,其特徵在於,所述索引表至少包括以下所列中的至少ー種 「詞-詞性」索引表,其中的索引鍵為詞語及詞語對應的詞性的組合; 「詞-NE類型」索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合; 「詞-句法角色」索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及, 「詞-詞」索引表,其中的索引鍵為詞語與詞語的組合。
11.根據權利要求10所述的方法,其特徵在於,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表或「詞-詞」索引表中,索引鍵為ニ級索引鍵,具體為 在索引鍵中相同的詞語歸納在一起作為第一級索引,所述「詞-詞性」索引表中第一級索引對應的詞性作為第二級索引,所述「詞-NE類型」索引表中第一級索引對應的NE類型作為第二級索引,所述「詞-句法角色」索引表中第一級索引對應的句法角色作為第二級索弓丨,所述「詞-詞」索引表中與第一級索引組合的另ー詞語作為第二級索引。
12.ー種例句檢索方法,其特徵在於,該方法包括 A、接收用戶的檢索請求query; B、解析出所述query包含的查詢項,如果包含多個查詢項,貝U還解析出各查詢項之間的邏輯關係; C、利用解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果; D、如果所述query包含多個查詢項,則依據各查詢項之間的邏輯關係,對各查詢項對應的檢索結果進行整合處理,將整合處理後的檢索結果返回給所述用戶;如果所述query包含ー個查詢項,則將該查詢項對應的檢索結果返回給所述用戶; 其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關係為交集或差集。
13.根據權利要求12所述的方法,其特徵在於,所述步驟C具體為 如果解析出的查詢項為詞語及該詞語對應的詞性的組合,則將該查詢項與「詞-詞性」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語及該詞語對應的NE類型的組合,則將該查詢項與「詞-NE類型」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語及該詞語對應的句法角色的組合,則將該查詢項與「詞-句法角色」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果解析出的查詢項為詞語與詞語的組合,則將該查詢項與「詞-詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
14.根據權利要求12所述的方法,其特徵在於,所述詞語與詞語之間的組合為存在基於句法分析的搭配關係的詞語與詞語的組合; 其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。
15.根據權利要求12、13或14所述的方法,其特徵在於,解析出的查詢項還包括詞語; 如果查詢項為詞語,則將該查詢項與「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
16.根據權利要求15所述的方法,其特徵在於,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表、「詞-詞」索引表中索引值、「詞」索引表中的索引值為例句或雙語例句對。
17.根據權利要求15所述的方法,其特徵在於,如果某查詢項不是為差集的邏輯關係相鄰後端的查詢項,且該查詢項對應的檢索結果低於預設的最低檢索要求,則將該查詢項中的各詞語分別與所述「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
18.根據權利要求12所述的方法,其特徵在於,在所述步驟E之前還包括 將所述整合處理後的檢索結果進行排序,其中所述排序的依據包括以下所列之ー或組合 檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。
19.根據權利要求18所述的方法,其特徵在於,所述檢索結果與所述query的匹配狀況F(Ri)為
20.根據權利要求19所述的方法,其特徵在於,如果iten^為Ri的索引,8(Ri, Itemj)為 1,否則 8 (Ri, itenij)為 0 ;如果 wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ; 如果為交集的邏輯關係[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關係[_]n相鄰前端的查詢項為Ri的索引且相鄰後端的查詢項不是Ri 的索引,則 6 (Ri, [-] )為 1,否則 8 (Ri, [-]n)為 O。
21.一種例句索引創建裝置,其特徵在於,該裝置包括文本分析単元和索引建立單元; 所述文本分析単元,用於分別針對例句庫中的各例句進行文本分析; 所述索引建立単元,用於根據所述文本分析単元的分析結果,創建各例句所對應的索引;其中索引包括以下所列中的至少ー種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。
22.根據權利要求21所述的裝置,其特徵在於,所述文本分析単元包括分詞處理子單元,還包括以下子単元中的至少ー個詞性標註子単元、NE識別子単元、句法分析子単元和搭配組合子単元; 所述分詞處理子単元,用於對例句進行分詞處理; 所述詞性標註子単元,用於對分詞處理後得到的各詞語進行詞性標註; 所述NE識別子単元,用於對分詞處理後得到的各詞語進行專有名詞的識別,確定被識別為專有名詞的詞語對應的命名實體類型; 所述句法分析子単元,用於對分詞處理後得到的各詞語進行句法分析,確定各詞語的句法角色; 所述搭配組合子単元,用於將分詞處理後得到的各詞語進行兩兩組合; 所述索引建立単元根據所述詞性標註子単元的詞性標註結果,逐一將各詞語及詞語對應的詞性的組合作為所述例句的索引;或者,根據所述NE識別子単元的識別結果,逐一將被識別為專有名詞的詞語及詞語對應的命名實體類型的組合作為所述例句對應的索引;或者,根據所述句法分析子単元的分析結果,逐一將各詞語及詞語對應的句法角色的組合作為所述例句對應的索引;或者,將所述搭配組合子単元得到的組合分別作為所述例句的索引。
23.根據權利要求22所述的裝置,其特徵在於,所述索引建立単元,還用於將所述分詞處理子単元分詞處理後得到的各詞語分別作為所述例句的索引。
24.根據權利要求22所述的裝置,其特徵在幹,所述搭配組合子単元具體基於句法分析確定分詞處理後得到的各詞語之間存在搭配關係的兩兩組合; 其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。
25.根據權利要求22所述的裝置,其特徵在於,所述文本分析單元還包括詞語過濾子単元,用於基於預設的停用詞表,將所述分詞處理子単元分詞處理後得到的各詞語進行過濾,過濾掉停用詞表中包含的詞語後,供所述搭配組合子単元進行組合,或者,供所述索引建立單元進行索引的建立。
26.根據權利要求21所述的裝置,其特徵在於,所述例句庫為單語例句庫或者雙語例句庫。
27.根據權利要求26所述的裝置,其特徵在於,如果所述例句庫為雙語例句庫,則所述索引建立單元將所述雙語例句庫中雙語例句對中各例句所對應的索引都作為該雙語例句對所對應的索引。
28.根據權利要求21所述的裝置,其特徵在於,該裝置還包括索引表建立単元,用於利用所述索引建立單元為例句庫中各例句建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為例句,索引鍵為例句對應的索引。
29.根據權利要求27所述的裝置,其特徵在於,該裝置還包括索引表建立単元,用於利用所述索引建立單元為雙語例句庫中各雙語例句對建立的索引,通過倒排方式建立索引表,其中,所述索引表中索引值為雙語例句對,索引鍵為雙語例句對對應的索引。
30.根據權利要求28或29所述的裝置,其特徵在於,所述索引表包括以下所列中的至少一種 「詞-詞性」索引表,其中的索引鍵為詞語及詞語對應的詞性的組合; 「詞-NE類型」索引表,其中的索引鍵為詞語及詞語對應的NE類型的組合; 「詞-句法角色」索引表,其中的索引鍵為詞語及詞語對應的句法角色的組合;以及, 「詞-詞」索引表,其中的索引鍵為詞語與詞語的組合。
31.根據權利要求20所述的裝置,其特徵在於,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表或「詞-詞」索引表中,索引鍵為ニ級索引鍵,具體為 在索引鍵中相同的詞語歸納在一起作為第一級索引,所述「詞-詞性」索引表中第一級索引對應的詞性作為第二級索引,所述「詞-NE類型」索引表中第一級索引對應的NE類型作為第二級索引,所述「詞-句法角色」索引表中第一級索引對應的句法角色作為第二級索弓丨,所述「詞-詞」索引表中與第一級索引組合的另ー詞語作為第二級索引。
32.—種例句檢索裝置,其特徵在於,該裝置包括用戶側交互単元、請求解析単元、檢索處理單元和結果整合単元; 所述用戶側交互単元,用於接收用戶的檢索請求query,將所述結果整合単元提供的檢索結果返回給所述用戶; 所述請求解析單元,用於解析出所述query包含的查詢項,如果包含多個查詢項,貝Ij還解析出各查詢項之間的邏輯關係; 所述檢索處理單元,用於利用所述請求解析単元解析出的各查詢項逐一進行檢索,獲得各查詢項對應的檢索結果; 所述結果整合單元,用於在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關係,對所述各查詢項對應的檢索結果進行整合處理,將整合處理後的檢索結果提供給所述用戶側交互単元;在所述請求解析單元解析出所述query包含一個查詢項時,將該查詢項對應的檢索結果提供給所述用戶側交互單元; 其中,所述查詢項為以下所列中的至少ー種詞語及該詞語對應的詞性的組合、詞語及該詞語對應的命名實體類型的組合、詞語與該詞語對應的句法角色的組合、以及詞語與詞語之間的組合;所述邏輯關係為交集或差集。
33.根據權利要求32所述的裝置,其特徵在幹,如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的詞性的組合,則所述檢索處理單元將該查詢項與「詞-詞性」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的NE類型的組合,則所述檢索處理單元將該查詢項與「詞-NE類型」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語及該詞語對應的句法角色的組合,則所述檢索處理單元將該查詢項與「詞-句法角色」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果; 如果所述請求解析単元解析出的查詢項為詞語與詞語的組合,則所述檢索處理單元將該查詢項與「詞-詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
34.根據權利要求32所述的裝置,其特徵在於,所述詞語與詞語之間的組合為存在基於句法分析的搭配關係的詞語與詞語的組合; 其中所述搭配關係包括主謂關係、動賓關係、偏正關係、中補關係或者同位關係。
35.根據權利要求32、33或34所述的裝置,其特徵在於,所述請求解析単元解析出的查詢項包括詞語; 如果所述請求解析単元解析出的查詢項為詞語,則所述檢索處理單元將該查詢項與「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
36.根據權利要求35所述的裝置,其特徵在於,所述「詞-詞性」索引表、「詞-NE類型」索引表、「詞-句法角色」索引表、「詞-詞」索引表中索引值、「詞」索引表中的索引值為例句或雙語例句對。
37.根據權利要求35所述的裝置,其特徵在於,該裝置還包括補充檢索単元,用於在某查詢項不是為差集的邏輯關係相鄰後端的查詢項,且該查詢項對應的檢索結果低於預設的最低檢索要求時,將該查詢項中的各詞語分別與所述「詞」索引表中的索引鍵進行匹配,將匹配的索引鍵對應的索引值作為該查詢項的檢索結果。
38.根據權利要求32所述的裝置,其特徵在於,所述結果整合単元具體包括 整合處理子單元,用於在所述請求解析單元解析出所述query包含多個查詢項時,利用所述請求解析単元解析出的各查詢項之間的邏輯關係,對所述各查詢項對應的檢索結果進行整合處理; 排序處理子單元,用於將整合處理後的檢索結果進行排序,其中所述排序的依據包括以下所列之一或組合檢索結果來源的置信狀況,以及,檢索結果與所述query的匹配狀況。
39.根據權利要求38所述的裝置,其特徵在於,所述檢索結果與所述query的匹配狀況F(Ri)為
40.根據權利要求39所述的裝置,其特徵在於,如果iten^為Ri的索引,S(Ri, Itemj)為 1,否則 8 (Ri, itenij)為 0 ;如果 wordk 為 Ri 的索引,6 (Ri, wordk)為 I,否則 6 (Ri, itenij)為 0 ; 如果為交集的邏輯關係[+凡兩端的查詢項均為Ri的索引,5 (Ri, [+]J為1,否則S (Ri, [+]m)為 0 ; 如果為差集的邏輯關係[_]n相鄰前端的查詢項為Ri的索引且相鄰後端的查詢項不是Ri 的索引,則 6 (Ri, [-] )為 1,否則 8 (Ri, [-]n)為 O。
全文摘要
本發明提供了一種例句索引創建方法和裝置以及例句檢索方法和裝置,通過對例句庫中的例句進行文本分析後,為例句建立特殊的索引,用戶在輸入基於語法的高級檢索時,對用戶輸入的檢索請求進行解析,利用解析出的查詢項,獲取各查詢項的檢索結果,並根據解析出的各查詢項之間的邏輯關係,對各查詢項的檢索結果進行整合處理。其中,上述建立的索引和查詢項為以下所列的至少一種例句中的詞語及該詞語對應的詞性的組合、例句中的詞語及該詞語對應的命名實體類型的組合、例句中的詞語與該詞語對應的句法角色的組合、以及例句中的詞語與詞語之間的組合。通過本發明能夠實現基於語法的高級檢索,從而提高檢索效果。
文檔編號G06F17/27GK102654866SQ20111004984
公開日2012年9月5日 申請日期2011年3月2日 優先權日2011年3月2日
發明者吳華, 吳甜, 王海峰, 趙世奇 申請人:北京百度網訊科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀