機構名稱檢索方法及系統的製作方法

2023-05-03 15:59:21 4

專利名稱：機構名稱檢索方法及系統的製作方法
技術領域：
本發明涉及一種檢索方法，特別是涉及一種機構名稱檢索方法及系統。背景技術：
海量機構名稱快速查詢技術是在語音服務中話務員賴以提升工作質量、提高工作效率的重要工具。目前該類工具廣泛應用於電信114查號臺和移動12580信息服務平臺。在號碼百事通後臺龐大業務數據的基礎上，話務員必須在最短的時間內為用戶提供最準確的信息，但沒有一個話務員能掌握浩瀚無邊的業務數據。因此，機構名稱快速查詢系統是話務員向用戶提供服務的必不可少工具。目前的查詢系統大多基於拼音編碼規範進行擴展，操作員按照編碼規範的要求輸入拼音字母，系統以操作員的輸入為查詢依據從資料庫中匹配相關信息。目前的信息查詢系統存在如下問題(1)編碼死板，容錯性差。由於話務員無法掌握所有信息，因此他們無法判別查詢客戶說出的機構名稱是否錯誤或不完整。目前系統不能針對話務員輸入的「錯誤」查詢指令提供模糊處理，最終造成「查無此人」的服務結果。實際上，查詢客戶非常容易在機構名稱正確性和完整性上出現小小差錯，而這些小差錯會嚴重降低話務員的服務質量。(2)不具備學習和適應能力。多數查詢系統需要事先對海量數據進行人工編碼，工作量巨大。同時，在業務數據發生變化時，系統無法自動進行必要的編碼適應，給系統維護帶來巨大困難。

發明內容有鑑於此，有必要針對上述問題，提供一種容錯能力強、具有自動學習能力的機構名稱檢索方法。一種機構名稱檢索方法，包括如下步驟Sll 將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分；S12 將業務數據中所有機構名稱轉換為縮寫字母；S13 建立對所有標識I所對應字母縮寫的全文索引；S14 建立標識I字母語言模型；S15 建立地名詞典、類型同義詞詞典和後綴同義詞詞典。S16 建立用戶檢索界面，接收輸入字母串並切分出各部分，得出標識I全文檢索，得出候選檢索結果和檢索分數；S17 檢索地名R、類型T和後綴S，縮小候選檢索結果範圍；S18 對候選檢索結果進行排序並輸出。優選的，所述步驟Sll中，地名R(regi0n)是指出現在機構名稱中的地理名稱，標識I (identifier)是指標識機構名稱的核心詞彙，類型T (type)指區分機構類型中詞彙，後綴S(SUfTix)指出現在機構名稱匯總的後綴詞彙。優選的，所述步驟S11，切分時，詞典優先識別地名R、類型T和後綴S從而確定標識I邊界，準確獲得標示I。優選的，所述步驟S12中，先將中文機構名稱的漢字轉換為拼音，再提取漢語拼音首字母或英文單詞首字母以形成機構名稱的縮寫字母。優選的，所述步驟S12將漢字轉換為拼音時採取上下文拼音相關算法消除多音字的歧義問題。優選的，所述步驟S13採用倒排索引算法建立全文索引。優選的，在建立全文索引時以所有標識I所對應字母縮寫為元素。優選的，所述步驟S14中，針對所有標識I所對應字母縮寫建立標識I字母語言模型。優選的，在建立標識I字母語言模型時以字母為元素，並採用了最大似然估計 (Maximum Likelihood Estimation)方法。優選的，在建立標示I字母語言模型時採取二元字母語言模型，降低計算負責度。優選的，所述步驟S15在建立地名詞典、類型同義詞詞典和後綴同義詞詞典時採用步驟Sll所產生的切分結果。優選的，所述步驟S16中，從輸入字母串中識別標識I，採用了如下規則所有機構名稱全稱都包含地點(R)、機構名稱標識詞(I)、機構類型(T)和名稱後綴⑶；即使在機構名稱的最強省略情況下都不會丟失標識詞I，且出現在輸入字母串靠前的位置；機構名稱中的不同部分的輸入可以顛倒順序，但各部分內部漢字的順序不可顛倒；在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。優選的，所述步驟S17中，以字典匹配的方法識別輸入字母中可能存在的地名R、類型T和後綴S。優選的，在進行字典匹配時採用了步驟S15產生的地名詞典、類型同義詞詞典和後綴同義詞詞典。優選的，在步驟S18中，以全文檢索分數結合步驟S14產生的標識I字母語言模型對所有候選檢索結果進行排序。優選的，在對候選檢索結果排序時採用了以下計算公式其中I為輸入字母串，L為候選檢索結果w對應的字母串，SIR(L，I)為L的全文檢索分數，SLM (L，I)為L的語言模型分數，巧和問分別為全文檢索分數和語言模型分數的權重；全文檢索分數SIR(L，I)的計算公式如下
其中，CMN(x，y)返回兩字母串的共同字母串，Len(.)返回字母串的長度，ED(I，L) 用於計算輸入字母串I與檢索結果對應字母串L的編輯距離；語言模型分數SLM (L，I)的計算公式如下
Slm (L, I) = ？v(L 11) 二 Pr(L) χ Pr(/ 丨 L) 其中，L=(Li)i = Ojl,...,^一種機構名稱檢索系統，包括離線學習模塊、全文索引資料庫、語言模型、詞典、實時檢索模塊；所述離線學習模塊，用於自動從海量業務數據中的機構名稱中產生全文索引數據庫、語言模型和詞典；所述全文索引資料庫，用於存放機構名稱中標識I部分的字母全文索引；所述語言模型，用於管理機構名稱中標識I部分的字母分布概率；所述詞典，用於存放業務數據中機構名稱所涉及的地名、機構類型和名稱後綴；所述實時檢索模塊，用於接收用戶輸入的字母串切分出各部分得出標示I，全文索弓丨，產生包含標識I的多種切分方式的候選結果，並產生檢索分數，得出查詢詞典將候選檢索結果縮小到更小的範圍，並根據檢索分數和語言模型對候選檢索結果進行排序，最後輸出檢索結果。上述機構名稱檢索方法及系統自動對機構名稱進行自動處理，構建全文索引和語言模型，在系統業務數據發生變化時，具有自動學習能力。將輸入的字母串自動切分出標識 I進行檢索，得出多種候選檢索結果，並根據檢索分數和語言模型對候選檢索結果進行排序，實現了對用戶輸入最大限度地容錯，從而準確、快速地以字母檢索中西文機構名稱，在不損失準確率的前提下縮簡訊息搜索時間，極大的提高檢索的工作效率，提升檢索質量。

圖1是機構名稱檢索方法流程示意圖。圖2是機構名稱檢索系統示意圖。
具體實施方式下面結合附圖和實施例，對本發明的具體實施方式
作進一步詳細描述。以下實施例用於說明本發明，但不用來限制本發明的範圍。圖1是機構名稱檢索方法流程示意圖。該機構名稱檢索方法包括Sll 將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分。地名R(regi0n)是指出現在機構名稱中的地理名稱；標識I (identifier)是指標識機構名稱的核心詞彙；類型T(type)指區分機構類型中詞彙；後綴S(suffix)指出現在機構名稱匯總的後綴詞彙。以「深圳市華為技術有限公司」為例，「深圳市」是地名，「華為」為標識，「技術」為類型，「有限公司」為後綴。機構名稱切分即實現將「深圳市華為技術有限公司」切分為「深圳市(R)華為⑴技術⑴有限公司(S)」。本發明優選實施例的所有步驟中，針對中西文機構名稱，以漢語拼音首字母替代中文機構名稱中的漢字，以西文單詞首字母處理西文機構名稱中的西文單詞。由於現有的地名、類型和後綴均可枚舉，切分中，詞典優先識別機構名稱中的地名 R、類型T和後綴S，從而確定標識I邊界，最終準確獲得標識I。S12 將業務數據中所有機構名稱轉換為縮寫字母機構名稱中的漢字轉換為漢語拼音，雙字節阿拉伯數字和標點符號也被轉換為對應的單字節字符，漢語拼音轉化時採取上下文拼音相關算法消除多音字的歧義問題，完成上述轉換後，獲得由漢語拼音首字母和西文單詞首字母以及數字組成的機構名稱縮寫，所有機構名稱由西文字母(大寫)、數字和標點符號組成。S13 建立對所有標識I所對應的字母縮寫的全文索引。採用倒排索引算法，對機構名稱的標識I所對應的字母縮寫建立全文索引。S14 建立標示I字母語言模型以字母為元素，採用最大似然估計(MLE，Maximum Likelihood Estimation)方法，建立標識I字母語言模型，為降低計算負責度，採取二元字母語言模型。以現有機構名稱縮寫為依據，以MLE算法計算所有觀察概率值方法如下(1)枚舉26個英文字母、10個數字和 16個主要標點符號；(2)枚舉所有字符的兩兩有序組合(包含重複)。(3)以如下公式(MLE 算法)計算二元字母概率其中，Count (li+1, Ii)代表二元字母li+1，Ii在機構名稱集合中出現的次數， Count (bigram)代表所有可能二元字母的總數。S15 建立地名詞典、類型同義詞詞典和後綴同義詞詞典根據步驟Sll產生的切分結果建立地名詞典、類型同義詞詞典和後綴同義詞詞典。上述詞典均採取漢語拼音首字母排序，以便快速查詢。S16:建立用戶檢索界面，接收輸入字母串並切分出各部分，得出標識I，全文檢索，得出候選檢索結果和檢索分數建立用戶可以操作的檢索界面，允許用戶輸入字母串，接收字母串，根據用戶輸入的字母串，採用步驟S11，切分各部分得出標示I ；採取步驟S13，對切分出的標識I所對應的縮寫字母進行全文索引，產生包含標識I的多種切分方式的候選檢索結果，並產生檢索分數。從輸入字母串中識別標識I，採用了如下規則(1)所有機構名稱全稱都包含地點(R)、機構名稱標識詞⑴、機構類型⑴和名稱
後綴(S) O(2)即使在機構名稱的最強省略情況下都不會丟失標識詞I，且出現在輸入字母串靠前的位置。(3)機構名稱中的不同部分的輸入可以顛倒順序，但各部分內部漢字的順序不可顛倒。(4)在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。基於上述規則，本發明可優選地以標識I或地名匹配輸入字母串，從而產生N個候選檢索結果，並自然產生了候選檢索結果所對應的輸入字母串切分方法。結合該字母串切分方法和標識I，輸出全文檢索分數的方法如下其中，CMN(x，y)返回兩字母串的共同字母串，Len(.)返回字母串的長度，ED(I，L) 用於計算輸入字母串I與檢索結果對應字母串L的編輯距離。S17 檢索字母串中的地名R、類型T和後綴S基於步驟S15產生的地名詞典、類型同義詞詞典和後綴同義詞詞典，以字典匹配的方法識別輸入字母串中可能存在的地名R、類型T和後綴S，從而將候選檢索結果縮小到更小的範圍。S18 對候選結果進行排序並輸出以全文檢索分數結合步驟S14建立的標識I字母語言模型對所有候選檢索結果進
行排序，採用了以下計算公式其中I為輸入字母串，L為候選檢索結果w對應的字母串，Sik (L，I)為L的全文檢索分數，SLff (L, I)為L的語言模型分數，巧和巧分別為全文檢索分數和語言模型分數的權重。語言模型分數Sui (L，I)的計算公式如下其中，L= {^^...^是字母串L中的字母。得出排序結果然後輸出。圖2是機構名稱檢索系統示意圖。機構名稱檢索系統包括離線學習模塊110，全文索引資料庫120，語言模型30，詞典140，實時檢索模塊150。離線學習模塊110，用於自動從海量業務數據中的機構名稱中產生全文索引數據庫120、語言模型130和詞典140 ；產生全文索引資料庫120、語言模型130和詞典140的方法已經在步驟Sll至S15中詳細描述，不再贅述。全文索引資料庫120，用於存放機構名稱中標識I部分的字母全文索引。語言模型130，用於管理機構名稱中標識I部分的字母分布概率。詞典140 (地名，類型，後綴)，用於存放業務數據中機構名稱所涉及的地名R、機構類型T和名稱後綴S。實時檢索模塊150，用於接收用戶輸入的字母串用於接收用戶輸入的字母串切分出各部分得出標示I，全文索引，產生包含標識I的多種切分方式的候選結果，並產生檢索分數，得出查詢詞典140將候選檢索結果縮小到更小的範圍，並根據檢索分數和語言模型130對候選檢索結果進行排序，最後輸出檢索結果。上述機構名稱檢索方法及系統在系統業務數據發生變化時，可自動對機構名稱進行自動處理，構建全文索引、語言模型和詞典，具有自動學習能力。將輸入的字母串自動切分出標識I進行檢索，得出多種候選檢索結果，並根據檢索分數和語言模型對候選檢索結果進行排序，同時可以根據服務現場實際情況靈活調整地名和標識的輸入先後順序，對輸入的錯誤查詢指令提供模糊處理，最大限度地排除話務服務中不應出現的「查無此人」情況，實現了對用戶輸入的最大限度地容錯，從而準確、快速地以字母檢索中西文機構名稱，在不損失準確率的前提下縮簡訊息搜索時間，極大的提高檢索的工作效率，提升檢索質量。
權利要求
一種機構名稱檢索方法，包括如下步驟S11將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分；S12將業務數據中所有機構名稱轉換為縮寫字母；S13建立對所有標識I所對應字母縮寫的全文索引；S14建立標識I字母語言模型；S15建立地名詞典、類型同義詞詞典和後綴同義詞詞典；S16建立用戶檢索界面，接收輸入字母串並切分出各部分，得出標識I全文檢索，得出候選檢索結果和檢索分數；S17檢索地名R、類型T和後綴S，縮小候選檢索結果範圍；S18對候選檢索結果進行排序並輸出。
2.根據權利要求1所述的機構名稱檢索方法，其特徵在於，所述步驟Sll中，地名R是指出現在機構名稱中的地理名稱，標識I是指標識機構名稱的核心詞彙，類型T指區分機構類型中詞彙，後綴S指出現在機構名稱匯總的後綴詞彙。
3.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S11，切分時，詞典優先識別地名R、類型T和後綴S從而確定標識I邊界，準確獲得標示I。
4.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S12中，先將中文機構名稱的漢字轉換為拼音，再提取漢語拼音首字母或英文單詞首字母以形成機構名稱的縮寫字母。
5.根據權利要求4所述的機構名稱檢索方法，其特徵在於所述步驟S12將漢字轉換為拼音時採取上下文拼音相關算法消除多音字的歧義問題。
6.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S13採用倒排索引算法建立全文索引。
7.根據權利要求6所述的機構名稱檢索方法，其特徵在於在建立全文索引時以所有標識I所對應字母縮寫為元素。
8.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S14中，針對所有標識I所對應字母縮寫建立標識I字母語言模型。
9.根據權利要求8所述的機構名稱檢索方法，其特徵在於在建立標識I字母語言模型時以字母為元素，並採用了最大似然估計方法。
10.根據權利要求9所述的機構名稱檢索方法，其特徵在於在建立標示I字母語言模型時採取二元字母語言模型，降低計算負責度。
11.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S15在建立地名詞典、類型同義詞詞典和後綴同義詞詞典時採用步驟Sll所產生的切分結果。
12.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S16中，從輸入字母串中識別標識I，採用了如下規則所有機構名稱全稱都包含地點R、機構名稱標識詞I、機構類型T和名稱後綴S ；即使在機構名稱的最強省略情況下都不會丟失標識詞I，且出現在輸入字母串靠前的位置；機構名稱中的不同部分的輸入可以顛倒順序，但各部分內部漢字的順序不可顛倒；在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。
13.根據權利要求1所述的機構名稱檢索方法，其特徵在於所述步驟S17中，以字典匹配的方法識別輸入字母中可能存在的地名R、類型T和後綴S。
14.根據權利要求13所述的機構名稱檢索方法，其特徵在於在進行字典匹配時採用了步驟S15產生的地名詞典、類型同義詞詞典和後綴同義詞詞典。
15.根據權利要求1所述的機構名稱檢索方法，其特徵在於在步驟S18中，以全文檢索分數結合步驟S14產生的標識I字母語言模型對所有候選檢索結果進行排序。
16.根據權利要求15所述的機構名稱檢索方法，其特徵在於在對候選檢索結果排序時採用了以下計算公式CT1 X Sm (L,I) + m2x Slm {L, I)其中I為輸入字母串，L為候選檢索結果W對應的字母串，SIR(L，I)為L的全文檢索分數，SLM(L，I)為L的語言模型分數，巧和巧.分別為全文檢索分數和語言模型分數的權重；全文檢索分數SIR(L，I)的計算公式如下 LenjCMN (I, L)) Len(I)+ED{I,L)其中，CMN(χ, y)返回兩字母串的共同字母串，LenC )返回字母串的長度，ED(I, L)用於計算輸入字母串I與檢索結果對應字母串L的編輯距離；語言模型分數SLM (L，I)的計算公式如下Slm (L, I) = Pr(Z 11) = Pr(Z) χ Pr(/ | L)二 Π" Pr仏+丨 |Z.)x-！-丄丄『=0、』+'丨l + ED(I,L)其中，L = {Lj i =(!,!,...,『
17.一種機構名稱檢索系統，包括離線學習模塊、全文索引資料庫、語言模型、詞典、實時檢索模塊；所述離線學習模塊，用於自動從海量業務數據中的機構名稱中產生全文索引資料庫、語言模型和詞典；所述全文索引資料庫，用於存放機構名稱中標識I部分的字母全文索引；所述語言模型，用於管理機構名稱中標識I部分的字母分布概率；所述詞典，用於存放業務數據中機構名稱所涉及的地名、機構類型和名稱後綴；所述實時檢索模塊，用於接收用戶輸入的字母串切分出各部分得出標示I，全文索引，產生包含標識I的多種切分方式的候選結果，並產生檢索分數，得出查詢詞典將候選檢索結果縮小到更小的範圍，並根據檢索分數和語言模型對候選檢索結果進行排序，最後輸出檢索結果。
全文摘要
一種機構名稱檢索方法和系統，將所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分，將所有機構名稱轉換為縮寫字母，建立對所有標識I所對應字母縮寫的全文索引以及語言模型，建立地名詞典、類型同義詞詞典和後綴同義詞詞典，接受輸入字母串並切分出標識I全文檢索，檢索地名R、類型T和後綴S，得出候選檢索結果進行排序並輸出。本發明可以準確、快速地以字母檢索中西文機構名稱，實現對用戶輸入最大限度地容錯，在不損失準確率的前提下縮簡訊息搜索時間，同時具有自動學習功能。
文檔編號H04M3/51GK101930435SQ20091011037
公開日2010年12月29日申請日期2009年10月27日優先權日2009年10月27日
發明者劉偉, 劉軼, 夏雲慶, 程剛申請人:深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

機構名稱檢索方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法