新四季網

機構名稱檢索方法及系統的製作方法

2023-05-03 15:59:21

專利名稱:機構名稱檢索方法及系統的製作方法
技術領域:
本發明涉及一種檢索方法,特別是涉及一種機構名稱檢索方法及系統。背景技術:
海量機構名稱快速查詢技術是在語音服務中話務員賴以提升工作質量、提高工作 效率的重要工具。目前該類工具廣泛應用於電信114查號臺和移動12580信息服務平臺。 在號碼百事通後臺龐大業務數據的基礎上,話務員必須在最短的時間內為用戶提供最準確的信息,但沒有一個話務員能掌握 浩瀚無邊的業務數據。因此,機構名稱快速查詢系統是話務員向用戶提供服務的必不可少 工具。目前的查詢系統大多基於拼音編碼規範進行擴展,操作員按照編碼規範的要求輸入 拼音字母,系統以操作員的輸入為查詢依據從資料庫中匹配相關信息。目前的信息查詢系 統存在如下問題(1)編碼死板,容錯性差。由於話務員無法掌握所有信息,因此他們無法判別查詢 客戶說出的機構名稱是否錯誤或不完整。目前系統不能針對話務員輸入的「錯誤」查詢指 令提供模糊處理,最終造成「查無此人」的服務結果。實際上,查詢客戶非常容易在機構名 稱正確性和完整性上出現小小差錯,而這些小差錯會嚴重降低話務員的服務質量。(2)不具備學習和適應能力。多數查詢系統需要事先對海量數據進行人工編碼,工 作量巨大。同時,在業務數據發生變化時,系統無法自動進行必要的編碼適應,給系統維護 帶來巨大困難。

發明內容有鑑於此,有必要針對上述問題,提供一種容錯能力強、具有自動學習能力的機構 名稱檢索方法。一種機構名稱檢索方法,包括如下步驟Sll 將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部 分;S12 將業務數據中所有機構名稱轉換為縮寫字母;S13 建立對所有標識I所對應字母縮寫的全文索引;S14 建立標識I字母語言模型;S15 建立地名詞典、類型同義詞詞典和後綴同義詞詞典。S16 建立用戶檢索界面,接收輸入字母串並切分出各部分,得出標識I全文檢索, 得出候選檢索結果和檢索分數;S17 檢索地名R、類型T和後綴S,縮小候選檢索結果範圍;S18 對候選檢索結果進行排序並輸出。優選的,所述步驟Sll中,地名R(regi0n)是指出現在機構名稱中的地理名稱,標 識I (identifier)是指標識機構名稱的核心詞彙,類型T (type)指區分機構類型中詞彙,後綴S(SUfTix)指出現在機構名稱匯總的後綴詞彙。優選的,所述步驟S11,切分時,詞典優先識別地名R、類型T和後綴S從而確定標 識I邊界,準確獲得標示I。優選的,所述步驟S12中,先將中文機構名稱的漢字轉換為拼音,再提取漢語拼音 首字母或英文單詞首字母以形成機構名稱的縮寫字母。優選的,所述步驟S12將漢字轉換為拼音時採取上下文拼音相關算法消除多音字 的歧義問題。優選的,所述步驟S13採用倒排索引算法建立全文索引。優選的,在建立全文索引時以所有標識I所對應字母縮寫為元素。優選的,所述步驟S14中,針對所有標識I所對應字母縮寫建立標識I字母語言模型。優選的,在建立標識I字母語言模型時以字母為元素,並採用了最大似然估計 (Maximum Likelihood Estimation)方法。優選的,在建立標示I字母語言模型時採取二元字母語言模型,降低計算負責度。優選的,所述步驟S15在建立地名詞典、類型同義詞詞典和後綴同義詞詞典時採 用步驟Sll所產生的切分結果。優選的,所述步驟S16中,從輸入字母串中識別標識I,採用了如下規則所有機構名稱全稱都包含地點(R)、機構名稱標識詞(I)、機構類型(T)和名稱後 綴⑶;即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現在輸入字母串靠 前的位置;機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛 倒;在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。優選的,所述步驟S17中,以字典匹配的方法識別輸入字母中可能存在的地名R、 類型T和後綴S。優選的,在進行字典匹配時採用了步驟S15產生的地名詞典、類型同義詞詞典和 後綴同義詞詞典。優選的,在步驟S18中,以全文檢索分數結合步驟S14產生的標識I字母語言模型 對所有候選檢索結果進行排序。優選的,在對候選檢索結果排序時採用了以下計算公式 其中I為輸入字母串,L為候選檢索結果w對應的字母串,SIR(L,I)為L的全文 檢索分數,SLM (L,I)為L的語言模型分數,巧和問分別為全文檢索分數和語言模型分數的權 重;全文檢索分數SIR(L,I)的計算公式如下
其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用於計算輸入字母串I與檢索結果對應字母串L的編輯距離;語言模型分數SLM (L,I)的計算公式如下
Slm (L, I) = ?v(L 11) 二 Pr(L) χ Pr(/ 丨 L) 其中,L=(Li)i = Ojl,...,^一種機構名稱檢索系統,包括離線學習模塊、全文索引資料庫、語言模型、詞典、 實時檢索模塊;所述離線學習模塊,用於自動從海量業務數據中的機構名稱中產生全文索引數據 庫、語言模型和詞典;所述全文索引資料庫,用於存放機構名稱中標識I部分的字母全文索引;所述語言模型,用於管理機構名稱中標識I部分的字母分布概率;所述詞典,用於存放業務數據中機構名稱所涉及的地名、機構類型和名稱後綴;所述實時檢索模塊,用於接收用戶輸入的字母串切分出各部分得出標示I,全文索 弓丨,產生包含標識I的多種切分方式的候選結果,並產生檢索分數,得出查詢詞典將候選檢 索結果縮小到更小的範圍,並根據檢索分數和語言模型對候選檢索結果進行排序,最後輸 出檢索結果。上述機構名稱檢索方法及系統自動對機構名稱進行自動處理,構建全文索引和語 言模型,在系統業務數據發生變化時,具有自動學習能力。將輸入的字母串自動切分出標識 I進行檢索,得出多種候選檢索結果,並根據檢索分數和語言模型對候選檢索結果進行排 序,實現了對用戶輸入最大限度地容錯,從而準確、快速地以字母檢索中西文機構名稱,在 不損失準確率的前提下縮簡訊息搜索時間,極大的提高檢索的工作效率,提升檢索質量。

圖1是機構名稱檢索方法流程示意圖。圖2是機構名稱檢索系統示意圖。
具體實施方式下面結合附圖和實施例,對本發明的具體實施方式
作進一步詳細描述。以下實施 例用於說明本發明,但不用來限制本發明的範圍。圖1是機構名稱檢索方法流程示意圖。該機構名稱檢索方法包括Sll 將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部 分。地名R(regi0n)是指出現在機構名稱中的地理名稱;標識I (identifier)是指標 識機構名稱的核心詞彙;類型T(type)指區分機構類型中詞彙;後綴S(suffix)指出現在機構名稱匯總的後綴詞彙。以「深圳市華為技術有限公司」為例,「深圳市」是地名,「華為」 為標識,「技術」為類型,「有限公司」為後綴。機構名稱切分即實現將「深圳市華為技術有限 公司」切分為「深圳市(R)華為⑴技術⑴有限公司(S)」。本發明優選實施例的所有步 驟中,針對中西文機構名稱,以漢語拼音首字母替代中文機構名稱中的漢字,以西文單詞首 字母處理西文機構名稱中的西文單詞。由於現有的地名、類型和後綴均可枚舉,切分中,詞典優先識別機構名稱中的地名 R、類型T和後綴S,從而確定標識I邊界,最終準確獲得標識I。S12 將業務數據中所有機構名稱轉換為縮寫字母機構名稱中的漢字轉換為漢語拼音,雙字節阿拉伯數字和標點符號也被轉換為對 應的單字節字符,漢語拼音轉化時採取上下文拼音相關算法消除多音字的歧義問題,完成 上述轉換後,獲得由漢語拼音首字母和西文單詞首字母以及數字組成的機構名稱縮寫,所 有機構名稱由西文字母(大寫)、數字和標點符號組成。S13 建立對所有標識I所對應的字母縮寫的全文索引。採用倒排索引算法,對機構名稱的標識I所對應的字母縮寫建立全文索引。S14 建立標示I字母語言模型以字母為元素,採用最大似然估計(MLE,Maximum Likelihood Estimation)方法, 建立標識I字母語言模型,為降低計算負責度,採取二元字母語言模型。以現有機構名稱縮 寫為依據,以MLE算法計算所有觀察概率值方法如下(1)枚舉26個英文字母、10個數字和 16個主要標點符號;(2)枚舉所有字符的兩兩有序組合(包含重複)。(3)以如下公式(MLE 算法)計算二元字母概率 其中,Count (li+1, Ii)代表二元字母li+1,Ii在機構名稱集合中出現的次數, Count (bigram)代表所有可能二元字母的總數。S15 建立地名詞典、類型同義詞詞典和後綴同義詞詞典根據步驟Sll產生的切分結果建立地名詞典、類型同義詞詞典和後綴同義詞詞 典。上述詞典均採取漢語拼音首字母排序,以便快速查詢。S16:建立用戶檢索界面,接收輸入字母串並切分出各部分,得出標識I,全文檢 索,得出候選檢索結果和檢索分數建立用戶可以操作的檢索界面,允許用戶輸入字母串,接收字母串,根據用戶輸入 的字母串,採用步驟S11,切分各部分得出標示I ;採取步驟S13,對切分出的標識I所對應 的縮寫字母進行全文索引,產生包含標識I的多種切分方式的候選檢索結果,並產生檢索 分數。從輸入字母串中識別標識I,採用了如下規則(1)所有機構名稱全稱都包含地點(R)、機構名稱標識詞⑴、機構類型⑴和名稱
後綴(S) O(2)即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現在輸入字母 串靠前的位置。(3)機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛倒。(4)在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。基於上述規則,本發明可優選地以標識I或地名匹配輸入字母串,從而產生N個候 選檢索結果,並自然產生了候選檢索結果所對應的輸入字母串切分方法。結合該字母串切 分方法和標識I,輸出全文檢索分數的方法如下 其中,CMN(x,y)返回兩字母串的共同字母串,Len(.)返回字母串的長度,ED(I,L) 用於計算輸入字母串I與檢索結果對應字母串L的編輯距離。S17 檢索字母串中的地名R、類型T和後綴S基於步驟S15產生的地名詞典、類型同義詞詞典和後綴同義詞詞典,以字典匹配 的方法識別輸入字母串中可能存在的地名R、類型T和後綴S,從而將候選檢索結果縮小到 更小的範圍。S18 對候選結果進行排序並輸出以全文檢索分數結合步驟S14建立的標識I字母語言模型對所有候選檢索結果進
行排序,採用了以下計算公式 其中I為輸入字母串,L為候選檢索結果w對應的字母串,Sik (L,I)為L的全文檢 索分數,SLff (L, I)為L的語言模型分數,巧和巧分別為全文檢索分數和語言模型分數的權重。語言模型分數Sui (L,I)的計算公式如下 其中,L= {^^...^是字母串L中的字母。得出排序結果然後輸出。圖2是機構名稱檢索系統示意圖。機構名稱檢索系統包括離線學習模塊110,全 文索引資料庫120,語言模型30,詞典140,實時檢索模塊150。離線學習模塊110,用於自動從海量業務數據中的機構名稱中產生全文索引數據 庫120、語言模型130和詞典140 ;產生全文索引資料庫120、語言模型130和詞典140的方 法已經在步驟Sll至S15中詳細描述,不再贅述。全文索引資料庫120,用於存放機構名稱中標識I部分的字母全文索引。語言模型130,用於管理機構名稱中標識I部分的字母分布概率。詞典140 (地名,類型,後綴),用於存放業務數據中機構名稱所涉及的地名R、機構 類型T和名稱後綴S。實時檢索模塊150,用於接收用戶輸入的字母串用於接收用戶輸入的字母串切分 出各部分得出標示I,全文索引,產生包含標識I的多種切分方式的候選結果,並產生檢索 分數,得出查詢詞典140將候選檢索結果縮小到更小的範圍,並根據檢索分數和語言模型130對候選檢索結果進行排序,最後輸出檢索結果。 上述機構名稱檢索方法及系統在系統業務數據發生變化時,可自動對機構名稱進 行自動處理,構建全文索引、語言模型和詞典,具有自動學習能力。將輸入的字母串自動切 分出標識I進行檢索,得出多種候選檢索結果,並根據檢索分數和語言模型對候選檢索結 果進行排序,同時可以根據服務現場實際情況靈活調整地名和標識的輸入先後順序,對輸 入的錯誤查詢指令提供模糊處理,最大限度地排除話務服務中不應出現的「查無此人」情 況,實現了對用戶輸入的最大限度地容錯,從而準確、快速地以字母檢索中西文機構名稱, 在不損失準確率的前提下縮簡訊息搜索時間,極大的提高檢索的工作效率,提升檢索質量。
權利要求
一種機構名稱檢索方法,包括如下步驟S11將業務數據中所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分;S12將業務數據中所有機構名稱轉換為縮寫字母;S13建立對所有標識I所對應字母縮寫的全文索引;S14建立標識I字母語言模型;S15建立地名詞典、類型同義詞詞典和後綴同義詞詞典;S16建立用戶檢索界面,接收輸入字母串並切分出各部分,得出標識I全文檢索,得出候選檢索結果和檢索分數;S17檢索地名R、類型T和後綴S,縮小候選檢索結果範圍;S18對候選檢索結果進行排序並輸出。
2.根據權利要求1所述的機構名稱檢索方法,其特徵在於,所述步驟Sll中,地名R是 指出現在機構名稱中的地理名稱,標識I是指標識機構名稱的核心詞彙,類型T指區分機構 類型中詞彙,後綴S指出現在機構名稱匯總的後綴詞彙。
3.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S11,切分時,詞典 優先識別地名R、類型T和後綴S從而確定標識I邊界,準確獲得標示I。
4.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S12中,先將中文 機構名稱的漢字轉換為拼音,再提取漢語拼音首字母或英文單詞首字母以形成機構名稱的 縮寫字母。
5.根據權利要求4所述的機構名稱檢索方法,其特徵在於所述步驟S12將漢字轉換 為拼音時採取上下文拼音相關算法消除多音字的歧義問題。
6.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S13採用倒排索 引算法建立全文索引。
7.根據權利要求6所述的機構名稱檢索方法,其特徵在於在建立全文索引時以所有 標識I所對應字母縮寫為元素。
8.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S14中,針對所有 標識I所對應字母縮寫建立標識I字母語言模型。
9.根據權利要求8所述的機構名稱檢索方法,其特徵在於在建立標識I字母語言模 型時以字母為元素,並採用了最大似然估計方法。
10.根據權利要求9所述的機構名稱檢索方法,其特徵在於在建立標示I字母語言模 型時採取二元字母語言模型,降低計算負責度。
11.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S15在建立地名 詞典、類型同義詞詞典和後綴同義詞詞典時採用步驟Sll所產生的切分結果。
12.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S16中,從輸入 字母串中識別標識I,採用了如下規則所有機構名稱全稱都包含地點R、機構名稱標識詞I、機構類型T和名稱後綴S ;即使在機構名稱的最強省略情況下都不會丟失標識詞I,且出現在輸入字母串靠前的 位置;機構名稱中的不同部分的輸入可以顛倒順序,但各部分內部漢字的順序不可顛倒;在任何狀態下的輸入字母串應包含機構名稱標識I或地名R。
13.根據權利要求1所述的機構名稱檢索方法,其特徵在於所述步驟S17中,以字典 匹配的方法識別輸入字母中可能存在的地名R、類型T和後綴S。
14.根據權利要求13所述的機構名稱檢索方法,其特徵在於在進行字典匹配時採用 了步驟S15產生的地名詞典、類型同義詞詞典和後綴同義詞詞典。
15.根據權利要求1所述的機構名稱檢索方法,其特徵在於在步驟S18中,以全文檢 索分數結合步驟S14產生的標識I字母語言模型對所有候選檢索結果進行排序。
16.根據權利要求15所述的機構名稱檢索方法,其特徵在於在對候選檢索結果排序 時採用了以下計算公式CT1 X Sm (L,I) + m2x Slm {L, I)其中I為輸入字母串,L為候選檢索結果W對應的字母串,SIR(L,I)為L的全文檢索分 數,SLM(L,I)為L的語言模型分數,巧和巧.分別為全文檢索分數和語言模型分數的權重;全文檢索分數SIR(L,I)的計算公式如下 LenjCMN (I, L)) Len(I)+ED{I,L)其中,CMN(χ, y)返回兩字母串的共同字母串,LenC )返回字母串的長度,ED(I, L)用 於計算輸入字母串I與檢索結果對應字母串L的編輯距離;語言模型分數SLM (L,I)的計算公式如下Slm (L, I) = Pr(Z 11) = Pr(Z) χ Pr(/ | L)二 Π" Pr仏+丨 |Z.)x-!-丄丄『=0、』+'丨l + ED(I,L)其中,L = {Lj i =(!,!,...,『
17.一種機構名稱檢索系統,包括離線學習模塊、全文索引資料庫、語言模型、詞典、 實時檢索模塊;所述離線學習模塊,用於自動從海量業務數據中的機構名稱中產生全文索引資料庫、 語言模型和詞典;所述全文索引資料庫,用於存放機構名稱中標識I部分的字母全文索引;所述語言模型,用於管理機構名稱中標識I部分的字母分布概率;所述詞典,用於存放業務數據中機構名稱所涉及的地名、機構類型和名稱後綴;所述實時檢索模塊,用於接收用戶輸入的字母串切分出各部分得出標示I,全文索引, 產生包含標識I的多種切分方式的候選結果,並產生檢索分數,得出查詢詞典將候選檢索 結果縮小到更小的範圍,並根據檢索分數和語言模型對候選檢索結果進行排序,最後輸出 檢索結果。
全文摘要
一種機構名稱檢索方法和系統,將所有機構名稱自動切分為地名R、標識I、類型T和後綴S四部分,將所有機構名稱轉換為縮寫字母,建立對所有標識I所對應字母縮寫的全文索引以及語言模型,建立地名詞典、類型同義詞詞典和後綴同義詞詞典,接受輸入字母串並切分出標識I全文檢索,檢索地名R、類型T和後綴S,得出候選檢索結果進行排序並輸出。本發明可以準確、快速地以字母檢索中西文機構名稱,實現對用戶輸入最大限度地容錯,在不損失準確率的前提下縮簡訊息搜索時間,同時具有自動學習功能。
文檔編號H04M3/51GK101930435SQ20091011037
公開日2010年12月29日 申請日期2009年10月27日 優先權日2009年10月27日
發明者劉偉, 劉軼, 夏雲慶, 程剛 申請人:深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀