新四季網

數字串模糊匹配的方法

2023-05-19 10:08:46 1

專利名稱:數字串模糊匹配的方法
技術領域:
本發明涉及計算機模糊搜索技術,更具體地說,涉及一種數字串模糊匹配的方法。
背景技術:
目前的主要搜尋引擎的模式都是,用戶輸入一些關鍵字或者句子,無論是那種,搜尋引擎都會首先對用戶的輸入進行分詞,這樣可以增加搜索結果的準確性,這是和普通資料庫搜索的不同點(普通的資料庫搜索,只是簡單的用like%關鍵字%),然後搜尋引擎去海量的索引庫去查找這些和用戶輸入相關的信息,顯示的結果會包含網頁的相關摘要。
中文搜尋引擎相關的技術包含網絡蜘蛛,中文分詞,索引庫,網頁摘要的提取,網頁相似度,信息的分類。
眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am astudent,用中文則為「我是一個學生」。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞(或稱為切詞)。我是一個學生,分詞的結果是我是一個學生。中文分詞的準確與否,常常直接影響到對搜索結果的相關度排序。
現有的搜尋引擎一般使用分詞算法,實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞。這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。
但是,現有的分詞技術,一般是針對中文的,而沒有專門針對數字串的「分詞」的匹配算法;而且,現有的分詞技術需要通過查找詞典進行分詞,速度較慢;另外,現有的分詞技術沒有考慮每個詞之間的順序關係,而是分割成相互之間比較獨立的詞,沒有保存原材料的詞順序關係。

發明內容
本發明要解決的技術問題在於,針對現有技術的上述現有的分詞技術缺陷,提供一種數字串模糊匹配的方法,可以對數字串進行分詞並進行模糊匹配。
本發明解決其技術問題所採用的技術方案是構造一種數字串模糊匹配的方法,可應用於即時通信中,包括以下步驟a.將用戶輸入的數字串進行分詞;b.根據所述分詞得到的新詞與號碼庫裡的詞進行模糊匹配;c.根據所述模糊匹配得到的號碼包含所述新詞中數字的數量,對所述模糊匹配得到的號碼進行排序,並將其返回給所述用戶。
本發明所述的方法中,在所述步驟a之前進一步包括對所述號碼庫裡的號碼進行分詞。
本發明所述的方法中,所述分詞的方法具體包括從用戶輸入的數字串的第一位開始,按照預設長度進行移位分割,生成多個新詞。
本發明所述的方法中,所述步驟b進一步包括將所述分詞得到的新詞加上不同的係數,用於在排序時作為權重。
本發明所述的方法中,所述步驟c中,所述排序的方法具體包括若所述模糊匹配得到的號碼包含所述新詞中數字的數量越多,則所述模糊匹配得到的號碼的排序則越靠前。
本發明所述的方法中,所述步驟c進一步包括將所述模糊匹配得到的號碼按照排序的先後,選取預設個號碼返回給所述用戶。
本發明所述的方法中,對所述號碼庫的號碼進行分詞的預設長度與對所述用戶輸入的數字串進行分詞的預設長度一樣。
本發明的有益效果是,在號碼庫沒有用戶輸入的號碼時,找出最相似的號碼推薦給用戶,避免了用戶重複查找號碼。同時,也減少了用戶對查詢號碼的請求次數,減輕了系統壓力。


下面將結合附圖及實施例對本發明作進一步說明,附圖中圖1是本發明的數字串模糊匹配的流程圖。
具體實施例方式
為使本發明的目的、技術方案及優點更加清楚明白,以下通過具體實施例並參見附圖,對本發明進行詳細說明。
本發明中,通過將用戶輸入的數字串按照長度進行分割,根據分割出來的詞所處位置加上不同係數,在排序的時候當作權重,排序不同的詞具有不同的權重,一般來說,排序越靠前的,權重越高。
然後,根據分詞得到的詞與號碼庫裡的詞進行匹配,選出包含用戶輸入的數字串(即分割出來的詞)的數量最多的號碼並將其進行排序。
下面參照圖1示出的數字串模糊匹配的流程圖為例進行說明,包括以下步驟步驟S100用戶輸入數字串,如用戶輸入即時通信的ID號碼。
步驟S105對用戶輸入的數字串進行分詞。如將用戶輸入的即時通信ID號碼進行分割,從用戶輸入的數字串的第一位開始,按照預設長度進行移位分割,生成多個新詞。若用戶輸入的號碼為1345679,則可以將其按照長度為5(也可以為其它長度,這個長度可以由系統預先設定,也可以由用戶預先設定)進行分割,如分割為13456、34567、45679三個新詞。
對用戶輸入的號碼進行分割時,可以根據分割出來的詞所處位置加上不同係數,在排序的時候當作權重。如開頭的詞權重較高。該係數可以根據業務特點制定。例如,一般認為如果分割出來的詞的首、尾數字匹配,應該就更好,則係數就會比較高。例如,可以將號碼1234567分割出來的詞12345和34567的係數設置為3,而23456的係數設置為2。
步驟S110根據分詞得到的詞與號碼庫裡的詞進行匹配。但是,預先要將號碼庫(如即時通信的所有ID庫,一般存在伺服器上)裡的所有號碼按照長度為5(也可以為其它長度,這個長度是預先設定的,但是要跟上述對用戶的輸入的分詞長度一樣)進行分割,如將1234567分割為12345、23456、34567三個新詞。
步驟S115按照包含用戶輸入的詞數量(相似係數)對號碼進行排序。如前面所述的1345679和1234567有相同的詞34567,因此這兩個ID的相似係數是3。由於前後分割的詞是有比較多重合的,因此,分出來的詞已經充分考慮了詞與詞之間的順序關係。一般來說,跟用戶輸入數字串最大匹配長度越長的(即相似系統越高),排序就會越靠前。
步驟120選出包含用戶輸入的詞數量最多的號碼返回給用戶。也就是將相似係數最高的號碼返回給用戶。例如,假設用戶輸入的數字串(即號碼)包含5個新詞W1~W5,其中W1的係數是3,W2~W5的係數是2。號碼庫裡的號碼Q1包含了詞W1、W3;號碼庫裡的號碼Q2包含了詞W2、W4。則號碼Q1跟用戶輸入的數字串相似係數是5(即3+2=5),而號碼Q2是4(即2+2=4)。因此號碼Q1相似係數較高,則返回號碼Q1給用戶。
返回給用戶的號碼個數可以預先設定,例如可以預設設定返回給用戶號碼的個數為10個,那麼系統就會將與用戶輸入的數字串最相似的前10個號碼返回給用戶。
以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均包含在本發明的保護範圍之內。
權利要求
1.一種數字串模糊匹配的方法,可應用於即時通信中,其特徵在於,包括以下步驟a.將用戶輸入的數字串進行分詞;b.根據所述分詞得到的新詞與號碼庫裡的詞進行模糊匹配;c.根據所述模糊匹配得到的號碼包含所述新詞中數字的數量,對所述模糊匹配得到的號碼進行排序,並將其返回給所述用戶。
2.根據權利要求1所述的方法,其特徵在於,在所述步驟a之前進一步包括對所述號碼庫裡的號碼進行分詞。
3.根據權利要求1或2所述的方法,其特徵在於,所述分詞的方法具體包括從用戶輸入的數字串的第一位開始,按照預設長度進行移位分割,生成多個新詞。
4.根據權利要求1所述的方法,其特徵在於,所述步驟b進一步包括將所述分詞得到的新詞加上不同的係數,用於在排序時作為權重。
5.根據權利要求1所述的方法,其特徵在於,所述步驟c中,所述排序的方法具體包括若所述模糊匹配得到的號碼包含所述新詞中數字的數量越多,則所述模糊匹配得到的號碼的排序則越靠前。
6.根據權利要求1所述的方法,其特徵在於,所述步驟c進一步包括將所述模糊匹配得到的號碼按照排序的先後,選取預設個號碼返回給所述用戶。
7.根據權利要求3所述的方法,其特徵在於,對所述號碼庫的號碼進行分詞的預設長度與對所述用戶輸入的數字串進行分詞的預設長度一樣。
全文摘要
本發明涉及一種數字串模糊匹配的方法,可應用於即時通信中,包括以下步驟a.將用戶輸入的數字串進行分詞;b.根據所述分詞得到的新詞與號碼庫裡的詞進行模糊匹配;c.根據所述模糊匹配得到的號碼包含所述新詞中數字的數量,對所述模糊匹配得到的號碼進行排序,並將其返回給所述用戶。本發明在號碼庫沒有用戶輸入的號碼時,找出最相似的號碼推薦給用戶,避免了用戶重複查找號碼。同時,也減少了用戶對查詢號碼的請求次數,減輕了系統壓力。
文檔編號H04L12/58GK101079032SQ200610036119
公開日2007年11月28日 申請日期2006年6月23日 優先權日2006年6月23日
發明者譚文彪 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀