一種用於分揀的地址匹配方法
2023-05-01 01:32:31 4
一種用於分揀的地址匹配方法
【專利摘要】本發明公開了一種用於分揀的地址匹配方法。該方法包括:獲取郵件的地址信息,根據所述地址信息進行數據清洗;利用中文分詞算法對所述數據清洗後的地址信息進行解析處理,獲得分詞結果;根據所述分詞結果進行郵件地址的匹配。本發明中,可實現郵件地址的自動匹配,降低了分揀過程中人工的勞動量,提高了匹配效率和成功率。
【專利說明】—種用於分揀的地址匹配方法
【技術領域】
[0001]本發明涉及郵政快遞領域,尤其涉及一種用於分揀的地址匹配方法。
【背景技術】
[0002]郵政快遞是一種具有郵遞功能的門對門物流活動,即指快遞公司通過公路,鐵路和空運等交通工具,對客戶貨物進行快速的投遞。隨著社會的高速發展,人們的生活也逐漸進入了高速化時代,人們對物流行業提出了更高的要求,因此,從事郵政快遞的物流公司正迫切的需要提高自己的服務,來滿足人們對信息、貨物等運輸效率的需求。
[0003]目前在郵政、快遞領域的生產活動中,分揀過程是必不可少的,這個過程需要由技術工人根據郵件地址分配到指定的格口,但由於郵件地址範圍廣、格式多樣,因此格口所包含的地址範圍憑人工記憶很難做到完全的準確。
[0004]為了解決人工記憶地址的困難,現有的地址匹配方法中,多採用關鍵字匹配算法。即用戶先根據經驗,將郵件上常見的地址關鍵字維護進應用系統,並指定對應的格口,後續再根據關鍵字進行地址匹配,找到該郵件對應的格口。
[0005]按照現有技術中的方法,需要針對每封郵件的特殊關鍵字進行維護,數據量特別大,而且出現新的地址信息時,很可能會出現無法匹配的問題。當出現格口和地址之間的映射關係變更時,還需要由人工進行數據的調整。這些都導致了匹配效率低,人工維護工作量大,成功率下降等問題。
【發明內容】
[0006]本發明提供了一種用於分揀的地址匹配方法,以實現郵件地址的自動匹配,提高郵件地址匹配的效率和成功率,提高人工維護的效率及降低分揀的出錯率。
[0007]本發明的目的是通過以下技術方案實現的:
[0008]一種用於分揀的地址匹配方法,其特徵在於,該方法包括以下步驟:
[0009]獲取郵件的地址信息,根據所述地址信息進行數據清洗;
[0010]利用中文分詞算法對所述數據清洗後的地址信息進行解析處理,獲得分詞結果;
[0011]根據所述分詞結果進行郵件地址的匹配。
[0012]與現有技術相比,本發明實施例至少具有以下優點:
[0013]本發明實施例中,通過對郵件地址信息進行數據清洗和中文分詞算法,得到地址的分詞結果,利用分詞結果可實現對郵件地址的自動匹配,分揀過程就不再需要大量的人工參與,降低了人工的勞動量,並能夠提高郵件地址匹配的效率和成功率,同時提高了人工維護的效率及降低分揀的出錯率。
【專利附圖】
【附圖說明】
[0014]圖1為本發明提出的一種用於分揀的地址匹配方法的流程示意圖;
[0015]圖2為本發明的一種實施方式步驟S103的具體流程示意圖。
【具體實施方式】
[0016]下面結合附圖對本發明的【具體實施方式】進行詳細說明:
[0017]如圖1所示,為本發明實施例提出的一種用於分揀的地址匹配方法的流程示意圖,該方法具體包括以下步驟:
[0018]步驟SlOl:獲取郵件的地址信息,根據地址信息進行數據清洗。
[0019]由於郵件上用戶書寫的收件人地址可能存在不規範的情況,因此需要先進行數據的清晰,該過程包括:對郵件的地址信息進行轉換大小寫、轉換漢字的全形/半角等,所述數據清洗後的地址信息將用於後續的處理。
[0020]步驟S102:利用中文分詞算法對數據清洗後的地址信息進行解析處理,獲得分詞結果。
[0021]為了後續有效的進行匹配,利用中文分詞算法對上述數據清洗後的地址信息進行解析處理,具體的,將該地址按照行政級別進行分詞處理,該地址被解析為行政區域、街道、單位等部件,具體的,將地址分為單詞的組合,例如將地址分解為「省-地市-縣市-鄉鎮/街道-單位或門牌」等(如北京市海澱區增光路紫玉飯店=北京市+海澱區+增光路+紫玉飯店),分詞之後的結果將用於後續的處理。
[0022]步驟S103:根據分詞結果進行郵件地址的匹配。
[0023]具體的,所述根據分詞結果進行郵件地址的匹配,包括第一次匹配、第二次匹配、第三次匹配、第四次匹配。
[0024]如圖2所示,所述的步驟S103,具體包括以下步驟:
[0025]步驟S301:將分詞結果組合成標準地址,與行政區域進行第一次匹配。
[0026]具體的,將得到的地址信息的分詞結果分別組合成標準的地址,例如組合成格式為「省-地市-縣市-鄉鎮/街道」的標準地址,之後按照「從高到低」的原則將上述標準地址與系統中的行政區域進行匹配,即先匹配省份、再匹配地市、再匹配縣市、再匹配鄉鎮/街道等。一般情況下,城市範圍內的地址應匹配到街道,遠郊地區的地址只需匹配到縣市或鄉鎮即可。如果匹配成功,則匹配結束並返回匹配成功的結果,具體的,該匹配成功的結果是所有匹配結果中舍最低級別的標準地址。否則,進行第二次匹配。
[0027]步驟S302:根據分詞結果進行第二次匹配。
[0028]具體的,所述的步驟S302,具體包括以下步驟:
[0029]步驟S3021、將分詞結果重新組合;
[0030]步驟S3022、過濾掉行政區域上下級不一致的組合;
[0031]步驟S3023、過濾掉單位信息不一致的組合;
[0032]步驟S3024、過濾掉街道信息不一致的組合;
[0033]步驟S3025、過濾掉重複的組合;
[0034]步驟S3026、過濾掉不符合書寫習慣的組合。
[0035]在上述步驟S302中,如果在步驟S301中未匹配到正確結果,此時,在執行第二次匹配之前需要對分詞結果進行重新的組合,重新組合的目的是避免因中文分詞結果的不正確,而導致不能匹配的情況。
[0036]步驟S303:根據分詞結果進行第三次匹配。
[0037]具體的,對分詞結果中的街道信息進行匹配,如果匹配成功,則返回匹配結果中街道名稱最長的結果,否則,進行第四次匹配。
[0038]步驟S304:根據分詞結果進行第四次匹配。
[0039]具體的,對分詞結果中的單位地址進行匹配,如果匹配成功,則返回匹配結果中單位名稱最長的結果,否則返回無匹配結果。
[0040]需要進一步指出的是,在具體的應用場景中,在本發明提出的步驟SlOl之前,用戶需要預先維護一些基礎數據,其中,包括格口與郵政編碼的對應關係,郵政編碼與行政區域的對應關係,行政區域與街道信息的對應關係,以及行政區域與單位地址的對應關係。其中,格口與郵政編碼的對應關係需要由用戶進行維護。格口用於存放對應其行政區域的郵件和包裹,郵政快遞人員可以直接從對應的格口中找到需要配送的郵件,並獲取郵件對應的地址信息。
[0041]與現有技術相比,本發明實施例具有以下優點:
[0042]通過應用本發明實施例的技術方案,在進行貨物分揀的過程中,利用對郵件地址信息的數據清洗和中文分詞的結果,結合預先維護的格口的對應關係,通過匹配查找到正確的行政區域,就可以快速的將郵件的地址與正確的格口進行綁定,實現了郵件地址的自動匹配,提高了郵政運輸的效率,大大降低了人工維護的工作量,可直接提高郵件地址匹配的效率和成功率。
[0043]以上所述,僅為本發明較佳的【具體實施方式】,但本發明的保護範圍並不局限於此,任何熟悉本【技術領域】的技術人員在本發明揭露的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應該以權利要求書的保護範圍為準。
【權利要求】
1.一種用於分揀的地址匹配方法,其特徵在於,該方法包括以下步驟: 獲取郵件的地址信息,根據所述地址信息進行數據清洗; 利用中文分詞算法對所述數據清洗後的地址信息進行解析處理,獲得分詞結果; 根據所述分詞結果進行郵件地址的匹配。
2.如權利要求1所述的方法,其特徵在於,所述根據地址信息進行數據清洗,具體包括:對所述地址信息進行轉換大小寫、和轉換漢字的全形/半角。
3.如權利要求1所述的方法,其特徵在於,所述利用中文分詞算法對所述數據清洗後的地址信息進行解析處理,具體包括:利用中文分詞算法將所述地址信息解析為行政區域、街道和單位。
4.如權利要求1所述的方法,其特徵在於,所述方法還包括: 預先維護一個基礎數據,具體的:維護格口與郵政編碼的對應關係,維護郵政編碼與行政區域的對應關係,維護行政區域與街道信息的對應關係,維護行政區域與單位地址的對應關係。
5.如權利要求1所述的方法,其特徵在於,所述根據分詞結果進行郵件地址的匹配,包括第一次匹配、第二次匹配、第三次匹配、第四次匹配。
6.如權利要求5所述的方法,其特徵在於,所述第一次匹配,具體為: 將所述分詞結果組合成標準地址,按照行政級別從高到低的原則與行政區域進行匹配,如果匹配成功,則匹配結束並返回所述匹配成功的結果,否則進行第二次匹配。
7.如權利要求6所述的方法,其特徵在於,所述第二次匹配,具體為: 將所述分詞結果重新組合,過濾掉行政區域上下級不一致的組合,過濾掉單位信息不一致的組合,過濾掉街道信息不一致的組合,過濾掉重複的組合,過濾掉不符合書寫習慣的組合,如果剩下唯一的組合,則匹配結束並返回所述唯一組合的結果,否則進行第三次匹配。
8.如權利要求7所述的方法,其特徵在於,所述第三次匹配,具體為: 對街道信息進行匹配,並返回所述匹配結果中街道名稱最長的結果,否則進行第四次匹配。
9.如權利要求8所述的方法,其特徵在於,所述第四次匹配,具體為: 對單位地址進行匹配,並返回所述匹配結果中單位名稱最長的結果,否則返回無匹配結果。
【文檔編號】G06F17/30GK104166679SQ201410323972
【公開日】2014年11月26日 申請日期:2014年7月8日 優先權日:2014年7月8日
【發明者】李科, 吳剛, 宮宇 申請人:北京迪威特科技有限公司