新四季網

一種地理信息領域的關鍵字提取的方法及裝置的製作方法

2023-08-05 03:33:36 2

專利名稱:一種地理信息領域的關鍵字提取的方法及裝置的製作方法
技術領域:
本發明屬於電數字數據處理技術領域,尤其涉及一種地理信息領域的關鍵字提取的方法及裝置。
背景技術:
興趣點(Ρ0Ι,Point Of Interest)是指可查找、可定位的包含衣食住行等附屬社會信息的點要素。在POI生產過程中,通常採用基於領域關鍵字詞典的命名實體識別、POI 數據自動分類等技術輔助人工進行處理,以大幅提高生產效率。領域關鍵字的提取是構建領域關鍵字詞典的重要環節。目前,常用的關鍵字提取方法主要有基於中文分詞的關鍵字提取方法和基於 N-gram模型的關鍵字提取方法。但現有的關鍵字提取方法存在以下問題1)基於中文分詞的關鍵字提取方法,主要問題是對POI名稱數據切分過於細碎, 導致長度上不能滿足領域關鍵字的要求,造成準確率低;2)基於N-gram(N個連續符號的序列)模型的關鍵字提取方法,是大詞彙連續語音識別中常用的一種語言模型,由於獲取的是以單個字為最小粒度單元組合而成,會造成無效的噪聲數據過多,導致處理速度慢。由此可知,現有的關鍵字提取方法由於沒有考慮到地理信息領域中數據的特性, 導致現有的關鍵字提取方法在地理信息領域中適應性不強。

發明內容
為了解決上述問題,本發明的目的是提供一種地理信息領域的關鍵字提取的方法及裝置,通過基於中文分詞與N-gram模型相結合的候選關鍵字的提取,能兼顧地理信息領域中關鍵字提取的效率和準確率。為了達到上述目的,本發明提供一種地理信息領域的關鍵字提取的方法,所述提取方法包括步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。優選的,在所述步驟1之前,所述提取方法還包括對所述地理信息資料庫中待處理數據進行格式的規範化處理。優選的,在對所述待處理數據進行格式的規範化處理之前,所述方法還包括判斷是否處理完所述地理信息資料庫中所有待處理數據;如果處理完,則統計每個所述候選關鍵字的詞頻,並忽略所述詞頻低於預設詞頻閾值的候選關鍵字,然後執行所述步驟3 ;
若沒有處理完,則從所述地理信息資料庫中獲取下一條待處理數據,然後返回所述步驟1。優選的,所述步驟3之前,所述方法還包括判斷當前的所述候選關鍵字是否已經存在於歷史數據詞典中,若是,則忽略當前的所述候選關鍵字,獲取下一個候選關鍵字;否則,保存當前的所述候選關鍵字,然後執行所述步驟3。優選的,所述歷史數據詞典中包括噪聲數據和/或已提取的關鍵字數據。優選的,所述候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。優選的,所述將所述候選關鍵字記錄到與所述類型對應的數據詞典中的步驟具體為將所述名稱關鍵字記錄到名稱關鍵字的數據詞典中;將所述行業特點關鍵字記錄到行業特點關鍵字的數據詞典中;將所述功能特徵關鍵字記錄到功能特徵關鍵字的數據詞典中;和/或將所述噪聲數據記錄到噪聲數據詞典中。為了達到上述目的,本發明還提供一種地理信息領域的關鍵字提取的裝置,所述裝置包括中文分詞模塊,用於利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;候選關鍵字獲取模塊,用於以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;關鍵字提取模塊,用於根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。優選的,所述裝置還包括詞頻統計模塊,分別與所述候選關鍵字獲取模塊和所述關鍵字提取模塊連接,用於統計所述候選關鍵字獲取模塊獲取的候選關鍵字的詞頻,並將所述詞頻大於等於預設詞頻閾值的關鍵字發送給所述關鍵字提取模塊。優選的,所述裝置還包括歷史數據詞典構建模塊,與所述關鍵字提取模塊連接,用於根據關鍵字的類型獲取關鍵字數據和/或噪聲數據,並構建歷史數據詞典。由上述技術方案可知,在本實施例中首先基於中文分詞對地理信息領域中的數據進行分詞處理,然後以分詞得到的短語為最小粒度單元,運用N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字,再從候選關鍵字中提取用戶希望得到的關鍵字。因此本實施例中的技術方案與僅採用基於中文分詞的關鍵字提取方法相比,避免了分詞時對地理信息領域中數據切分細碎,長度上不能滿足領域關鍵字提取的要求的問題,因此通過本實施例提取的關鍵字的召回率更高;本實施例中的技術方案與單獨基於N-gram模型的關鍵字提取方法相比,避免了處理大量無效的噪聲數據,因此,運行速度更快、效率更高;另外,還可充分利用歷史數據詞典中記錄的噪聲數據和已提取的關鍵字數據,能夠避免噪聲數據和已提取的關鍵字數據的重複處理,因此,運行速度更快。總之,本實施例中的提取關鍵字能兼顧效率、召回率及準確率,能更好地滿足地理信息領域中關鍵字提取的要求。


圖1為本發明的實施例中地理信息領域的關鍵字提取的方法流程圖;圖2為本發明的實施例中利用中文分詞和N-gram模型相結合的POI關鍵字提取的流程圖;圖3為本發明的實施例中地理信息領域的關鍵字提取的裝置框圖。
具體實施例方式在本實施例中,首先利用中文分詞對地理信息資料庫中的數據進行分詞處理,然後以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度的所有候選關鍵字,最後根據候選關鍵字的類型,將候選關鍵字記錄到與類型對應的數據詞典中,通過利用中文分詞與N-gram模型相結合的候選關鍵字的提取方式,能兼顧地理信息領域中關鍵字提取的效率和準確率。為了使本發明實施例的目的、技術方案和優點更加清楚明白,下面結合實施例和附圖,對本發明實施例做進一步詳細地說明。在此,本發明的示意性實施例及說明用於解釋本發明,但並不作為對本發明的限定。參見圖1,為本發明的實施例中地理信息領域的關鍵字提取的方法流程圖,具體步驟如下步驟101、對地理信息資料庫中待處理數據進行格式的規範化處理,然後執行步驟 102 ;由於地理信息資料庫中待處理數據的格式可能不規範,因此,可對待處理數據進行格式的規範化處理,以規範數據格式。比如去除待處理數據中的空格、括號等。當然本步驟為可選步驟。步驟102、判斷是否處理完地理信息資料庫中所有待處理數據,若是,執行步驟 108;否則,執行步驟103;也就是,當處理完地理信息資料庫中所有待處理數據,則可進行候選關鍵字的詞頻統計;否則,繼續對待處理數據進行分詞處理,以獲得候選關鍵字。步驟103、從地理信息資料庫中獲取下一條待處理數據,然後執行步驟104 ;步驟104、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理,然後執行步驟105 ;在本實施例中,可利用現有的中文分詞對地理信息資料庫中的待處理數據進行分詞處理,得到的最小粒度單元為短語,其中短語之間可用空格作為分隔符。例如待處理數據為「北京盛唐文化傳播責任有限公司」,經過本步驟處理後,得到的結果是「北京盛唐文化傳播責任有限公司」,當然在本實施例中並不限定分隔符的具體表現形式。步驟105、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字,然後返回步驟106 ;
也就是,應用N-gram模型將相鄰的短語組合成長度更長的短語,並從其中獲取所有長度不超過預設的關鍵字最大長度值的短語,將獲取的短語作為候選關鍵字。該預設的關鍵字最大長度值可根據具體情況進行設置。步驟106、判斷當前的候選關鍵字是否已經存在於歷史數據詞典中,若是,執行步驟107 ;否則,保存當前的候選關鍵字,然後執行步驟102 ;步驟107、忽略當前的候選關鍵字,然後返回步驟102 ;上述歷史數據詞典中包括噪聲數據和/或已提取的關鍵字數據。上述噪聲數據是指關鍵字不是行業特點關鍵字、不是功能特徵關鍵字,也不是POI名稱關鍵字。當然在本實施例中並不限定歷史數據詞典中的具體內容。在步驟106 107中,通過利用歷史數據詞典,可確認當前的候選關鍵字是否為噪聲數據或已提取的關鍵字數據。若該當前的候選關鍵字已存在於歷史數據詞典中,則可忽略當前的候選關鍵字。該歷史數據詞典是指在之前在關鍵字提取過程中構建的數據詞典, 並且可在地理信息領域關鍵字的提取過程中對歷史數據詞典進行更新處理,即將得到的噪聲數據和已提取的關鍵字數據補充到歷史數據詞典中。通過排除噪聲數據和已提取的關鍵字,可避免在關鍵字提取過程中處理大量無效的數據,提高了地理信息領域中關鍵字提取的效率。步驟108、統計每個候選關鍵字的詞頻,並標註類型,然後執行步驟109 ;由於可以認為出現頻率越高的候選關鍵字,越可能是需要提取的地理信息領域中的關鍵字,因此可通過現有的統計方法來統計每個候選關鍵字的詞頻,得到(關鍵字,頻
率)二元組。在執行本步驟時,也可統計候選關鍵字的類型,該候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。當然在本實施例中並不限定候選關鍵字的類型。參見下表,為本實施例中候選關鍵字詞頻統計表。表 權利要求
1.一種地理信息領域的關鍵字提取的 方法,其特徵在於,所述提取方法包括 步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。
2.根據權利要求1所述的方法,其特徵在於,在所述步驟1之前,所述提取方法還包括對所述地理信息資料庫中待處理數據進行格式的規範化處理。
3.根據權利要求2所述的方法,其特徵在於,在對所述待處理數據進行格式的規範化處理之前,所述方法還包括判斷是否處理完所述地理信息資料庫中所有待處理數據;如果處理完,則統計每個所述候選關鍵字的詞頻,並忽略所述詞頻低於預設詞頻閾值的候選關鍵字,然後執行所述步驟3 ;若沒有處理完,則從所述地理信息資料庫中獲取下一條待處理數據,然後返回所述步馬聚1 O
4.根據權利要求1所述的方法,其特徵在於,所述步驟3之前,所述方法還包括判斷當前的所述候選關鍵字是否已經存在於歷史數據詞典中,若是,則忽略當前的所述候選關鍵字,獲取下一個候選關鍵字;否則,保存當前的所述候選關鍵字,然後執行所述步驟3 ο
5.根據權利要求4所述的方法,其特徵在於,所述歷史數據詞典中包括噪聲數據和/ 或已提取的關鍵字數據。
6.根據權利要求1所述的方法,其特徵在於,所述候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。
7.根據權利要求6所述的方法,其特徵在於,所述將所述候選關鍵字記錄到與所述類型對應的數據詞典中的步驟具體為將所述名稱關鍵字記錄到名稱關鍵字的數據詞典中; 將所述行業特點關鍵字記錄到行業特點關鍵字的數據詞典中; 將所述功能特徵關鍵字記錄到功能特徵關鍵字的數據詞典中;和/或將所述噪聲數據記錄到噪聲數據詞典中。
8.—種地理信息領域的關鍵字提取的裝置,其特徵在於,所述裝置包括中文分詞模塊,用於利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;候選關鍵字獲取模塊,用於以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;關鍵字提取模塊,用於根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。
9.根據權利要求8所述的關鍵字提取的裝置,其特徵在於,所述裝置還包括詞頻統計模塊,分別與所述候選關鍵字獲取模塊和所述關鍵字提取模塊連接,用於統計所述候選關鍵字獲取模塊獲取的候選關鍵字的詞頻,並將所述詞頻大於等於預設詞頻閾值的關鍵字發送給所述關鍵字提取模塊。
10.根據權利要求9所述的關鍵字提取的裝置,其特徵在於,所述裝置還包括 歷史數據詞典構建模塊,與所述關鍵字提取模塊連接,用於根據關鍵字的類型獲取關鍵字數據和/或噪聲數據,並構建歷史數據詞典。
全文摘要
本發明提供一種地理信息領域的關鍵字提取的方法及裝置,屬於電數字數據處理技術領域,該方法包括步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據候選關鍵字的類型,將候選關鍵字記錄到與類型對應的數據詞典中。將中文分詞與N-gram模型相結合的關鍵字的提取方法,保存並充分利用歷史處理過程中的數據,能兼顧地理信息領域中關鍵字提取的效率和準確率。
文檔編號G06F17/30GK102375863SQ201010265879
公開日2012年3月14日 申請日期2010年8月27日 優先權日2010年8月27日
發明者杜宇程, 申排偉, 陳小賓 申請人:北京四維圖新科技股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀