一種地理信息領域的關鍵字提取的方法及裝置的製作方法
2023-08-05 03:33:36 2
專利名稱:一種地理信息領域的關鍵字提取的方法及裝置的製作方法
技術領域:
本發明屬於電數字數據處理技術領域,尤其涉及一種地理信息領域的關鍵字提取的方法及裝置。
背景技術:
興趣點(Ρ0Ι,Point Of Interest)是指可查找、可定位的包含衣食住行等附屬社會信息的點要素。在POI生產過程中,通常採用基於領域關鍵字詞典的命名實體識別、POI 數據自動分類等技術輔助人工進行處理,以大幅提高生產效率。領域關鍵字的提取是構建領域關鍵字詞典的重要環節。目前,常用的關鍵字提取方法主要有基於中文分詞的關鍵字提取方法和基於 N-gram模型的關鍵字提取方法。但現有的關鍵字提取方法存在以下問題1)基於中文分詞的關鍵字提取方法,主要問題是對POI名稱數據切分過於細碎, 導致長度上不能滿足領域關鍵字的要求,造成準確率低;2)基於N-gram(N個連續符號的序列)模型的關鍵字提取方法,是大詞彙連續語音識別中常用的一種語言模型,由於獲取的是以單個字為最小粒度單元組合而成,會造成無效的噪聲數據過多,導致處理速度慢。由此可知,現有的關鍵字提取方法由於沒有考慮到地理信息領域中數據的特性, 導致現有的關鍵字提取方法在地理信息領域中適應性不強。
發明內容
為了解決上述問題,本發明的目的是提供一種地理信息領域的關鍵字提取的方法及裝置,通過基於中文分詞與N-gram模型相結合的候選關鍵字的提取,能兼顧地理信息領域中關鍵字提取的效率和準確率。為了達到上述目的,本發明提供一種地理信息領域的關鍵字提取的方法,所述提取方法包括步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。優選的,在所述步驟1之前,所述提取方法還包括對所述地理信息資料庫中待處理數據進行格式的規範化處理。優選的,在對所述待處理數據進行格式的規範化處理之前,所述方法還包括判斷是否處理完所述地理信息資料庫中所有待處理數據;如果處理完,則統計每個所述候選關鍵字的詞頻,並忽略所述詞頻低於預設詞頻閾值的候選關鍵字,然後執行所述步驟3 ;
若沒有處理完,則從所述地理信息資料庫中獲取下一條待處理數據,然後返回所述步驟1。優選的,所述步驟3之前,所述方法還包括判斷當前的所述候選關鍵字是否已經存在於歷史數據詞典中,若是,則忽略當前的所述候選關鍵字,獲取下一個候選關鍵字;否則,保存當前的所述候選關鍵字,然後執行所述步驟3。優選的,所述歷史數據詞典中包括噪聲數據和/或已提取的關鍵字數據。優選的,所述候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。優選的,所述將所述候選關鍵字記錄到與所述類型對應的數據詞典中的步驟具體為將所述名稱關鍵字記錄到名稱關鍵字的數據詞典中;將所述行業特點關鍵字記錄到行業特點關鍵字的數據詞典中;將所述功能特徵關鍵字記錄到功能特徵關鍵字的數據詞典中;和/或將所述噪聲數據記錄到噪聲數據詞典中。為了達到上述目的,本發明還提供一種地理信息領域的關鍵字提取的裝置,所述裝置包括中文分詞模塊,用於利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;候選關鍵字獲取模塊,用於以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;關鍵字提取模塊,用於根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。優選的,所述裝置還包括詞頻統計模塊,分別與所述候選關鍵字獲取模塊和所述關鍵字提取模塊連接,用於統計所述候選關鍵字獲取模塊獲取的候選關鍵字的詞頻,並將所述詞頻大於等於預設詞頻閾值的關鍵字發送給所述關鍵字提取模塊。優選的,所述裝置還包括歷史數據詞典構建模塊,與所述關鍵字提取模塊連接,用於根據關鍵字的類型獲取關鍵字數據和/或噪聲數據,並構建歷史數據詞典。由上述技術方案可知,在本實施例中首先基於中文分詞對地理信息領域中的數據進行分詞處理,然後以分詞得到的短語為最小粒度單元,運用N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字,再從候選關鍵字中提取用戶希望得到的關鍵字。因此本實施例中的技術方案與僅採用基於中文分詞的關鍵字提取方法相比,避免了分詞時對地理信息領域中數據切分細碎,長度上不能滿足領域關鍵字提取的要求的問題,因此通過本實施例提取的關鍵字的召回率更高;本實施例中的技術方案與單獨基於N-gram模型的關鍵字提取方法相比,避免了處理大量無效的噪聲數據,因此,運行速度更快、效率更高;另外,還可充分利用歷史數據詞典中記錄的噪聲數據和已提取的關鍵字數據,能夠避免噪聲數據和已提取的關鍵字數據的重複處理,因此,運行速度更快。總之,本實施例中的提取關鍵字能兼顧效率、召回率及準確率,能更好地滿足地理信息領域中關鍵字提取的要求。
圖1為本發明的實施例中地理信息領域的關鍵字提取的方法流程圖;圖2為本發明的實施例中利用中文分詞和N-gram模型相結合的POI關鍵字提取的流程圖;圖3為本發明的實施例中地理信息領域的關鍵字提取的裝置框圖。
具體實施例方式在本實施例中,首先利用中文分詞對地理信息資料庫中的數據進行分詞處理,然後以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度的所有候選關鍵字,最後根據候選關鍵字的類型,將候選關鍵字記錄到與類型對應的數據詞典中,通過利用中文分詞與N-gram模型相結合的候選關鍵字的提取方式,能兼顧地理信息領域中關鍵字提取的效率和準確率。為了使本發明實施例的目的、技術方案和優點更加清楚明白,下面結合實施例和附圖,對本發明實施例做進一步詳細地說明。在此,本發明的示意性實施例及說明用於解釋本發明,但並不作為對本發明的限定。參見圖1,為本發明的實施例中地理信息領域的關鍵字提取的方法流程圖,具體步驟如下步驟101、對地理信息資料庫中待處理數據進行格式的規範化處理,然後執行步驟 102 ;由於地理信息資料庫中待處理數據的格式可能不規範,因此,可對待處理數據進行格式的規範化處理,以規範數據格式。比如去除待處理數據中的空格、括號等。當然本步驟為可選步驟。步驟102、判斷是否處理完地理信息資料庫中所有待處理數據,若是,執行步驟 108;否則,執行步驟103;也就是,當處理完地理信息資料庫中所有待處理數據,則可進行候選關鍵字的詞頻統計;否則,繼續對待處理數據進行分詞處理,以獲得候選關鍵字。步驟103、從地理信息資料庫中獲取下一條待處理數據,然後執行步驟104 ;步驟104、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理,然後執行步驟105 ;在本實施例中,可利用現有的中文分詞對地理信息資料庫中的待處理數據進行分詞處理,得到的最小粒度單元為短語,其中短語之間可用空格作為分隔符。例如待處理數據為「北京盛唐文化傳播責任有限公司」,經過本步驟處理後,得到的結果是「北京盛唐文化傳播責任有限公司」,當然在本實施例中並不限定分隔符的具體表現形式。步驟105、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字,然後返回步驟106 ;
也就是,應用N-gram模型將相鄰的短語組合成長度更長的短語,並從其中獲取所有長度不超過預設的關鍵字最大長度值的短語,將獲取的短語作為候選關鍵字。該預設的關鍵字最大長度值可根據具體情況進行設置。步驟106、判斷當前的候選關鍵字是否已經存在於歷史數據詞典中,若是,執行步驟107 ;否則,保存當前的候選關鍵字,然後執行步驟102 ;步驟107、忽略當前的候選關鍵字,然後返回步驟102 ;上述歷史數據詞典中包括噪聲數據和/或已提取的關鍵字數據。上述噪聲數據是指關鍵字不是行業特點關鍵字、不是功能特徵關鍵字,也不是POI名稱關鍵字。當然在本實施例中並不限定歷史數據詞典中的具體內容。在步驟106 107中,通過利用歷史數據詞典,可確認當前的候選關鍵字是否為噪聲數據或已提取的關鍵字數據。若該當前的候選關鍵字已存在於歷史數據詞典中,則可忽略當前的候選關鍵字。該歷史數據詞典是指在之前在關鍵字提取過程中構建的數據詞典, 並且可在地理信息領域關鍵字的提取過程中對歷史數據詞典進行更新處理,即將得到的噪聲數據和已提取的關鍵字數據補充到歷史數據詞典中。通過排除噪聲數據和已提取的關鍵字,可避免在關鍵字提取過程中處理大量無效的數據,提高了地理信息領域中關鍵字提取的效率。步驟108、統計每個候選關鍵字的詞頻,並標註類型,然後執行步驟109 ;由於可以認為出現頻率越高的候選關鍵字,越可能是需要提取的地理信息領域中的關鍵字,因此可通過現有的統計方法來統計每個候選關鍵字的詞頻,得到(關鍵字,頻
率)二元組。在執行本步驟時,也可統計候選關鍵字的類型,該候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。當然在本實施例中並不限定候選關鍵字的類型。參見下表,為本實施例中候選關鍵字詞頻統計表。表 權利要求
1.一種地理信息領域的關鍵字提取的 方法,其特徵在於,所述提取方法包括 步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。
2.根據權利要求1所述的方法,其特徵在於,在所述步驟1之前,所述提取方法還包括對所述地理信息資料庫中待處理數據進行格式的規範化處理。
3.根據權利要求2所述的方法,其特徵在於,在對所述待處理數據進行格式的規範化處理之前,所述方法還包括判斷是否處理完所述地理信息資料庫中所有待處理數據;如果處理完,則統計每個所述候選關鍵字的詞頻,並忽略所述詞頻低於預設詞頻閾值的候選關鍵字,然後執行所述步驟3 ;若沒有處理完,則從所述地理信息資料庫中獲取下一條待處理數據,然後返回所述步馬聚1 O
4.根據權利要求1所述的方法,其特徵在於,所述步驟3之前,所述方法還包括判斷當前的所述候選關鍵字是否已經存在於歷史數據詞典中,若是,則忽略當前的所述候選關鍵字,獲取下一個候選關鍵字;否則,保存當前的所述候選關鍵字,然後執行所述步驟3 ο
5.根據權利要求4所述的方法,其特徵在於,所述歷史數據詞典中包括噪聲數據和/ 或已提取的關鍵字數據。
6.根據權利要求1所述的方法,其特徵在於,所述候選關鍵字的類型包括名稱關鍵字、行業特點關鍵字、功能特徵關鍵字和噪聲數據。
7.根據權利要求6所述的方法,其特徵在於,所述將所述候選關鍵字記錄到與所述類型對應的數據詞典中的步驟具體為將所述名稱關鍵字記錄到名稱關鍵字的數據詞典中; 將所述行業特點關鍵字記錄到行業特點關鍵字的數據詞典中; 將所述功能特徵關鍵字記錄到功能特徵關鍵字的數據詞典中;和/或將所述噪聲數據記錄到噪聲數據詞典中。
8.—種地理信息領域的關鍵字提取的裝置,其特徵在於,所述裝置包括中文分詞模塊,用於利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;候選關鍵字獲取模塊,用於以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;關鍵字提取模塊,用於根據所述候選關鍵字的類型,將所述候選關鍵字記錄到與所述類型對應的數據詞典中。
9.根據權利要求8所述的關鍵字提取的裝置,其特徵在於,所述裝置還包括詞頻統計模塊,分別與所述候選關鍵字獲取模塊和所述關鍵字提取模塊連接,用於統計所述候選關鍵字獲取模塊獲取的候選關鍵字的詞頻,並將所述詞頻大於等於預設詞頻閾值的關鍵字發送給所述關鍵字提取模塊。
10.根據權利要求9所述的關鍵字提取的裝置,其特徵在於,所述裝置還包括 歷史數據詞典構建模塊,與所述關鍵字提取模塊連接,用於根據關鍵字的類型獲取關鍵字數據和/或噪聲數據,並構建歷史數據詞典。
全文摘要
本發明提供一種地理信息領域的關鍵字提取的方法及裝置,屬於電數字數據處理技術領域,該方法包括步驟1、利用中文分詞工具對地理信息資料庫中的待處理數據進行分詞處理;步驟2、以分詞得到的短語為最小粒度單元,並結合N-gram模型獲取長度不超過預設的關鍵字最大長度值的所有候選關鍵字;步驟3、根據候選關鍵字的類型,將候選關鍵字記錄到與類型對應的數據詞典中。將中文分詞與N-gram模型相結合的關鍵字的提取方法,保存並充分利用歷史處理過程中的數據,能兼顧地理信息領域中關鍵字提取的效率和準確率。
文檔編號G06F17/30GK102375863SQ201010265879
公開日2012年3月14日 申請日期2010年8月27日 優先權日2010年8月27日
發明者杜宇程, 申排偉, 陳小賓 申請人:北京四維圖新科技股份有限公司