新四季網

一種提取關鍵詞的方法及裝置的製作方法

2023-04-24 15:02:56

專利名稱:一種提取關鍵詞的方法及裝置的製作方法
技術領域:
本發明涉及文本檢索技術領域,尤其涉及一種提取關鍵詞的方法及裝置。
背景技術:
隨著計算機及網際網路技術的發展,文本的數據規模越來越大,信息量的增長速度也越來越快。人們面對海量的文本信息,如何在浩如煙海的文本信息中獲取需要的文本,是我們在日常學習工作中經常遇到的問題。要在海量的文本中找到用戶需求的信息,提取關鍵詞是非常重要的方法,提取關鍵詞,是指利用計算機在文本中提取出與文本內容相關程度較高的一些詞語。提取關鍵詞的精度直接影響到文本內容獲取的效率和關鍵詞的置信度。本申請的發明人發現,目前,提取關鍵詞一般通過詞頻、位置、詞性、長度等因素對文本中每個詞進行線性加權,權重最高的幾個詞為關鍵詞。但是,如果在文本中的某個詞出現的頻率比較低,但與主題非常相關,則無法將該詞作為關鍵詞。

發明內容
本發明實施例提供一種提取關鍵詞的方法及裝置,能夠將出現頻率低但與主題非常相關的詞確定為關鍵詞,並且提聞了文本內容獲取的效率和關鍵詞的置 目度。一種提取關鍵詞的方法,包括以下步驟:獲取對應有權重值的詞語;根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原;利用義原對各詞語的權重值進行校正;根據校正後的權 重值從詞語中提取關鍵詞。在本實施例中,通過義原的比較對各詞語的權重值進行校正,提高了提取出的關鍵詞的置信度,能夠將出現頻率低但與主題非常相關的詞確定為關鍵詞。優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:根據義原的重複程度對各詞語的權重值進行校正,重複程度越高對權重值提高的幅度越大。在本實施例中,根據義原的重複程度對各詞語的權重值進行平滑,可以使校正後各詞語的權重值更能體現文本中所要突出展現的內容,極大地提高了關鍵詞的置信度。優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:將對應有權重值的詞語進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。在本實施例中,直接按照相同義原的數量提高進行比較的兩個詞語的權重值,這樣使校正權重值的過程更加簡單明了,並提高了提取關鍵詞的效率。優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:對有權重值的詞語的義原進行聚類分析;通過聚類分析將文本中的詞語劃分為不同的類別;提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。在本實施例中,通過聚類分析的方式將各詞語的義原分類,這樣可以更加全面的展現文本的核心所在,突破現有的通過詞頻、位置、詞性、長度等因素得到各詞權重的壁壘,通過本方法將出現頻率低但與主題非常相關的詞確定為關鍵詞。優選的,所述利用義原對各詞語的權重值進行校正的方法還包括:將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。在本實施例中,通過聚類分析後,直接提取關鍵詞的方法,提高了提取關鍵詞的效率,省去了對對各詞語權重值進行平滑的時間。優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:將候選詞與預設關鍵詞進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。在本實施例中,通過有針對性地對候選詞的權重值進行平滑,可以將更符合文本核心所在的詞語提取為關鍵詞,使最終提取出的關鍵詞的置信度有所保證。本實施例提供一種提取關鍵詞的裝置,包括:獲取模塊,用於獲取對應有權重值的詞語,並根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原;校正模塊,用於利用義原對各詞語的權重值進行校正;提取模塊,用於根據校正後的權重值從詞語中提取關鍵詞。優選的,校正模塊根據義原的重複程度對各詞語的權重值進行校正,重複程度越聞對權重值提聞的幅度越大。優選的,校正模塊將對應有權重值的詞語進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。優選的,校正模塊對有權重值的詞語的義原進行聚類分析;通過聚類分析將文本中的詞語劃分為不同的類別;提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。優選的,提取模塊將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。優選的,校正模塊將候選詞與預設關鍵詞進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲取。下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。


附圖用來提供對本發明的進一步理解,並且構成說明書的一部分,與本發明的實施例一起用於解釋本發明,並不構成對本發明的限制。在附圖中:圖1為本發明實施例中提取關鍵詞方法的主要流程流程圖;圖2為本發明實施例中對各詞的權重值進行校正的第一優選實施例的詳細流程圖;圖3為本發明實施例中對各詞的權重值進行校正的第二優選實施例的詳細流程圖4為本發明實施例中對各詞的權重值進行校正的第三優選實施例的詳細流程圖;圖5為本發明實施例中提取關鍵詞裝置的結構示意圖。
具體實施例方式以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用於說明和解釋本發明,並不用於限定本發明。目前,提取關鍵詞一般通過詞頻、位置、詞性、長度等因素對文本中每個詞進行線性加權,權重最高的幾個詞為關鍵詞。但是,如果在文本中的某個詞出現的頻率比較低,但與主題非常相關,則無法將該詞作為關鍵詞。為解決該問題,在本實施例中,先通過詞頻、位置、詞性、長度等因素得到各詞的權重,然後對該權重進行校正。對各詞的權重進行校正後,即可將出現頻率低但與主題非常相關的詞確定為關鍵詞,並且提高了文本內容獲取的效率和關鍵詞的置信度。參見圖1,本實施例中提取關鍵詞的方法的主要流程如下:步驟101:獲取對應有權重值的詞語。對文本中所有的實詞進行線性加權,獲取各詞語的權重值。實詞是具有實在意義的詞語,它可以單獨充當句子的任何一個成分。這就是說:首先,這類詞語在不與其他任何詞語發生語法關係的情況下能夠單獨表達一個意思或反映某種意象。其次,這類詞語具有成為句子的潛在能力,或者說,這類詞語有可能成為句子而表達Iv完整的意思,如名詞等。步驟102:根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原。大體上說,義原是最基本的、不易於再分割的意義的最小單位。例如:「人」雖然是一個非常複雜的概念,它可以是多種屬性的集合體,但也可以把它看作為一個義原。設想所有的概念都可以分解成各種各樣的義原,同時也設想應該有一個有限的義原集合,其中的義原組合成一個無限的概念集合。如果能夠把握這一有限的義原集合,並利用它來描述概念之間的關係以及屬性與屬性之間的關係,就可以構建出預設的詞語與義原的對應關係。步驟103:利用義原對各詞語的權重值進行校正。較佳的,根據義原的重複程度對各詞語的權重值進行校正,重複程度越高對權重值提高的幅度越大。對詞語的權重值進行校正有多種方式,此處用到的利用義原進行校正的方式,通過對比各詞語的解釋,使校正後詞語的權重值更能體現文本中所要突出展現的內容,極大地提高了關鍵詞的置信度。步驟104:根據校正後的權重值從詞語中確定關鍵詞。下面利用三個優選實施例對權重值校正的方法分別進行詳細的闡述,即對步驟103進行展開說明。參見圖2,本實施例中對各詞的權重值進行校正的詳細流程如下:步驟201:將文本中對應有權重值的詞語組成一個集合。步驟202:將集合中的第一個詞語提取出來,並依次與集合中所剩其他詞語進行義原比較。
先將集合中第一個詞語提取出來,將該詞語與集合中所剩其他詞語進行義原比較。比較完成後,已提取出來的詞語不再納入集合,將當前集合中的第一個詞語提取出來並與集合中所剩其他詞語進行比較。當集合中只剩下一個詞語時,不再提取詞語,本流程結束。假設文本中對應有權重值的詞語組成的集合為{A、B、C、…、Z},先將詞語A提取出來,將詞語A與集合中所剩其他詞語進行義原比較。比較完成後,詞語A不再納入集合,那麼此時集合中的第一個詞語是詞語B,將詞語B提取出來,再將詞語B與集合中所剩其他詞語進行義原比較。重複這個過程,直到集合中只剩下一個詞語Z時,不再提取詞語,本流程結束。步驟203:判斷進行比較的兩個詞語之間是否有相同的義原,若是,繼續步驟204,否則繼續步驟205。假設詞語A的義原為義原1、義原2、義原3、義原4、義原5,詞語B的義原為義原5、義原6、義原7、義原8,那麼詞語A與詞語B有一個相同義原,相同義原為義原5。步驟204:按照相同義原的數量提高這兩個詞語的權重值。優選的,利用公式同時提高進行比較的兩個詞語的權重值。
權利要求
1.一種提取關鍵詞的方法,其特徵在於,包括以下步驟: 獲取對應有權重值的詞語; 根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原; 利用義原對各詞語的權重值進行校正; 根據校正後的權重值從詞語中確定關鍵詞。
2.如權利要求1所述的方法,其特徵在於,所述利用義原對各詞語的權重值進行校正的步驟包括:根據義原的重複程度對各詞語的權重值進行校正,重複程度越高對權重值提高的幅度越大。
3.如權利要求1所述的方法,其特徵在於,所述利用義原對各詞語的權重值進行校正的步驟包括: 將對應有權重值的詞語進行兩兩比較; 判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。
4.如權利要求1所述的方法,其特徵在於,所述利用義原對各詞語的權重值進行校正的步驟包括: 對有權重值的詞語的義原進行聚類分析; 通過聚類分析將文本中的詞語劃分為不同的類別; 提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。
5.如權利要求4所述的方法,其特徵在於,所述方法還包括:將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。
6.如權利要求1所述的方法,其特徵在於,所述利用義原對各詞語的權重值進行校正的步驟包括: 將候選詞和預設關鍵詞進行兩兩比較; 判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。
7.一種提取關鍵詞的裝置,其特徵在於,包括: 獲取模塊,用於獲取對應有權重值的詞語,並根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原; 校正模塊,用於利用義原對各詞語的權重值進行校正; 提取模塊,用於根據校正後的權重值從詞語中提取關鍵詞。
8.如權利要求7所述的裝置,其特徵在於,校正模塊根據義原的重複程度對各詞語的權重值進行校正,重複程度越高對權重值提高的幅度越大。
9.如權利要求7所述的裝置,其特徵在於,校正模塊將對應有權重值的詞語進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。
10.如權利要求7所述的裝置,其特徵在於,校正模塊對有權重值的詞語的義原進行聚類分析;通過聚類分析將文本中的詞語劃分為不同的類別;提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。
11.如權利要求10所述的裝置,其特徵在於,提取模塊將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。
12.如權利要求7所述的裝置,其特徵在於,校正模塊將候選詞與預設關鍵詞進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。`
全文摘要
本發明公開了一種提取關鍵詞的方法。所述方法包括獲取對應有權重值的詞語;根據預設的詞語與義原的對應關係,獲取對應有權重值的詞語對應的義原;利用義原對各詞語的權重值進行校正;根據校正後的權重值從詞語中確定關鍵詞。該方法能夠將出現頻率低但與主題非常相關的詞確定為關鍵詞,並且提高了文本內容獲取的效率和關鍵詞的置信度。本發明還公開了用於實現所述方法的裝置。
文檔編號G06F17/30GK103150388SQ20131009240
公開日2013年6月12日 申請日期2013年3月21日 優先權日2013年3月21日
發明者韓建波 申請人:天脈聚源(北京)傳媒科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀