新四季網

提取關鍵字的方法

2023-08-05 03:31:46 2

專利名稱:提取關鍵字的方法
技術領域:
本發明涉及數據檢索技術領域,尤其涉及一種提取關鍵字的方法。
背景技術:
關鍵詞(Keyword)是指在製作使用索引時所用到的詞彙,關鍵詞搜索是網絡搜索索引主要方法之一。例如一本書的書名或部分書名、副標題、作者名都可以作為本書的關鍵詞用於檢索。現在大部分的圖書及網上檢索都是用關鍵詞檢索的形式。關鍵詞的內容可以是人名、網站、新聞、小說、軟體、遊戲、星座、工作、購物、論文等等。例如,可以搜索 「windows」、「世博會」、「NBA籃球」等關鍵詞,可以輸入一個,也可以輸入兩個、三個、四個,甚至可以輸入一句話。例如,您可以搜索「風景」、「mp3下載」、「驀然回首,那人卻在燈火闌珊處」。簡而言之,關鍵字就是某篇文章,某本書的主要內容。關鍵字雖然字數不多,但是它的存在方便我們很直觀的去了解某篇文章,某本書的大致內容。舉一個簡短的例子,比如這篇文章北京時間3月四日凌晨,西甲聯賽第四輪皇馬在主場3-2擊敗德比對手馬德裡競技,完成賽季雙殺。開場不久皇馬舊將雷耶斯反戈一擊,下半時阿隆索首先扳平比分,之後又助攻阿貝羅阿反超,隨後伊瓜因打入聯賽第23球,阿根廷人在射手榜上距離梅西僅有 2球差距,此後弗蘭罰中點球無力回天,皇馬逆轉豪取11連勝,繼續以淨勝球優勢壓過巴薩排名榜首。上文是一篇簡單的體育報導,它的關鍵字可以歸結為「西甲皇馬3-2馬競」。對於我們來說,通過關鍵字了解文章內容是不是要比閱讀完整篇文章來的更快速呢?有了關鍵字,可以很方便的確定是否需要閱讀該文章,這對於提高閱讀效率有著很大的幫助。對於不同長度的文章,關鍵字的長度也各有不同,但它們起到的作用都是相同的。關鍵字在諸多的領域都有應用,在網絡上,有搜尋引擎和文本分類技術。在現實生活中,書店中都有很多的應用。可以不誇張的說,關鍵字已經融入到了生活的每一個角落, 成為了生活中不可或缺的一部分。既然關鍵字這麼實用,那相應的關鍵字提取技術也逐漸發展起來。起初,關鍵字的提取都是人工的進行,就是人為的閱讀之後總結出它的關鍵字,這種方法的準確率很高,但效率卻非常的低。近來隨著全球網絡的發展,搜尋引擎的壯大,以及每天最新資訊的更新, 想要再人為的提取關鍵字已經不可行了。如何通過計算機去提取關鍵字已經成為了研究重點。計算機和人腦不同,它無法自行理解文章的內容,所以確立一個合適的算法來提取關鍵字就顯得十分重要了。

發明內容
本發明旨在提出一種用於提取關鍵字的方法。根據本發明,提出一種提取關鍵字的方法,從一段文字中提取關鍵字,該方法包括分詞步驟,分詞步驟將一段文字劃分成單詞;停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞;詞性還原步驟,將取出停用詞後的單詞的詞性進行還原,該詞性還原步驟使用詞幹分析算法將單詞還原成詞幹原型;關鍵字確定步驟,以詞幹原型為基礎,在一段文字中確定每一個詞幹原型出現的頻率,基於出現的頻率確定關鍵字。分詞步驟包括從一段文字中提取空格、標點符號以及字符串作為分詞的標記。停用詞消除步驟包括查找一停用詞表,分詞步驟中劃分出的單詞中存在於停用詞表中的單詞作為停用詞去除。關鍵字確定步驟基於密度聚類模式實現,包括TF/IDF值計算步驟,在一段文字中計算每一個詞幹原型的TF/IDF值;詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為候選關鍵字;共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣;聚類步驟,基於詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF平均值;關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞幹原型作為關鍵字。關鍵字確定步驟也可以基於非高頻詞查找實現,包括預處理步驟,對一段文字進行預處理,去除其中的停用詞;詞頻統計步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為高頻詞;構圖步驟,設定一關聯度閾值,以高頻詞作為頂點,關聯度大於關聯度閥值的詞幹原型作為邊集構圖;劃分步驟,基於聚類係數對構圖進行劃分,劃分成數個子圖;關鍵字確定步驟,計算每一個子圖的特徵路徑長度,選取具有最短特徵路徑長度的子圖中的詞幹原型作為關鍵字。本發明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解後獲得的關鍵字儘可能接近。


圖1揭示了根據本發明的提取關鍵字的方法的流程圖。圖2揭示了根據本發明提取關鍵字的方法中基於密度聚類模式實現的關鍵字確定步驟的流程圖。圖3揭示了根據本發明提取關鍵字的方法中基於非高頻詞查找實現的關鍵字確定步驟的流程圖。CN 102541910 A
具體實施例方式參考圖1所示,揭示了根據本發明的一種提取關鍵字的方法,該方法從一段文字中提取關鍵字,該方法包括S10.分詞步驟,分詞步驟將一段文字劃分成單詞。在一個實施例中,分詞步驟包括從一段文字中提取空格、標點符號以及字符串作為分詞的標記。分詞就是把一段文字中的單詞通過程序劃分出來的過程。針對英文文本,分詞相對簡單,只要提取空格或者標點符號中間的字符串便能提取初步的單詞。Sll.停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞。在一個實施例中,停用詞消除步驟包括查找一停用詞表,分詞步驟中劃分出的單詞中存在於停用詞表中的單詞作為停用詞去除。主要是為了提取關鍵字時節省存儲空間和提高效率,被廣泛應用在搜尋引擎和分類等技術中,實際操作中算法會自動忽略某些字或詞,這些字或詞即被稱為停用詞GtopWords)。使用停用詞表來去除停用詞相對來說比較精確,特別是針對某一類的文本提取,效率和精確度都有不錯的效果。S12.詞性還原步驟,將取出停用詞後的單詞的詞性進行還原,該詞性還原步驟使用詞幹分析算法將單詞還原成詞幹原型。詞性還原步驟主要是將英文單詞的時態還原,合併相同的詞,區別人名地名等。在一個實施例中,使用的是Porter詞幹分析算法(或稱為 Porter詞幹還原器Porterstemmer),對英文單詞中較常見的、因時態、語態、複數格等原因引起的詞尾變化進行移除的處理過程。在建立信息檢索系統時,這個算法對各個項的標準化處理進行了其中一部分S13.關鍵字確定步驟,以詞幹原型為基礎,在一段文字中確定每一個詞幹原型出現的頻率,基於出現的頻率確定關鍵字。關鍵字確定步驟S13具有幾種不同的實現方式,例如,參考圖2所示的實施例,揭示了一種基於密度聚類模式實現的關鍵字確定步驟,包括S20.TF/IDF值計算步驟,在所述一段文字中計算每一個詞幹原型的TF/IDF值。 TF/IDF(term frequency/inverse document frequency)是一禾中用於資訊檢索與文本挖掘的加權技術。TF/IDF是一種統計方法,用以評估一個字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加, 但同時會隨著它在語料庫中出現的頻率成反比下降。TF/IDF加權的各種形式常被應用於關鍵字提取技術,作為文件與用戶查詢之間相關程度的度量或評級。TF/IDF算法的基本原理如下在一份給定的文件裡,詞頻(term frequency, TF)指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被正規化,以防止它偏向長的文件。(同一個詞語在長文件裡可能會比短文件有更高的詞頻,而不管該詞語重要與否。)對於在某一特定文件裡的詞語來說,它的TF值可表示為TF=該詞在此文件中的出現次數/此文件中所有字詞的出現字數之和。這樣,就得到了每個字詞對於該文件是否重要的值TF。逆向文件頻率(inverse document frequency, IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。IDF 的值可以表示為IDF= log(語料庫中的文件總數/包含該詞的文件數目)。最後,TF/ IDF值就是TF*IDF。它的依據就是某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF/IDF。因此,TF/IDF傾向於過濾掉常見的詞語,保留重要的詞語。假如一篇文件的總詞語數是100個,而詞語「經濟」出現了 3次,那麼 「經濟」一詞在該文件中的詞頻就是0.03(3/100)。一個計算文件頻率(IDF)的方法是測定有多少份文件出現過「經濟」一詞,然後除以文件集裡包含的文件總數。所以,如果「母牛」 一詞在1,000份文件出現過,而文件總數是10,000, 000份的話,其逆向文件頻率就是 9. 21 an(10,000,000/1,000))。最後的 TF*IDF 的分數為 0. 28(0. 03*9. 21)。S21.詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為
候選關鍵字。例如,可以選擇詞頻閾值1,將詞頻大於1的詞幹原型W = {Wl,W2,......,
Wnl作為候選關鍵詞,並且都設置未被訪問標記。S22.共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣。在所有未被訪問詞語中,選擇e鄰域為一個句子的範圍,計算候選詞語之間的詞共現度,生成詞共現矩陣M。S23.聚類步驟,基於詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF
平均值。聚類後,生成W的一個劃分W= {C1,C2,......Cm}。其中Ci為詞語的一個聚類。
分別計算簇Ci中詞語TF/IDF平均值Ci. avgtf/idf,並按照其Ci. avgtf/idf對簇進行降序排列。S24.關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞幹原型作為關鍵字。參考圖2所示的實施例,揭示了一種基於非高頻詞查找實現的關鍵字確定步驟, 包括S30.預處理步驟,對一段文字進行預處理,去除其中的停用詞。一個實施例中,去除停用詞包括查找一停用詞表,將存在於停用詞表中的單詞作為停用詞去除。S31.詞頻統計步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為高頻詞。S32.構圖步驟,設定一關聯度閾值,以高頻詞作為頂點,關聯度大於關聯度閥值的詞幹原型作為邊集構圖。該種實現方式基於下述的原理高頻詞集表示了文檔的主要內容。 由構造圖的方法,通過邊集將圖G劃分為一系列連通的子圖,稱之為群上述假設也可表述為G中的群表示了文檔的主要內容。詞語w與群g同現的定義w與g中的詞語同時出現在文檔一句中的頻率之和。詞語的偏向度B(w,g)定義w與g同現的實際值與期望值之間的差值。據上,提取高B(w,g)值的詞語便可以從非高頻詞集中找出與某些群聯繫緊密的詞語。S33.劃分步驟,基於聚類係數對構圖進行劃分,劃分成數個子圖。S34.關鍵字確定步驟,計算每一個子圖的特徵路徑長度,選取具有最短特徵路徑長度的子圖中的詞幹原型作為關鍵字。本發明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解後獲得的關鍵字儘可能接近。
權利要求
1.一種提取關鍵字的方法,其特徵在於,從一段文字中提取關鍵字,該方法包括 分詞步驟,分詞步驟將所述一段文字劃分成單詞;停用詞消除步驟,從所述分詞步驟中劃分出的單詞中去除停用詞; 詞性還原步驟,將取出停用詞後的單詞的詞性進行還原,該詞性還原步驟使用詞幹分析算法將單詞還原成詞幹原型;關鍵字確定步驟,以所述詞幹原型為基礎,在所述一段文字中確定每一個詞幹原型出現的頻率,基於出現的頻率確定關鍵字。
2.如權利要求1所述的提取關鍵字的方法,其特徵在於,所述分詞步驟包括從所述一段文字中提取空格、標點符號以及字符串作為分詞的標記。
3.如權利要求1所述的提取關鍵字的方法,其特徵在於,所述停用詞消除步驟包括查找一停用詞表,所述分詞步驟中劃分出的單詞中存在於所述停用詞表中的單詞作為停用詞去除。
4.如權利要求1所述的提取關鍵字的方法,其特徵在於,所述關鍵字確定步驟基於密度聚類模式實現,包括TF/IDF值計算步驟,在所述一段文字中計算每一個詞幹原型的TF/IDF值; 詞頻過濾步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為候選關鍵字;共現度計算步驟,在候選關鍵字中計算候選關鍵字之間的詞共現度,生成詞共現矩陣;聚類步驟,基於所述詞共現矩陣進行候選關鍵字聚類,為每一個聚類計算TF/IDF平均值;關鍵字確定步驟,選擇具有最高的TF/IDF平均值得聚類中的詞幹原型作為關鍵字。
5.如權利要求1所述的提取關鍵字的方法,其特徵在於,所述關鍵字確定步驟基於非高頻詞查找,包括預處理步驟,對所述一段文字進行預處理,去除其中的停用詞; 詞頻統計步驟,設定一詞頻閾值,選擇詞頻大於該詞頻閾值的詞幹原型作為高頻詞; 構圖步驟,設定一關聯度閾值,以所述高頻詞作為頂點,關聯度大於所述關聯度閥值的詞幹原型作為邊集構圖;劃分步驟,基於聚類係數對所述構圖進行劃分,劃分成數個子圖; 關鍵字確定步驟,計算每一個子圖的特徵路徑長度,選取具有最短特徵路徑長度的子圖中的詞幹原型作為關鍵字。
全文摘要
本發明揭示了一種提取關鍵字的方法,從一段文字中提取關鍵字,該方法包括分詞步驟,分詞步驟將所述一段文字劃分成單詞;停用詞消除步驟,從分詞步驟中劃分出的單詞中去除停用詞;詞性還原步驟,將取出停用詞後的單詞的詞性進行還原,該詞性還原步驟使用詞幹分析算法將單詞還原成詞幹原型;關鍵字確定步驟,以詞幹原型為基礎,在一段文字中確定每一個詞幹原型出現的頻率,基於出現的頻率確定關鍵字。本發明的提取關鍵字的方法能夠迅速準確地從一段文字中提取關鍵字,使得由計算機提取的關鍵字和通過人腦理解後獲得的關鍵字儘可能接近。
文檔編號G06F17/30GK102541910SQ201010608118
公開日2012年7月4日 申請日期2010年12月27日 優先權日2010年12月27日
發明者張麗曉, 王宵棟 申請人:上海杉達學院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀