新四季網

一種科技術語的新詞識別方法

2023-07-31 15:06:16

專利名稱:一種科技術語的新詞識別方法
技術領域:
本發明涉及計算機中文信息處理技術,更具體地,涉及ー種科技術語的新詞識別方法。
背景技術:
中文信息處理技術已經在計算機網絡、資料庫技術、軟體工程、文獻檢索識別等技術領域得到了廣泛的應用。中文自動分詞是中文信息處理的一項基礎性工作,許多中文信息處理項目都涉及分詞問題,例如機器翻譯、自動文摘、自動分類和中文文獻庫檢索等。由於中文文本是連續書寫的,字與字之間、詞與詞之間沒有空格,所以中文文本處理的首要問題是分詞,詞彙的準確區分是進行中文文本處理的基礎。 但詞彙的區分對於詞典中的詞彙沒有問題,但對於新詞的出現,卻不能實現準確的識別。自然語言處理領域的專家一直嘗試用不同的方法藉助計算機從大規模的文本中自動抽取新詞。由於社會和技術的發展以及新詞語的不斷湧現,導致自動分詞中出現很多不成詞的散串,影響了分詞準確率。因此有效識別新詞,對提高中文自動分詞的總體效果可以起到重要的作用。諸如專利文獻的科技文獻作為技術信息的有效載體,隨著技術的迅速發展,不斷湧現出各種各樣的新概念,這些新概念往往以科技新詞彙的形式體現出來。從大量的專利文獻中自動發掘這些反映新概念的詞彙對於很多應用具有重要價值,例如基於字典的分詞、專利檢索、專利分類、專利機器翻譯。騰訊科技(深圳)有限公司於2007年6月27日提交名稱為「ー種中文分詞方法及系統」的中國發明專利申請,在該發明的技術方案中,首先通過基於字符串的分詞方法、基於理解的分詞方法等傳統分詞方法進行處理,然後通過字間出現的概率和既定閾值相比較,識別新詞。該方法對於具有規律性的一些表達但不構成新詞的情況沒有進行處理,準確
率較差。微軟公司於2005年3月16日提交的名稱為「切分非切分語言的輸入字符序列的方法」的中國發明專利申請,在該申請的技術方案中,首先識別單字符序列,確定作為單字符出現的獨立性概率,組合單字符,確定該單字符序列的總獨立詞概率,判定該概率,確定新詞。首先該方法沒有將既有詞彙排除,容易將既有詞彙和新單字混合,準確率較差;另外,該方法沒有考慮中文的特殊性,對於中文的應用不具有普適性。

發明內容
為克服現有技術的上述缺陷,本發明提出一種科技術語的新詞識別方法。根據本發明的ー個方面,提出了ー種新詞識別方法,包括步驟1,對科技文本進行斷句處理,構建機器詞典;步驟2,對斷句切分出的短句進行詞表匹配分詞,然後對剩下的語串進行原子分詞,自動抽取二字詞、三字詞及多字詞;步驟3,應用統計學方法對抽取的詞彙進行排序,對排序的詞彙進行評價,獲得新詞。
本發明的方法通過採用機械分詞、詞表匹配後統計評價,應用多種評價組合方式,進行新詞的識別和獲取,極大地提高了新詞識別的準確性和全面性。


圖I為根據本發明的新詞識別方法的總的流程圖。如圖所示,為了能明確實現本發明的實施例的結構,在圖中標註了特定的結構和器件,但這僅為示意需要,並非意圖將本發明限定在該特定結構、器件和環境中,根據具體需要,本領域的普通技術人員可以將這些器件和環境進行調整或者修改,所進行的調整或者修改仍然包括在後附的權利要求的範圍中。
具體實施例方式下面結合附圖和具體實施例對本發明提供的一種科技術語的新詞識別方法進行詳細描述。 在以下的描述中,將描述本發明的多個不同的方面,然而,對於本領域內的普通技術人員而言,可以僅僅利用本發明的一些或者全部結構或者流程來實施本發明。為了解釋的明確性而言,闡述了特定的數目、配置和順序,但是很明顯,在沒有這些特定細節的情況下也可以實施本發明。在其他情況下,為了不混淆本發明,對於ー些眾所周知的特徵將不再進行詳細闡述。可以理解,本發明的中文新詞識別方法,可以應用於多種終端設備,例如個人計算機、個人數字助理、移動通信設備、平板電腦等各種智能處理設備,因此本發明的方法不限於某種特定類型的終端設備。總的來說,圖I示出根據本發明的新詞識別方法的總的流程,如圖I所示,該方法包括首先對專利文本先進行斷句處理,構建機器詞典,然後對切分出的短句進行分詞;在詞表匹配後,對剩下的語串進行原子分詞;原子切分後,自動抽取二字詞、三字詞及多字詞,應用統計學方法對其進行排序,並且對排序的詞彙進行評價,獲得新詞。進ー步可以再由人エ加以篩選。具體地,如圖I所示,其中,對於斷句處理,包括根據分隔符、回車換行符、標點符號等語句的分隔標誌,把整篇的科技文本分隔成多個短句。其中,對於機器詞典構建,包括將常用詞表和技木、專利領域的專業詞表合井形成初始機器詞典,此後通過不斷加入機器識別且通過人工審核的新術語詞對機器詞典加以擴充。其中,對於分詞,主要是指機械分詞,將待分析的漢字串或者短句與ー個「充分大的」機器詞典中的詞條進行配對,若在詞典中找到某個字符串,則匹配成功。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;常用的幾種機械分詞方法包括正向最大匹配法、逆向最大匹配法、最少切分方法和雙向最大匹配法。具體地,對於逆向最大匹配法,是指在每個分句中,按從右至左的方向,把最後一個字符與其左邊的字符根據設定的最大長度進行組合,然後與機器詞典中的詞條進行對比,若匹配成功,則視為識別出ー個詞,否則減少一個字符繼續匹配,直至到最短兩字符,如果還不能匹配成功,則將右邊界向左推進ー個字符,再進行上述操作。上述的四種機械分詞方法可以組合使用,進行優化篩選。對於原子切分,包括將匹配後剩餘語串中的ー個漢字、短句前後的開始結束標識欄位、全形標點符號、相連的數字字母或者單字節字符都視為原子,把語串從左到右切分成単獨原子。對於新詞排序,包括將單獨原子按照從左到右或者從右到左的順序分別組成相鄰的兩字詞彙,並且將這些詞彙按照在技術文本或者專利文本中出現的頻率由高到低排列。進ー步,將單獨原子按照從左到右或者從右到左的順序分別組成相鄰的三字或者四字詞彙,並且將這些詞彙按照在技術文本或者專利文本中出現的頻率由高到低排列。對於評價方法針對二字詞,使用下述三種評價方法獲取二字詞最終評價。第一種評價方法是採用基於相似性來判別任意詞對的關聯程度,基於關聯程度,判別為新詞。其中,計算方法包括log λ = IogL (c12, C1, p)+IogL (c2-c12, N-C1, p)-IogL (c12, C1, P1)-IogL (c2-c12, N-C1,
P2), L(k, η, X)
權利要求
1.一種新詞識別方法,包括 步驟I,對科技文本進行斷句處理,構建機器詞典; 步驟2,對斷句處理切分出的短句進行詞表匹配分詞,然後對剩下的語串進行原子分詞,自動抽取二字詞、三字詞及多字詞; 步驟3,應用統計學方法對抽取的詞彙進行排序,進而對排序後的詞彙進行評價,獲得新詞。
2.根據權利要求I所述的方法,其中,步驟I還包括 根據諸如分隔符、回車換行符和標點符號的語句分隔標誌,把科技文本分隔成多個短句; 基於常用詞表和技術、專利領域的專業詞表合併形成機器詞典。
3.根據權利要求2所述的方法,其中,步驟2還包括 基於正向最大匹配法、逆向最大匹配法、最少切分方法和雙向最大匹配法的一種或者幾種,將上述多個短句和機器詞典進行匹配,識別舊詞; 將識別後剩餘語串中的漢字、短句前後的開始結束標識欄位、全形標點符號、相連的數字字母或者單字節字符視為原子,把語串從左到右切分成單獨原子,提取二字詞、三字詞和四子詞。
4.根據權利要求3所述的方法,其中,步驟3還包括將單獨原子按照從左到右或者從右到左的順序分別組成相鄰的兩字詞彙,並且將這些詞彙按照在技術文本中出現的頻率由高到低排列。
5.根據權利要求4的方法,其中,步驟3中評價方法包括 第一評價方法採用基於相似性來判別任意詞對的關聯程度,以判別新詞,其中,關聯程度
6.根據權利要求5所述的方法,其中,步驟3還包括對於第二評價方法,當置信度水平a = 0. 05時,當X 2的取值大於3. 841時確定W1W2具有高度相關性,識別為新詞。
7.根據權利要求5所述的方法,其中,步驟3中評價方法包括採用第一評價方法進行第一次評價,然後選擇第二評價方法或者第三評價方法進行第二次評價。
8.根據權利要求5所述的方法,其中,步驟3中評價方法包括採用第一評價方法進行評價,隨後順序採用第二評價方法和第三評價方法進行評價;或者 首先採用第一評價方法進行評價,隨後順序採用第三評價方法和第二評價方法進行評價。
9.根據權利要求4所述的方法,其中,步驟3還包括將單獨原子按照從左到右或者從右到左的順序分別組成相鄰的三字或者四字詞彙,並且將這些詞彙按照在技術文本中出現的頻率由高到低排列; 根據詞頻識別為新詞,其中, ,log2| ^ I/(O技皮嵌套時 cvalue^ = Iog2111(/(0m)其他情況 、P(Tt)貨 其中,|t|表示候選詞t的長度,f(t)表示t在語料中出現的總詞頻,Tt為包含t的候選術語集合,P (Tt)代表包含t的候選術語的數量,f(b)為包含t的候選術語b所具有的詞頻。
全文摘要
本發明提供一種新詞識別方法,包括對科技文本進行斷句處理,構建機器詞典;對斷句切分出的短句進行詞表匹配分詞,然後對剩下的語串進行原子分詞,自動抽取二字詞、三字詞及多字詞;應用統計學方法對抽取的詞彙進行排序,對排序的詞彙進行評價,獲得新詞。本發明的方法極大地提高了新詞識別的準確性和全面性。
文檔編號G06F17/30GK102708147SQ20121008253
公開日2012年10月3日 申請日期2012年3月26日 優先權日2012年3月26日
發明者豐瑾, 侯曉豔, 徐錫濤, 曲曉光, 雷靜 申請人:北京新發智信科技有限責任公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀