新四季網

基於主成分分析的詞語權重組合方法

2023-12-06 16:18:41

專利名稱:基於主成分分析的詞語權重組合方法
技術領域:
本發明涉及一種自然語言的處理方法,具體涉及一種詞語權重的計算方法。
背景技術:
近年來,自然語言處理新模型不斷湧現,而這些模型都以詞語權重算法為基礎,它 直接影響模型的處理結果。 總結起來,權重計算方法主要包括三大類詞語全局權重、詞語局部權重和文檔規 範化因子。而詞語的最終權重,就是這三類權重的乘積。然而這些權重之間有許多重複的 冗餘信息,即存在著信息上的重疊。簡單的相乘會重複記錄這些重疊信息,從而使得某些詞 語權重過高,造成最終權重不準確。

發明內容
本發明針對現有權重之間有許多重複的冗餘信息,導致這些權重相乘會重複記錄
這些重疊信息,從而使得某些詞語權重過高,造成最終權重不準確的問題;而提供一種採用
主成分分析方法計算組合權重的方法,該方法能夠在不改變原始權重數據信息量的情況下
消除各權重間的相關性,從而給詞語一個客觀準確的權重。 為了達到上述目的,本發明採用如下的技術方案 基於主成分分析的詞語權重組合方法,該方案包括如下的步驟 (1)正態性檢驗,將所有待組合的詞語權重的序列進行正態性檢驗。這是使用本專
利計算方法的前提。主成分分析模型要求待處理的所有數據,即各權重計算方法計算出的
詞語權重,也就是所有待組合的詞語權重,必須符合正態性檢驗。 (2)將各種權重計算方法計算得到的詞語權重值標準化。不同的權重計算方法的 出的權重區間可能有較大的差別,這會造成本專利組合方法結果的不準確。因而需要把不 同區間的權重進行標準化,使其在單一區間中。 (3)計算相關矩陣。本專利基於主成分分析模型改進權重組合方法,其優勢在於能 夠消除不同權重算法計算出的權重序列的相關性,從而提升權重組合結果的準確性。而相 關矩陣就是衡量不同權重算法的計算結果間的相關程度。 (4)求相關矩陣的特徵根和特徵向量,得出主成分。解相關矩陣R的特徵方程,可 得R的P個特徵根,其大小描述了各個主成分在描述被評價對象上所起作用的大小。由特 徵方程式,每一個特徵根對應一個特徵向量。進而使用特徵向量作為係數可直接寫出主成 分。 (5)求方差貢獻率,確定主成分。主成分分析是一種降維的方法,找出幾個綜合因 子,即主成分,來代表原來眾多的變量,使這些綜合因子能儘可能地反映原來變量的信息量 且彼此之間不相關。因此,需要確定哪些主成分蘊含的信息量高,從而採用這些主成分作為 綜合評價因子。跟據特徵根從大到小,計算其對應的主成分的方差貢獻率,並累計,如果累 計方差貢獻率>85%,則已計算的主成分將作為用於綜合評價的主成分。
(6)綜合評價。主成分進行加權求和,即得最終評價值,權數為每個主成分得方差 貢獻率。 所述步驟(1)之前利用各權重計算方法計算得到相應的詞語權重,且每個權重算 法得到的詞語權重序列符合正態性檢驗。 根據上述技術方案得到的本發明採用多元統計分析中的主成分分析方法,能夠在 不改變原始數據信息量的情況下消除各指標間的相關性,可以根據各項詞語權重的值,給 其一個準確的綜合評價值。 基於上述特點本發明將有效優化目前詞語權重計算方法,提高其準確率,勢必有 力推動信息檢索、文本分類、自動文摘、問答系統等自然語言處理技術的研究和應用。


以下結合附圖和具體實施方式
來進一步說明本發明。
圖1為本發明的流程圖。
具體實施例方式
為了使本發明實現的技術手段、創作特徵、達成目的與功效易於明白了解,下面結 合具體圖示,進一步闡述本發明。 為了消除重疊信息,本發明利用主成分分析方法計算組合權重的原理。本發明採 用多元統計分析中的主成分分析方法,給各種權重算法得出的詞語權重一個綜合評價值。
主成分分析方法,就是把分量相關的原始變量通過正交變換得到一組分量不相關 且具有良好方差性質的新變量,再從中選取前幾個變量來代替原變量。它一方面能夠在不 改變原始數據信息量的情況下消除各指標間的相關性;另一方面它還可以採取一種降維的 方法,找出幾個蘊含信息量最高的綜合因子來代表原來眾多的變量,並用這些綜合因子給 出綜合評價。 從而基於該理論設計的權重組合方法,能夠達到消除各權重間重疊信息的目的, 從而得出客觀準確的組合權重。 本發明提供的詞語權重組合方法,能夠在不改變原始權重數據信息量的情況下消 除各權重間的相關性,從而給詞語一個客觀準確的權重。其具體步驟如下
(1)總體的正態性檢驗 各權重計算方法計算出的詞語權重中,即所有待組合的詞語權重中,每個權重算 法得出的詞語權重序列必須符合正態性檢驗。這是使用本專利計算方法的前提。正態 性檢驗的方法有許多,可採用Shapiro. S.S和Wilk.M.B的正態性W檢驗法。先將詞語
的權重序列",A, Xn)按由大到小排為(X(D, X(2), A, X(n))。記 其中
,=1
/
Z = ^>t 。ak為該檢驗算法的參數,可查Sh即iro-Wilk檢驗的&i的係數表
Ar=l得到。 可以證明對任何分布,W G
,而且分布越接近正態,W的值就越接近於1。因
4此,根據n值查Sh即iro-Wilk檢驗的正態性W檢驗臨界值表找到W的下臨界值Wa。若計算 出的W值滿足Wa《W《l,則接受正態性假設。
(2)將各種權重計算方法的計算結果標準化 在詞語權重計算中,不同的權重算法得出的值的區間很可能存在較大差異,這會 造成本專利組合方法結果的不準確。因而需要把不同區間的權重進行標準化,使其在單一 區間中。具體方法為 設由m個權重算法計算出的待組合的權重共有n個,記這n個權重值組成的樣本 陣為X二 (Xij) = (X"L,XJ',令 A _ ~/ ,, 其中,E(X》和varXi分別為第i個權重算法計算出的權重值的平均值和標準差。 [OO31] (3)計算相關矩陣 本專利基於主成分分析模型改進權重組合方法,其優勢在於能夠消除不同權重算 法計算出的權重序列的相關性,從而提升權重組合結果的準確性。而相關矩陣就是衡量不 同權重算法的計算結果間的相關程度。 f =(《,A ,;C)'的協差矩陣就是樣本陣X的相關矩陣R。計算公式為
爿=( )=S〗=1 (~ —幻Oj - X)', i =( ), = / (4)求相關矩陣的特徵根和特徵向量,得出主成分 解相關矩陣R的特徵方程即得其m個特徵根,用A工^A2^A^Am^0表示, 其大小描述了每一個主成分所蘊含的信息量。 由特徵方程式,得每一個特徵根所唯一對應的特徵向量,表示為
ej = (lu, l2j, A , lmj) ' , j = 1, 2, A , m 使用特徵向量作為係數可直接寫出主成分,求出其前p個主成分
A = e乂'x,* = 、4 + /2,:2 +L + ;x二,_/ = 1,2,L ,/ 2w (1) 特徵根的大小描述了各個主成分在描述被評價對象上所起作用的大小,本專利的 方法僅僅需要計算出較大的特徵根對應的主成分即可, 一般不超過3個。可設定一個閾值, 比如保守起見計算出前5個主成分。
(5)求方差貢獻率,確定主成分 主成分分析法要求在確保信息量損失儘可能少的前提下,用儘量少的主成分來進 行綜合評價。其一種降維的方法,找出幾個綜合因子,即主成分,來代表原來眾多的變量,使 這些綜合因子能儘可能地反映原來變量的信息量且彼此之間不相關。因此,需要確定哪些 主成分蘊含的信息量高,從而採用這些主成分作為綜合評價因子。實現方法為根據上步計
算出的主成分的值,從第一個主成分開始逐個計算其方差貢獻率",.,當累計貢
獻率E J a j達到或超過85%時,已經計算的p個主成分就能夠體現原數據的信息量,從而
用於綜合評價。
(6)綜合評價
為了進一步綜合形成一個最終評價值,以a j為權數對Zj求和的綜合評價函數為
formula see original document page 6 以第i個詞語的權重數據代入(1)式,再代入到計算(2)式,就得第i個詞語的權 重的綜合得分,即組合權重值。 把所有詞語權重的數據按照步驟(6)中的方法進行計算,可得所有詞語的權重綜 合得分,即為組合權重的值。 以上顯示和描述了本發明的基本原理和主要特徵和本發明的優點。本行業的技術 人員應該了解,本發明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本 發明的原理,在不脫離本發明精神和範圍的前提下,本發明還會有各種變化和改進,這些變 化和改進都落入要求保護的本發明範圍內。本發明要求保護範圍由所附的權利要求書及其 等效物界定。
權利要求
基於主成分分析的詞語權重組合方法,其特徵在於,所述方法包括如下的步驟(1)正態性檢驗,將所有待組合的詞語權重的序列進行正態性檢驗;(2)將各種權重計算方法計算得到的詞語權重值標準化,使所有的詞語權重值在單一區間中;(3)計算相關矩陣,計算由各種權重計算方法計算得到的詞語權重值形成的樣本陣的相關矩陣;(4)求相關矩陣的特徵根和特徵向量,得出主成分;(5)求方差貢獻率,確定主成分;(6)綜合評價,通過上述確定的主成分進行加權求和,即得最終評價值。
2. 根據權利要求1所述的基於主成分分析的詞語權重組合方法,其特徵在於,所述步 驟(1)之前利用各權重計算方法計算得到相應的詞語權重,且每個權重算法得到的詞語權 重序列符合正態性檢驗。
全文摘要
本發明公開了基於主成分分析的詞語權重組合方法,該方法包括如下的步驟(1)正態性檢驗;(2)將各種權重計算方法計算得到的詞語權重值標準化;(3)計算相關矩陣;(4)求相關矩陣的特徵根和特徵向量,得出主成分;(5)求方差貢獻率,確定主成分;(6)綜合評價。本發明將有效優化目前詞語權重計算方法,提高其準確率,勢必有力推動信息檢索、文本分類、自動文摘、問答系統等自然語言處理技術的研究和應用。
文檔編號G06F17/27GK101719121SQ200910199019
公開日2010年6月2日 申請日期2009年11月19日 優先權日2009年11月19日
發明者夏天 申請人:上海第二工業大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀