一種識別目標詞的方法、裝置及系統的製作方法
2023-06-28 13:33:11
專利名稱:一種識別目標詞的方法、裝置及系統的製作方法
技術領域:
本申請涉及計算機領域,尤其涉及一種識別目標詞的方法、裝置及系統。
背景技術:
隨著網際網路技術的迅速發展,信息呈現爆炸式地增長,信息檢索、信息分析、機器翻譯等領域也快速興起,對於中文信息的處理,中文自動分詞已經成為一項基本性的任務。 中文自動分詞是中文信息處理中一項重要的基礎性任務,影響中文自動分詞效果的難點之一為未登錄詞識別。所述未登錄詞是指沒有收錄至分詞詞典中的詞。對於未登錄詞又可分為兩種情況,一種是不可能全部收錄至詞典,但是能夠總結出規律的詞(如,人名、機構名等);另一種是詞典中應該收錄,但是還沒有收錄的新詞,在這部分新詞中有些是詞,是應該收錄至分詞詞典中的目標詞,還有一部分不是詞,是不應該收錄的非目標詞。在對新出現的詞進行識別時,首先要判斷該新出現的詞是不是詞,即判斷該新出現的詞是否為目標詞,目前的做法主要有三類基於規則的方法,基於統計的方法,以及規則和統計相結合的方法。主流的基於統計的方法通常是在大規模文本數據的基礎上針對待識別詞的一個或幾個特徵量進行統計,根據統計結果人工設定閾值,在高於(或低於)設定閾值時,判斷該待識別詞為目標詞。但是,隨著網絡的廣泛應用,在網絡上出現的文本數據很多情況下,只是一些關鍵詞的堆砌,已經沒有完整的語義句式,例如,在電子商務網站中,特別是個人與個人之間的電子商務網站中,存在的海量商品標題。在這些關鍵詞中,往往存在大量新出現的詞,但是, 此時統計得到的這些新出現的詞的特徵值的分布趨勢是非線性的,在進行識別時,通過針對特徵值設定單一閾值,再按照該單一閾值判斷該新出現的詞是不是目標詞,得到的結果是不準確的,因此,傳統基於統計的方法來判斷待識別詞是不是詞的方法,已經不能適應當前網絡應用中的目標詞識別。
發明內容
本申請提供一種識別目標詞的方法、裝置及系統,用以提高識別目標詞的準確率和召回率。本申請實施例提供的具體技術方案為—種識別目標詞的方法,包括獲取候選詞集合以及特徵計算數據;基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分;針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合;確定所述候選詞集合與所述組合文本數據集合的交集;計算所述交集中包含的每個組合文本數據的指定特徵值;根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞。一種識別目標詞的裝置,包括獲取單元,用於獲取候選詞集合以及特徵計算數據;分詞單元,用於基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分;分詞組合單元,用於針對經過分詞劃分處理的特徵計算數據進行分詞組合處理, 獲得作為處理對象的組合文本數據集合;交集確定單元,用於確定所述候選詞集合與所述組合文本數據集合的交集;指定特徵值計算單元,用於計算所述交集中包含的每個組合文本數據的指定特徵值;篩選單元,用於根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞。一種識別目標詞的系統,包括識別目標詞裝置,用於獲取候選詞集合以及特徵計算數據,基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分,針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合,確定所述候選詞集合與所述組合文本數據集合的交集,並計算所述交集中包含的每個組合文本數據的指定特徵值,根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合篩選條件的組合文本數據對應的候選詞確定為目標詞;訓練數據提供裝置,用於向識別目標詞裝置提供獲得篩選條件所需的訓練樣本詞集合,以及相應的樣本特徵計算數據;目標詞收錄裝置,用於接收識別目標詞裝置識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。基於上述技術方案,本申請實施例中,通過將特徵計算數據劃分為最小粒度的分詞,對劃分得到的多個分詞組合為多個組合文本數據,通過將候選詞和組合文本數據集合做交集,計算得到候選詞的多個指定特徵值,再根據該多個指定特徵值識別上述候選詞,實現了利用多個特徵值識別候選詞,並且篩選條件是通過分類算法訓練得到,避免了人為設定帶來的誤差,提高識別的準確性和穩定性,在指定特徵值的分詞呈非線性時,也可以構建合適的篩選條件,正確識別出目標詞,提高了識別的準確率和召回率。
圖IA為本申請實施例中識別目標詞的系統架構圖;圖IB為本申請實施例中識別目標詞裝置結構圖;圖2為本申請實施例中獲得篩選條件的詳細流程圖;圖3為本申請實施例中識別目標詞的詳細流程圖。
具體實施方式
為了解決現有的基於統計方法識別文本數據的局限性,即只能利用較少的特徵值,並要求對特徵值的統計結果呈線性分布,以及由人工調節特徵權值和設定閾值造成的誤差和不穩定性,本申請實施例中提供了一種識別目標詞的方法,可以利用任意維度的特徵值,並在特徵值的分布趨勢為非線性時,也可正確識別出目標詞,而不需要人工幹預,提高識別的準確率和召回率。該方法為獲取候選詞集合以及特徵計算數據,基於最小粒度的文本數據對特徵計算數據進行分詞劃分,對經過分詞劃分處理的特徵計算數據進行分詞組合,獲得作為處理對象的組合文本數據集合,確定候選詞集合與組合文本數據集合的交集, 並計算該交集中包含的每個組合文本數據的指定特徵值,根據該交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對上述交集中包含的組合文本數據進行篩選,將指定特徵值符合篩選條件的組合文本數據對應的候選詞確定為目標詞。其中,在候選詞是一個通常意義下的詞彙時,該候選詞即為目標詞;否則,在候選詞不是通常意義下的一個詞彙時,該候選詞為非目標詞。例如,在候選詞集合中存在「蝙蝠袖」和「袖女裝」,其中,「蝙蝠袖」是一個通常意義下的詞彙,則該詞為目標詞,而「袖女裝」不是通常意義下的一個詞彙,則該詞為非目標詞。候選詞集合可以是任意文本數據,其對應的特徵計算數據也可以是任意文本數據。本申請實施例中,優選採用用戶輸入的查詢關鍵詞,根據用戶輸入的查詢關鍵詞提取出的候選詞集合,並基於用戶輸入查詢關鍵詞對應的查詢對象的描述信息提取特徵計算數據。例如,在電子商務網站中,收集保存用戶輸入的用於查詢產品的查詢關鍵詞,從該查詢關鍵詞中提取出候選詞集合,從電子商務網站中產品的標題、產品的介紹等描述信息中提取特徵計算數據。又例如,在新聞網站中,收集保存用戶輸入的用於查詢新聞的查詢關鍵詞,從該查詢關鍵詞中提取出候選詞集合,從新聞網站中的新聞標題、新聞內容等描述信息中提取特徵計算數據。上述候選詞集合與特徵計算數據的提取,可採用定期或者定量的方式進行。例如, 定期從用戶輸入的查詢關鍵詞中提取候選詞集合;對應地,定期提取的特徵計算數據;也可以是用於提取候選詞集合的用戶輸入的查詢關鍵詞達到一定數量時,提取對應的特徵計算數據,然後執行本申請實施例進行目標詞識別。本申請實施例中,準確率是指,在識別出來是目標詞的個數中,屬於正確識別的分詞的個數與識別出來是目標詞的個數的比率。召回率是指,在候選詞中,正確識別出是目標詞的個數與候選詞中實際上是目標詞的分詞的個數之間的比率。最小粒度的文本數據可以是單個字,也可以是單個分詞。本申請實施例中,最小粒度的文本數據以單個分詞為例進行說明。下面結合附圖對本申請優選的實施例進行詳細的說明。參閱附圖IA所示,本申請實施例中,識別目標詞的系統包括識別目標詞裝置10、 訓練數據提供裝置11和目標詞收錄裝置12,其中識別目標詞裝置10,用於獲取候選詞集合以及特徵計算數據,基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分,針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合,確定所述候選詞集合與所述組合文本數據集合的交集,計算該交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合篩選條件的組合文本數據對應的候選詞確定為目標詞;訓練數據提供裝置11,用於向識別目標詞裝置10提供獲得篩選條件所需的訓練樣本詞集合以及相應的樣本特徵計算數據;目標詞收錄裝置12,用於接收識別目標詞裝置10識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。基於上述系統架構,參閱附圖IB所示,本申請實施例中,識別目標詞裝置10包括以下處理單元獲取單元101,用於獲取候選詞集合以及特徵計算數據;分詞單元102,用於基於最小粒度的文本數據對上述特徵計算數據進行分詞劃分;分詞組合單元103,用於針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合;交集確定單元104,用於確定所述候選詞集合與所述組合文本數據集合的交集;指定特徵值計算單元105,用於計算所述交集中包含的每個組合文本數據的多個指定特徵值;篩選單元106,根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞。其中,上述基於多個指定特徵值的篩選條件可採用訓練樣本詞集合對分類算法進行訓練得到。在獲得該篩選條件時,識別目標詞裝置10的獲取單元101,用於獲取訓練樣本詞集合以及樣本特徵計算數據;分詞單元102用於基於最小粒度的文本數據對所述樣本特徵計算數據進行分詞劃分;分詞組合單元103用於針對經過分詞劃分處理的樣本特徵計算數據進行分詞組合處理,獲得作為處理對象的樣本組合文本數據集合;交集確定單元104 用於確定所述樣本組合文本數據集合與所述訓練樣本詞集合的交集;指定特徵值計算單元 105用於計算所述交集中包含的每個樣本組合文本數據的多個指定特徵值;篩選單元106 根據所述交集中包含的每個樣本組合文本數據的多個指定特徵值,以及已知分類結果,設置所述多個指定特徵值的門限值,並基於該門限值得到相應的基於多個指定特徵值的篩選條件。本申請實施例中,指定特徵可以包括互信息、對數似然比、上下文熵(左熵、右熵)、基於位置的字構詞概率,還可以包括骰子矩陣(Dice)、卡方(Chi)等。在獲得篩選條件以及識別目標詞時,需用到的多個指定特徵值可以是上述指定特徵值中的任意兩種或兩種以上的組合。其中,互信息的計算公式為MI(a, b) = Iog2 -^- = Iog2........................[ 1 ]
PaPbCaCb在公式[1]中,「a」,「b」分別代表最小粒度的單個分詞,「ab」代表兩個分詞組合後得到的組合文本數據,pa、pb分別代表分詞「a」、分詞「b」在特徵計算數據中出現的概率, Pab代表「ab」在特徵計算數據中出現的概率,Cab代表「ab」 一起在特徵計算數據中出現的次數,Ca代表「a」在特徵計算數據中出現的次數,Cb代表「b」在特徵計算數據中出現的次數,η代表基於最小粒度的文本數據對特徵計算數據進行分詞劃分得到的分詞的個數,在分詞「a」和分詞「b」的互信息計算中Pab與Pa和Pb的積成負相關。例如,假設特徵計算數據為「圓領女裝,蝙蝠袖女裝」,計算分詞「蝙蝠袖」的互信息時,分詞「a」為「蝙蝠」,分詞「b」為「袖」,「ab」為「蝙蝠袖」,pa是指分詞「蝙蝠」在特徵計算數據中出現的概率,Pb是指分詞「袖」在特徵計算數據中出現的概率,Pab是指「蝙蝠袖」在特徵計算數據中出現的概率,Cab是指「蝙蝠袖」在特徵計算數據中出現的次數,Ca代表「蝙蝠」在特徵計算數據中出現的次數,Cb代表「袖」在特徵計算數據中出現的次數,η代表基於最小粒度的文本數據對特徵計算數據進行分詞劃分得到的分詞的個數,這裡可以將特徵計算數據劃分為「圓領」、「女裝」、「蝙蝠」、「袖」、「女裝」5個分詞,可知Cab為1,~為l,cb為1, η為5。其中,對數似然比是用于衡量各分詞之間的聯繫緊密性,計算公式為logL{a,b) = ll(^-,kx,nx) +11(^,k2,n2)-ll{kl+kl ,^,^)-//(^1,k2,n2),
Yixn2nx + n2r\ + n2ll(p,k,n) = klog(p) + (n-k)log(l-p)........................[2]在公式[2]中,「a」,「b」分別代表最小粒度的單個分詞屯表示文本數據「ab」在特徵計算數據中出現的次數表示在採用最小粒度的文本數據對特徵計算數據進行分詞劃分,並在採用語言模型依序組合得到的多個組合文本數據中,「a」出現在左邊的組合文本數據的個數;1 表示在上述採用語言模型依序組合得到的多個組合文本數據中,「b」出現在右邊,並且左邊不為a的組合文本數據的個數;n2表示在上述採用語言模型依序組合得到的多個組合文本數據中,左邊不為「a」的組合文本數據的個數。例如,基於與上例相同的特徵計算數據,在將特徵計算數據劃分為「圓領」、「女裝」、「蝙蝠」、「袖」、「女裝」 5個分詞的情況下,採用語言模型對上述分詞進行二元組合得到 「圓領女裝」、「女裝蝙蝠」、「蝙蝠袖」、「袖女裝」 4個組合文本數據。計算「蝙蝠袖」的對數似然比時,Ic1為「蝙蝠袖」在特徵計算數據中出現的次數,H1為在上述4個組合文本數據中, 「蝙蝠」出現在左邊的組合文本數據的個數,k2為在上述4個組合文本數據中,「袖」出現在右邊,同時左邊不是「蝙蝠」的組合文本數據的個數,n2為在上述4個組合文本數據中,左邊不是「蝙蝠」的組合文本數據的個數。其中,上下文熵是用於表示多個分詞表達的使用自由度,熵是不確定因素的表達, 熵越大說明隨機事件越不確定,只能在固定上下文中使用的字符串,其上下文熵值小,而能在不同上下文中使用的字符串其上下文熵值大,上下文熵包括左熵和右熵,左熵的計算公式為 LE(ab) = J] -p(x | 油)Iog2 p(x | ab) ,p(x | ab) = ........................[3]
^leftCab在公式[3]中,「a」,「b」分別代表最小粒度的單個分詞,「ab」代表兩個分詞組合後得到的文本數據,P(x|ab)是指在特徵計算數據中「ab」出現的前提下,左邊出現分詞「X」 的概率,left是指「ab」的左邊出現分詞的集合,Cxab是指在「ab」的左邊出現分詞的次數, Cab是指「ab」出現的次數,在左熵計算中,p(x|ab)和p(x|ab)以2為底的對數成正相關。右熵的計算公式為
權利要求
1 一種識別目標詞的方法,其特徵在於,包括 獲取候選詞集合以及特徵計算數據;基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分; 針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合;確定所述候選詞集合與所述組合文本數據集合的交集; 計算所述交集中包含的每個組合文本數據的指定特徵值;根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞。
2.如權利要求1所述的方法,其特徵在於,所述進行分詞組合處理包括採取基於η元視窗的η元模型,按照設定順序移動η元視窗,將視窗內包含的分詞進行分詞組合,得到組合後的組合文本數據。
3.如權利要求1所述的方法,其特徵在於,根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞,包括將所述交集中包含的組合文本數據的指定特徵值,和基於預設的篩選條件確定的與所述指定特徵值相對應的門限值進行比較,將指定特徵值符合相應門限值的組合文本數據對應的候選詞確定為目標詞。
4.如權利要求3所述的方法,其特徵在於,將所述交集中包含的組合文本數據的指定特徵值,和基於預設的篩選條件確定的與所述指定特徵值相對應的門限值進行比較,包括將所述交集中包含的組合文本數據的指定特徵值,和基於預設的篩選條件確定的與所述指定特徵值相對應的門限值進行比較; 或者將所述交集中包含的組合文本數據的指定特徵值,輸入基於篩選條件確定的公式進行計算,計算出的值再與篩選條件確定的門限值進行比較。
5.如權利要求1-4任一項所述的方法,其特徵在於,所述組合文本數據的指定特徵值至少包含互信息、對數似然比、左熵、右熵和基於位置的字構詞概率值中的任意兩種或兩種以上的組合。
6.如權利要求1-4任一項所述的方法,其特徵在於,所述篩選條件通過以下步驟取得 選取訓練樣本詞集合以及樣本特徵計算數據,該訓練樣本詞集合為已知分類結果的詞的集合;基於最小粒度的文本數據對所述樣本特徵計算數據進行分詞劃分; 針對經過分詞劃分處理的樣本特徵計算數據進行分詞組合處理,獲得作為處理對象的樣本組合文本數據集合;確定所述樣本組合文本數據集合與所述訓練樣本詞集合的交集; 計算所述交集中包含的每個樣本組合文本數據的多個指定特徵值;根據所述交集中包含的每個樣本組合文本數據的多個指定特徵值,以及所述已知分類結果,設置所述多個指定特徵值的門限值,並基於所述門限值得到相應的基於多個指定特徵值的篩選條件。
7.一種識別目標詞的裝置,其特徵在於,包括獲取單元,用於獲取候選詞集合以及特徵計算數據;分詞單元,用於基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分; 分詞組合單元,用於針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合;交集確定單元,用於確定所述候選詞集合與所述組合文本數據集合的交集; 指定特徵值計算單元,用於計算所述交集中包含的每個組合文本數據的指定特徵值; 篩選單元,用於根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞。
8.如權利要求7所述的裝置,其特徵在於,所述篩選單元根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合所述篩選條件的組合文本數據對應的候選詞確定為目標詞,具體為將所述交集中包含的組合文本數據的指定特徵值,和基於預設的篩選條件確定的與所述指定特徵值相對應的門限值進行比較,將指定特徵值符合相應門限值的組合文本數據對應的候選詞確定為目標詞。
9.如權利要求7或8所述的裝置,其特徵在於,所述篩選單元的篩選條件通過以下步驟獲得選取訓練樣本詞集合以及樣本特徵計算數據,該訓練樣本詞集合為已知分類結果的詞的集合;基於最小粒度的文本數據對所述樣本特徵計算數據進行分詞劃分; 針對經過分詞劃分處理的樣本特徵計算數據進行分詞組合處理,獲得作為處理對象的樣本組合文本數據集合;確定所述樣本組合文本數據集合與所述訓練樣本詞集合的交集; 計算所述交集中每個樣本組合文本數據的多個指定特徵值;根據所述交集中包含的每個樣本組合文本數據的多個指定特徵值,以及所述已知分類結果,設置所述多個指定特徵值的門限值,並基於所述門限值得到相應的基於多個指定特徵值的篩選條件。
10.一種識別目標詞的系統,其特徵在於,包括識別目標詞裝置,用於獲取候選詞集合以及特徵計算數據,基於最小粒度的文本數據對所述特徵計算數據進行分詞劃分,針對經過分詞劃分處理的特徵計算數據進行分詞組合處理,獲得作為處理對象的組合文本數據集合,確定所述候選詞集合與所述組合文本數據集合的交集,並計算所述交集中包含的每個組合文本數據的指定特徵值,根據所述交集中包含的每個組合文本數據的多個指定特徵值,按照預設的基於多個指定特徵值的篩選條件對所述交集中包含的組合文本數據進行篩選,將指定特徵值符合篩選條件的組合文本數據對應的候選詞確定為目標詞;訓練數據提供裝置,用於向識別目標詞裝置提供獲得篩選條件所需的訓練樣本詞集合,以及相應的樣本特徵計算數據;目標詞收錄裝置,用於接收識別目標詞裝置識別出的目標詞,並將未登錄的目標詞加入分詞詞典中。
全文摘要
本申請公開了一種識別目標詞的方法、裝置及系統,以利用多個特徵值識別目標詞,提高識別準確率和召回率。該方法包括獲取候選詞集合以及特徵計算數據,基於最小粒度的文本數據對特徵計算數據進行分詞劃分,針對劃分得到的分詞進行分詞組合,獲得組合文本數據集合,確定候選詞集合與組合文本數據集合的交集,計算交集中每個組合文本數據的指定特徵值,按照篩選條件對交集中的組合文本數據進行篩選,將特徵值符合篩選條件的組合文本數據對應的候選詞確定為目標詞。這樣,可利用多個特徵值識別目標詞,通過分類算法獲得篩選條件,避免了人為設定造成的誤差,提高識別準確率和召回率。本申請同時公開了一種識別目標詞的裝置和系統。
文檔編號G06F17/30GK102411563SQ20101029505
公開日2012年4月11日 申請日期2010年9月26日 優先權日2010年9月26日
發明者孫海波, 楊揚, 陳一寧 申請人:阿里巴巴集團控股有限公司