基於關聯規則模式的新詞識別方法

2023-07-31 15:03:36 1

專利名稱:基於關聯規則模式的新詞識別方法
技術領域：
本發明涉及一種基於關聯規則模式的新詞識別方法。
背景技術：
公開號CN1629836A發明專利披露了一種學習中文新詞的方法與裝置。按照該方法與裝置，首先對通過輸入模塊輸入的搜尋引擎日誌用分詞處理模塊進行處理，刪除單個漢字以及含有非漢語成分的查詢詞，將剩餘的查詢詞按照查詢次數排序，設置闕值，然後再刪除查詢次數低於闕值的查詢詞。對於餘下的查詢詞，分詞處理模塊將包含的漢字個數小於等於4的查詢詞以詞庫中現有的詞彙為基礎進行分詞；若包含的漢字個數大於4，則從首字開始，每次取4個字，逐次加一字，直至取完該查詢詞的最後一個字，然後按上述4字查詢詞分詞方法進行分詞。
查詢詞的分詞處理完成後，組合提取模塊根據分詞結果按照下列方式進行新詞提取2字或者3字查詢詞，如果分詞結果為一個已有詞彙，則直接刪除；否則，將該查詢詞作為新詞輸入到過濾模塊；4字查詢詞，如果分詞結果為一個已有詞彙，則直接刪除；如果分詞結果為2部分或者4部分，則將其整體作為新詞輸入到過濾模塊；如果分詞結果為3部分，則依次將前兩部分組合、後兩部分組合以及整個查詢詞輸入過濾模塊；過濾模塊將新詞按照出現的頻率排序，設置新闕值，刪除低於新闕值的新詞並將剩餘的新詞通過輸出模塊輸出。
雖然藉助該方法與裝置可以從網際網路搜尋引擎的關鍵字查詢日誌中學習新的中文詞彙，但是該方法和裝置存在以下問題1.通過該方法和裝置，無法識別超過4個字的中文新詞，特別是其中的中文機構名稱；雖然中文4字以上新詞存在的比例很小，但是這種新詞識別「盲區」仍然為精確分詞技術帶來困難；2.按照該方法的識別規則，新詞識別的準確率約為90％，將近10％的無意義漢字組合作為新詞被錯誤識別；3.該方法和裝置選取所有候選新詞詞頻的平均值作為篩選「偽詞條」的閥值，但是同時也過濾一些頻率比較低的正確新詞，因而該方法在頻率比較低的新詞識別方面存在不足；4.該方法和裝置所使用的分詞規則和新詞提取規則缺乏內部統一性，其中的分詞規則不符合搜尋引擎現有分詞規律，新詞提取規則完全以統計經驗為依據，不但限制了新詞識別的範圍，由此也明顯增加了分詞處理和新詞提取的複雜度。

發明內容
本發明的目的在於提供一種基於關聯規則模式的從網際網路搜尋引擎查詢日誌中識別新詞的方法，以便有效地解決上述方法和裝置在新詞識別方面存在的問題。
本發明依據用戶向搜尋引擎提交的關鍵字查詢日誌對新詞進行識別，包括以下步驟1.將網際網路搜尋引擎關鍵字查詢日誌通過輸入模塊輸入；2.預處理模塊對輸入的關鍵字查詢日誌進行預處理，刪除單個漢字的關鍵字以及不包含漢字成分的關鍵字，然後將剩餘的關鍵字按照其中包含的漢字字數進行分類，根據每個關鍵字類別中所有關鍵字的總提交次數以及不同關鍵字數量設置該關鍵字類別的類別閥值，將其中提交次數低於類別閥值的關鍵字刪除；3.對於預處理後剩餘的關鍵字，按照所含漢字字數由小到大的順序以關鍵字類別為單位依次進行新詞識別首先，針對該關鍵字類別中的每一個關鍵字，分詞處理模塊以分詞詞庫中現有詞彙為基礎進行分詞處理；然後，新詞識別模塊按照下列步驟對該關鍵字進行新詞識別處理1)如果分詞結果為一個已有詞彙，則停止對該關鍵字的新詞識別，接著對該關鍵字類別的下一個關鍵字進行新詞識別處理；2)如果分詞結果為A、B兩部分，則按照關聯規則模式的如下公式計算A和B的關聯作用度G＝P(B/A)÷P(B)其中，G為A和B的關聯作用度；P(B/A)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含A的關鍵字中B也同時出現的概率；P(B)為經過預處理模塊預處理後的全部關鍵字查詢日誌中B出現的概率。
如果G大於設定的關聯作用度閥值，則將該關鍵字整體作為一個新詞加入分詞詞庫，然後對該關鍵字類別的下一個關鍵字進行新詞識別處理；否則，直接對該關鍵字類別的下一個關鍵字進行新詞識別處理；3)如果分詞結果為A、B、C三部分或者三個以上部分，則按下列步驟對該關鍵字進行新詞識別首先，將該關鍵字分詞結果各個部分按現有位置順序組合為X和Y兩大部分，針對所有的組合按照關聯規則模式的下列公式計算X和Y兩大部分之間的關聯作用度
G＝P(Y/X)÷P(Y)其中，G為X和Y的關聯作用度；P(Y/X)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含X的關鍵字中Y也同時出現的概率；P(Y)為經過預處理模塊預處理後的全部關鍵字查詢日誌中Y出現的概率。
在所有的組合中選取關聯作用度最大的組合輸出；如果該最大關聯作用度輸出組合的關聯作用度大於設定的關聯作用度閥值，則將該關鍵字整體作為一個新詞加入分詞詞庫；然後，不論該關鍵字是否作為一個新詞加入分詞詞庫，均將其最大關聯作用度輸出組合中的X和Y兩大部分分別作為關鍵字按照1)至3)步驟進行新詞識別，直至按照1)至3)步驟的規則完全停止對該關鍵字的新詞識別。
在本發明中，關聯作用度閥值設置為H，且H＞1。
在本發明中，如果關鍵字分詞結果為大於等於3的N個部分，則在步驟3)中，X分別取關鍵字分詞結果的第1部分、前2部分、前3部分.....前N-1部分的組合，Y分別取關鍵字分詞結果中相應於X的剩餘部分，共計N-1個X和Y的組合。
需要特別說明的是，在本發明中，關鍵字分詞結果中非漢字成分的相鄰組合視為該關鍵字分詞結果的一個部分。
具體實施方式
下面結合具體實施方式
對本發明做詳細說明。需要說明的是，本具體實施方式
僅採用實現本發明原理的各種方法的某些方面，而本發明旨在包括所有這些方法和它們的等價方面，並非局限於依據搜尋引擎提交的關鍵字查詢日誌對新詞進行識別的範圍內，也非局限於漢語語料庫中新詞的識別。
在具體實施方式
中，本發明依據用戶向搜尋引擎提交的關鍵字查詢日誌對新詞進行識別，包括以下步驟1.將網際網路搜尋引擎關鍵字查詢日誌通過輸入模塊輸入；2.預處理模塊對輸入的關鍵字查詢日誌進行預處理，刪除單個漢字的關鍵字以及不包含漢字成分的關鍵字，將剩餘的關鍵字按照其中包含的漢字字數進行分類，根據下列公式設置每個關鍵字類別的類別閥值F＝0.8*T/S其中，F為某個關鍵字類別的類別閥值；T為該關鍵字類別中所有關鍵字的總提交次數；S為該關鍵字類別中不同關鍵字的數量。
根據F值，預處理模塊將每個關鍵字類別中提交次數低於類別閥值的關鍵字刪除；3.對於預處理後剩餘的關鍵字，按照所含漢字字數由小到大的順序以關鍵字類別為單位依次進行新詞識別首先，針對該關鍵字類別中的每一個關鍵字，分詞處理模塊以分詞詞庫中現有詞彙為基礎進行分詞處理；然後，新詞識別模塊按照下列步驟對該關鍵字進行新詞識別處理1)如果分詞結果為一個已有詞彙，則停止對該關鍵字的新詞識別，接著對該關鍵字類別的下一個關鍵字進行新詞識別處理；2)如果分詞結果為A、B兩部分，則按照如下公式計算A和B的關聯作用度G＝P(B/A)÷P(B)其中，G為A和B的關聯作用度；P(B/A)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含A的關鍵字中B也同時出現的概率；P(B)為經過預處理模塊預處理後的全部關鍵字查詢日誌中B出現的概率。
如果G大於設定的關聯度作用閥值Fg，則將該關鍵字整體作為一個新詞加入分詞詞庫，然後對該關鍵字類別的下一個關鍵字進行新詞識別處理；否則，直接對該關鍵字類別的下一個關鍵字進行新詞識別處理；3)如果分詞結果為A、B、C三部分或者三個以上部分，則按下列步驟對該關鍵字進行新詞識別首先，將該關鍵字分詞結果各個部分按現有位置順序組合為X和Y兩大部分，針對所有的組合按照下列公式計算X和Y兩大部分之間的關聯作用度G＝P(Y/X)÷P(Y)其中，G為X和Y的關聯作用度；P(Y/X)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含X的關鍵字中Y也同時出現的概率；P(Y)為經過預處理模塊預處理後的全部關鍵字查詢日誌中Y出現的概率。
在所有的組合中選取關聯作用度最大的組合輸出；如果該最大關聯作用度輸出組合的關聯作用度Gmax大於設定的關聯作用度閥值Fg，則將該關鍵字整體作為一個新詞加入分詞詞庫；其次，不論該關鍵字是否作為一個新詞加入分詞詞庫，均將其最大關聯作用度輸出組合中的X和Y兩大部分分別作為關鍵字按照1)至3)步驟進行新詞識別，直至按照1)至3)步驟的規則完全停止對該關鍵字的新詞識別。
在本具體實施方式
中，關聯作用度閥值Fg設置為H，且H＞1。
在本具體實施方式
中，P(B/A)等於經過預處理模塊預處理後的全部關鍵字查詢日誌中所有同時包含B和A的關鍵字的總提交次數除以經過預處理模塊預處理後的全部關鍵字查詢日誌中所有包含A的關鍵字的總提交次數，P(B)等於經過預處理模塊預處理後的全部關鍵字查詢日誌中所有包含B的關鍵字的總提交次數除以經過預處理模塊預處理後的全部關鍵字查詢日誌中所有關鍵字的總提交次數。
另外，在本實施方式中，關鍵字分詞結果中非漢字成分的相鄰組合視為該關鍵字分詞結果的一個部分。例如，「BT下載」的分詞結果為「BT/下載」，而不是「B/T/下載」(假如現有分詞詞庫中包含詞彙「下載」)。
需要說明的是，「將該關鍵字分詞結果各個部分按現有位置順序組合為X和Y兩大部分」的意義為，如果關鍵字分詞結果為大於等於3的N個部分，則在步驟3)中，X分別取關鍵字分詞結果的第1部分、前2部分、前3部分.....前N-1部分的組合，Y分別取關鍵字分詞結果中相應於X的剩餘部分，共計N-1個X和Y的組合。例如，某個關鍵字的分詞結果為A/B/C/D四個部分，則按現有位置順序的所有組合為A/BCD、AB/CD、ABC/D，共計三個組合；由於AC/BD、AD/BC等其它排列組合破壞了該關鍵字分詞結果各個部分的現有位置順序，不在本具體實施方式
步驟3)的組合範圍內。
現在，依據實例對本具體實施方式
的特點做進一步說明。
首先，本具體實施方式
原則上可以識別出包含任意多個漢字的新詞彙。以關鍵字「北京師範大學」為例，如果依據分詞詞庫中的現有詞彙，分詞處理模塊將該關鍵字分為「北京/師範/大學」三部分，按照本具體實施方式
步驟3)，新詞識別模塊將「北京/師範/大學」三部分按照現有位置順序分別組合為「北京/師範大學」、「北京師範/大學」，然後分別計算這兩個組合各部分之間的關聯作用度；如果「北京」與「師範大學」之間的關聯作用度高於「北京師範」與「大學」之間的關聯作用度，且「北京」與「師範大學」之間的關聯作用度大於關聯作用度閥值H，則「北京師範大學」作為新詞加入分詞詞庫。
其次，本具體實施方式
可以識別出沒有獨立出現的「隱含」新詞彙。繼續以上面的關鍵字「北京師範大學」為例。在識別新詞「北京師範大學」的過程中，該關鍵字最大關聯作用度輸出組合為「北京/師範大學」，按照本具體實施方式
步驟3)，新詞識別模塊將「師範大學」作為關鍵字依據本具體實施方式
步驟2)繼續進行新詞識別。如果「師範」與「大學」之間的關聯作用度G大於關聯作用度閥值H，則「師範大學」作為新詞被識別出並加入分詞詞庫，即使在搜尋引擎關鍵字查詢日誌中「師範大學」沒有獨立出現過。
再次，本具體實施方式
可以有效減少新詞識別過程中的計算量。在本具體實施方式
中，按照所含漢字字數由小到大的順序以關鍵字類別為單位依次進行新詞識別，並且將識別出的新詞直接加入分詞詞庫，參與以後對其它尚未識別關鍵字的分詞處理過程，從而大大減少關鍵字分詞的個數，新詞識別過程中的計算量也得到有效降低。在本具體實施方式
中，分詞處理模塊和新詞識別模塊首先處理只包含兩個漢字的關鍵字類別，在識別完該關鍵字類別的所用關鍵字且將識別出的新詞加入分詞詞庫後，再處理只包含三個漢字的關鍵字類別，以此類推。
以「韓劇大長今」為例，如果常規分詞詞庫不包含詞彙「韓劇」、「大長今」，該關鍵字將被分詞為「韓/劇/大/長/今」五部分，如果直接使用本具體實施方式
步驟3)進行新詞識別，需要對四個X和Y組合即「韓/劇大長今」、「韓劇/大長今」、「韓劇大/長今」、「韓劇大長/今」的關聯作用度進行計算，然後比較四個關聯作用度的大小，計算量比較大。依據本具體實施方式
，如果在處理只包含兩個漢字的關鍵字類別的過程中，「韓劇」被作為新詞識別出並加入分詞詞庫，同時在處理只包含三個漢字的關鍵字類別的過程中，「大長今」被作為新詞識別出並加入分詞詞庫，那麼，在處理包含五個漢字的關鍵字類別的過程中，「韓劇大長今」將被分詞為「韓劇/大長今」兩部分，與分詞結果「韓/劇/大/長/今」相比計算量明顯減少。
最後，不論關鍵字包含漢字數量的多少，本具體實施方式
不改變搜尋引擎現有的分詞規則和方法，使用關聯規則模式下的相同的新詞識別計算公式，提高了本發明的可實現性。
雖然本發明通過上述具體實施方式
進行了披露，但並非用以限定本發明的內容。任何熟悉本領域的技術人員應當意識到，本發明旨在包含落入所附權利要求
書精神和範圍中的所有組合和變化。
權利要求
1.基於關聯規則模式的新詞識別方法，其特徵在於，藉助該方法可以從網際網路搜尋引擎的關鍵字查詢日誌中學習新的中文詞彙，包括以下步驟1)將網際網路搜尋引擎關鍵字查詢日誌通過輸入模塊輸入；2)預處理模塊對輸入的關鍵字查詢日誌進行預處理，刪除單個漢字的關鍵字以及不包含漢字成分的關鍵字，將剩餘的關鍵字按照其中包含的漢字字數進行分類，根據每個關鍵字類別中所有關鍵字的總提交次數以及不同關鍵字數量設置該關鍵字類別的類別閥值，將其中提交次數低於類別閥值的關鍵字刪除；3)對於預處理後剩餘的關鍵字，按照所含漢字字數由小到大的順序以關鍵字類別為單位依次進行新詞識別首先，針對該關鍵字類別中的每一個關鍵字，分詞處理模塊以分詞詞庫中現有詞彙為基礎進行分詞處理；然後，新詞識別模塊按照下列步驟對該關鍵字進行新詞識別處理a)如果分詞結果為一個已有詞彙，則停止對該關鍵字的新詞識別，接著對該關鍵字類別的下一個關鍵字進行新詞識別處理；b)如果分詞結果為A、B兩部分，則按照關聯規則模式的公式計算A和B的關聯作用度；如果A和B的關聯作用度大於設定的關聯作用度閥值，則將該關鍵字整體作為一個新詞加入分詞詞庫，然後對該關鍵字類別的下一個關鍵字進行新詞識別處理；否則，直接對該關鍵字類別的下一個關鍵字進行新詞識別處理；c)如果分詞結果為A、B、C三部分或者三個以上部分，則按下列步驟對該關鍵字進行新詞識別首先，將該關鍵字分詞結果各個部分按現有位置順序組合為X和Y兩大部分，針對所有的組合按照關聯規則模式的公式計算X和Y兩大部分之間的關聯作用度；然後，在所有的組合中選取關聯作用度最大的組合輸出；如果該最大關聯作用度輸出組合的關聯作用度大於設定的關聯作用度閥值，則將該關鍵字整體作為一個新詞加入分詞詞庫；最後，不論該關鍵字是否作為一個新詞加入分詞詞庫，均將其最大關聯作用度輸出組合中的X和Y兩大部分分別作為關鍵字按照a)至c)步驟進行新詞識別，直至按照a)至c)步驟的規則完全停止對該關鍵字的新詞識別。
2.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於A和B的關聯作用度的計算公式為G＝P(B/A)÷P(B)其中，G為A和B的關聯作用度；P(B/A)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含A的關鍵字中B也同時出現的概率；P(B)為經過預處理模塊預處理後的全部關鍵字查詢日誌中B出現的概率。
3.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於X和Y的關聯作用度的計算公式為G＝P(Y/X)÷P(Y)其中，G為X和Y的關聯作用度；P(Y/X)為經過預處理模塊預處理後的全部關鍵字查詢日誌中包含X的關鍵字中Y也同時出現的概率；P(Y)為經過預處理模塊預處理後的全部關鍵字查詢日誌中Y出現的概率。
4.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於關聯作用度閥值設置為H，且H＞1。
5.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於關鍵字分詞結果中非漢字成分的相鄰組合視為該關鍵字分詞結果的一個部分。
6.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於，如果關鍵字分詞結果為大於等於3的N個部分，則X分別取關鍵字分詞結果的第1部分、前2部分、前3部分.....前N-1部分的組合，Y分別取關鍵字分詞結果中相應於X的剩餘部分，共計N-1個X和Y的組合。
7.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於該方法同樣適用於除搜尋引擎關鍵字查詢日誌以外的其它語料庫中新詞的識別。
8.如權利要求
1所述的基於關聯規則模式的新詞識別方法，其特徵在於該方法同樣適用於除中文以外的其它語言語料庫中新詞的識別。
專利摘要
基於關聯規則模式的新詞識別方法，藉助該方法，在不改變搜尋引擎現有的分詞規則和方法的前提下，可以從網際網路搜尋引擎的關鍵字查詢日誌中學習新的中文詞彙，原則上能夠識別出包含任意多個漢字的新詞彙，也可以識別出關鍵字查詢日誌中沒有獨立出現的「隱含」新詞彙；而且，不論關鍵字所包含漢字數量的多少，均使用關聯規則模式下的相同計算公式進行新詞識別，提高了本發明的可實現性。
文檔編號G06F17/30GKCN101046809SQ200610073430
公開日2007年10月3日申請日期2006年3月28日
發明者吳風勇申請人:吳風勇導出引文BiBTeX, EndNote, RefMan

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於關聯規則模式的新詞識別方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法