一種中文的觀點、評價信息的屬性-觀點對抽取方法
2023-10-06 06:05:49 3
專利名稱:一種中文的觀點、評價信息的屬性-觀點對抽取方法
技術領域:
本發明涉及計算機應用技術的技術領域,具體地涉及ー種中文的觀點、評價信息的屬性-觀點對抽取方法。
背景技術:
「屬性-觀點」對,也可以叫做「特徵-觀點」對,在評論中,屬性和特徵是相對產品或服務而言的,反映了一個產品或服務的不同方面。評論中屬性詞與觀點詞對的抽取是實現文檔摘要、屬性分析、極性判斷等研究的基礎工作,具有較高的研究價值。我們認為,屬性是表達相同意思的同義詞集,例如,「性價比」,「價位」,「價錢」,「價格」,「售價」可以看作是「性價比」這個屬性的同義詞集,也就是屬性詞。同一個產品或服務,對應於很多屬性,例如,手機有「外觀」,「質量」,「性價比」,「信號」等屬性。觀點詞一般用來描述屬性詞,例如,「性價比」的觀點詞為「高」。屬性觀點對的抽取有很多相關的研究,但是涉及到中文領域的不是很多。一般來說,有基於規則的方法和機器學習的方法。例如,定義規則出現屬性詞後面的觀點詞即認為是屬性觀點對;機器學習的方法需要人工標註數據,抽取特徵訓練模型。但是,這些方法需要標註和訓練模型,準確率不高,魯棒性低。
發明內容
為克服現有技術的缺陷,本發明要解決的技術問題是提供了ー種不需要標註和訓練模型、準確率較高、具有較高的魯棒性的中文的觀點、評價信息的屬性-觀點對抽取方法。本發明的技術方案是這種中文的觀點、評價信息的屬性-觀點對抽取方法,包括以下步驟(I)對中文的觀點、評價信息進行分詞和詞性標註,得到觀點、評價信息中的每ー個詞及對應的詞性;(2)抽取屬性-觀點對;(3)統計正面、負面屬性-觀點對出現的次數,然後判斷是否正面出現次數大於負面出現次數,如果是則為正面屬性-觀點對,否則為負面屬性-觀點對。該方法充分利用大規模的網際網路上用戶標註的信息,同時結合句法、語法規則和大規模語料上的統計分析,不需要人工標註數據和訓練模型,準確率較高,且具有較高的魯棒性。
圖I是根據本發明的中文的觀點、評價信息的屬性-觀點對抽取方法的流程圖;圖2是根據本發明的統計正面、負面屬性-觀點對出現的次數的流程圖。
具體實施方式
下面對本發明的技術方案做進一步的詳細描述。如圖I所示,這種中文的觀點、評價信息的屬性-觀點對抽取方法,包括以下步驟(I)對中文的觀點、評價信息進行分詞和詞性標註,得到觀點、評價信息中的每一個詞及對應的詞性;(2)抽取屬性-觀點對;(3)統計正面、負面屬性-觀點對出現的次數(如圖2所示),然後判斷是否正面出現次數大於負面出現次數,如果是則為正面屬性-觀點對,否則為負面屬性-觀點對。該方法結合規則和統計信息,不需要標註和訓練模型,準確率較高,且具有較高的
魯棒性。優選地,步驟⑵包括以下分步驟(2. I)抽取基於語法詞性關係的屬性-觀點對;(2. 2)再抽取基於候選詞典的屬性-觀點對;(2. 3)從搭配關係,領域相關性以及觀點詞是否具有傾向性三個方面來對步驟(2.2)的屬性-觀點對進行過濾;(2. 4)擴展步驟(2. 3)的屬性-觀點對中的觀點詞和屬性詞;(2. 5)對屬性-觀點對的極性進行判斷。在步驟(2. I)中對於語法關係的使用,我們選擇利用依存文法。依存文法通過分析一個句子內部語言單位成分的依存關係來揭示句子的句法結構。具體到屬性詞和觀點詞之間存在的依存關係,主要可以分為如下兩類第一,屬性詞和觀點詞存在直接的依存關係。比如,在「性價比很高」這句話中,「性價比」和「高」直接存在直接的主謂關係(在Stanford Parser中判定為nsubj關係)。第二,屬性詞和觀點詞存在間接的依存關係。即二者共同與第三個語言單位存在依存關係。比如,在「11寸的體型確實是同類產品中最小巧的」這句話中,「體型」和「小巧」屬於屬性-詞觀點詞對。二者並沒有直接的依存關係,而是共同與「是」存在依存關係「體型」與「是」構成了主謂關係(在Stanford Parser中判定為nsubj關係),「是」與「小巧」構成了表語關係(在Stanford Parser中判定為attr關係)。由於現有的中文語言處理工具所得到的句子依存關係中,會出現不可避免的錯誤。所以僅依靠依存關係來提取屬性詞-觀點詞對可能帶來很大的噪音。為此,我們在利用依存關係的同時,增加了對詞語詞性的限制。這樣,一個屬性詞-觀點詞對的抽取規則(見表I)就可以用如下的三元組來表示〈依存關係,屬性詞詞性,觀點詞詞性>。表I
權利要求
1.一種中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於包括以下步驟 (1)對中文的觀點、評價信息進行分詞和詞性標註,得到觀點、評價信息中的每一個詞及對應的詞性; (2)抽取屬性-觀點對; (3)統計正面、負面屬性-觀點對出現的次數,然後判斷是否正面出現次數大於負面出現次數,如果是則為正面屬性-觀點對,否則為負面屬性-觀點對。
2.根據權利要求I所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟⑵包括以下分步驟 (2. I)抽取基於語法詞性關係的屬性-觀點對; (2. 2)再抽取基於候選詞典的屬性-觀點對; (2. 3)從搭配關係,領域相關性以及觀點詞是否具有傾向性三個方面來對步驟(2. 2)的屬性-觀點對進行過濾; (2. 4)擴展步驟(2. 3)的屬性-觀點對中的觀點詞和屬性詞; (2. 5)對屬性-觀點對的極性進行判斷。
3.根據權利要求2所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 2)包括以下分步驟 (2. 2. I)生成一個觀點詞表和一個屬性詞表; (2. 2. 2)使用已有的字典對屬性詞和觀點詞進行擴展,即屬性詞只與其最近的觀點詞進行搭配,從而減少了同一句中不同的屬性詞和觀點詞出現的組合情況,以致生成了一個〈屬性詞,觀點詞,句子 > 的三元組的集合。
4.根據權利要求3所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 3)包括以下分步驟 (2. 3. I)判斷搭配關係; (2. 3. 2)基於領域互信息進行過濾。
5.根據權利要求4所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 3. I)使用了公式(I)進行加權評分Score = (OccurScore+RelationScore)*FrDistanceFactor*FlagFactor (I) 其中,OccurScore和RelationScore分別為Noccur和relation的分段函數,而FrDistanceFactor 和 FlagFactor 則分別是懲罰因子,同 frDistance 和 flag有關,對 Score取指定閾值即可對搭配關係進行判定。
6.根據權利要求5所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 3. 2)使用了公式2進行過濾 M(w,D)^f=olog^^⑵ 其中,P(W)為詞W在所有語料中出現的概率,P (D(i))為第i個領域出現的概率,等於第i個領域中的詞的個數佔所有語料中詞的個數的比例,P(w, D(i))為詞w在第i個領域中出現的次數處理所有語料中的單詞數,其中i為正整數。
7.根據權利要求6所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 4)包括以下步驟 (2. 4. I)在原始語料中計算相鄰兩個詞的互信息,相鄰兩個詞wl,w2的互信息按照公式⑶計算
8.根據權利要求7所述的中文的觀點、評價信息的屬性-觀點對抽取方法,其特徵在於步驟(2. 5)包括以下兩種方法 .1.利用現有人工標註的語料,進行極性的判斷,按照公式(4)算出一個傾向性的評分極性值polarity :
全文摘要
公開了一種不需要標註和訓練模型、準確率較高、具有較高的魯棒性的中文的觀點、評價信息的屬性-觀點對抽取方法,包括以下步驟(1)對中文的觀點、評價信息進行分詞和詞性標註,得到觀點、評價信息中的每一個詞及對應的詞性;(2)抽取屬性-觀點對;(3)統計正面、負面屬性-觀點對出現的次數,然後判斷是否正面出現次數大於負面出現次數,如果是則為正面屬性-觀點對,否則為負面屬性-觀點對。
文檔編號G06F17/27GK102637165SQ20121003874
公開日2012年8月15日 申請日期2012年2月17日 優先權日2012年2月17日
發明者朱小燕, 黃民烈 申請人:清華大學