新四季網

基於用戶評論文本特徵的自動摘要方法及其自動摘要系統的製作方法

2023-08-09 21:42:01

專利名稱:基於用戶評論文本特徵的自動摘要方法及其自動摘要系統的製作方法
技術領域:
本發明涉及一種針對用戶評論的文本特徵進行文本自動摘要的自動摘要方 法及其自動摘要系統,屬於知識挖掘技術領域。
背景技術:
基於文本特徵的自動摘要技術是使用計算機技術自動地為電子文檔生成 "一段較原文短小且涵蓋了原文中重要信息的文本"。隨著網際網路的深入發展, 信息爆炸式增長使得文本自動摘要技術的應用越來越廣泛。根據處理對象的不 同,文本摘要可分為單文檔自動摘要和多文檔自動摘要兩類。
單文檔自動摘要技術是為單一文檔自動生成摘要的技術,主要採用基於句 子抽取的方法,即首先依據詞頻、句子的位置、句法結構、文檔結構等因素計 算句子的得分,然後選取得分最高的若干句子作為文摘句,將所有文摘句按它 們在原文中的順序組織成文摘。此外,單文檔自動摘要還可以採用基於自然語 言理解的文摘生成方法,利用語言學知識分析文本的深層語言結構,並且利用 領域知識對語義進行判斷、推理,得到文檔的語義表示,然後根據文檔的語義 表示生成摘要。相較而言,句子抽取的方法較簡單,適用範圍廣;而基於自然 語言理解的文摘生成方法十分複雜,且依賴於領域知識庫,具有嚴格領域受限 的特性。因此,目前主流的單文檔自動摘要仍然採取基於句子抽取的方法。
多文檔自動摘要是為同一主題下的多個文檔自動生成摘要,需要考慮不同 文檔內容上的冗餘與衝突。多文檔自動摘要主要有三類方法(1)使用信息抽
取技術抽取各個文檔中的重要信息,人工定製或半自動地生成摘要的模板,將 抽取的信息填入模板生成摘要;(2)首先使用單文檔文摘技術為各個文檔生成 摘要,然後過濾其中冗餘和衝突的內容,將剩餘內容組織生成摘要;(3)首先 對組成文檔的所有句子進行分類或聚類,然後從各個集合中選取表現主題的句
5子組織成文摘。採用第三種方法的一個典型工具是MEAD,具體參見Radev D R, Jing H, Stys M, et al. Centroid-based summarization of multiple documents. Information Processing and Management, 2004, 40:919-938。 MEAD是一個基 於文檔聚類和文檔集合特徵的多文檔自動摘要系統,MEAD先對多文檔中的句子 進行聚類,使用統計方法選取各個句子集合中詞頻最高的詞和短語組成偽句子 作為集合的"質心",然後計算集合中其他句子與質心的相似度作為句子的得分, 最後選取各個集合中得分最高的句子作為文摘句,將文摘句組織起來生成文檔 摘要。
隨著Web2. 0的發展,網際網路逐漸成為一個人們可以自由發表言論的平臺, 網絡上開始出現大量的包含豐富的主觀見解的文本,如用戶評論等。目前,文 本自動摘要的研究對象主要是科技文獻和新聞等具有嚴謹的文檔結構、語言風 格相對統一、陳述客觀事實的文本;而用戶評論往往是針對事物特定方面表達 主觀見解的文本,其具有結構靈活鬆散、語言風格多樣化特點。考慮到用戶評 論的以上特點,本發明採用了基於特徵的分類方法,即首先分析大量評論,從 中識別出用戶評論的所有特徵,然後根據句子評價的特徵對單個評論句進行分 類。目前情感分析領域提出了一些從用戶評論中識別特徵的方法,如頻繁項集 挖掘方法,基於概率語言模型的方法,模式發現與模式匹配的方法,以及基於 啟發式規則的無監督學習方法等。
這些主觀性本文數量巨大且分布比較分散,所以要獲得其中包含的豐富的 知識往往要花費大量的時間和精力。本發明主要採用第三類方法為用戶評論生 成摘要,提出一種特徵識別與過濾算法,通過對比實驗說明特徵識別的查準率 和Fl值都有較大的提高。

發明內容
為了克服現有技術結構的不足,本發明提供一種基於用戶評論文本特徵的 自動摘要方法及其自動摘要系統,其能夠自動為大量的用戶評論生成簡潔、全面的摘要,以幫助人們更快更好地從用戶評論中獲取知識。本發明特徵識別的查 準率和Fl值都有較顯著的提高。本發明解決其技術問題所採用的技術方案是
一種基於用戶評論文本特徵的自動摘要方法,其包括以下歩驟
步驟l,用戶評論預處理爬取並解析用戶評論網頁,得到用戶評論,然後 對所述用戶評論進行預處理,得到預處理後的用戶評論;
步驟2,特徵識別通過分析所述預處理後的用戶評論,從中識別出被用戶 評價的特徵,然後從所述被用戶評價的特徵中,使用統計方法識別出候選特徵;
歩驟3,評論句分類將所述預處理後的用戶評論句按所述候選特徵分類, 從而得到相應候選特徵的評論句類;
步驟4,特徵過濾根據所述評論句類對候選特徵進行過濾,從而得到最終 特徵及其所對應的候選評論句類;
步驟5,摘要生成計算所述候選評論句類中每個句子的得分,抽取若干 文摘句生成摘要。
上述步驟l中進一步包括,所述爬取並解析用戶評論網頁是指,針對選取 的特定的事物爬取該事物的所有用戶評論網頁,得到爬取的用戶評論,然後解 析所述爬取的用戶評論,獲得用戶評論文本。
上述歩驟1中,對所述用戶評論進行預處理是指,標註用戶評論中的所所 有詞語的詞性,去除其中的停用詞,並對剩餘詞語進行詞幹抽取,得到預處理 後的用戶評論文本。
上述步驟2中,所述被用戶評價的特徵是指是用戶在評價某件事物時著眼 的某個側面、某個細節、某個屬性或者某個組成部分。
上述步驟2中,所述使用統計方法識別出候選特徵是指提取所述被用戶 評價的特徵相應的用戶評論句中的所有名詞,計算單個名詞出現的頻率以及任 意兩個名詞共現的頻率;選取出現頻率最高的單個名詞和共現頻率最高的名詞作為候選特徵。
上述步驟4中所述的對候選特徵進行過濾是指,根據組成特徵的名詞在評 論句中出現的相對位置,以及各個特徵之間意義上的泛化與特化關係,過濾無 意義和冗餘的候選特徵。
上述步驟5中進一歩包括釆用統計方法計算山表現各個評論句類主題的關 鍵詞,然後根據評論句內容與主題的契合度、評論句的長度以及評論句在整篇 評論中出現的位置,計算評論句的得分,然後抽取用戶評論句類中得分最高的 若干原評論句組織生成摘要。
種基於用戶評論文本特徵的自動摘要方法,進一步包括所述採用統計方 法計算出表現各個評論句類主題的關鍵詞是指,在對評論句分類的基礎上,使 用統計的方法找出每個類的關鍵詞,構造表示該評論句類主題的偽句子一質心, 計算基於評論句與質心的相似度;所述評論句內容與主題的契合度是指評論句
與質心的相似度。
一種基於用戶評論文本特徵的自動摘要系統,其包括
用戶評論預處理模塊其用於爬取並解析用戶評論,然後對所述用戶評論 進行預處理;
特徵識別模塊其通過分析所述預處理後的用戶評論,從用戶評論中識別 出被用戶評價的特徵,然後從所述被用戶評價的特徵中,使用統計方法識別出 候選特徵。
評論句分類模塊其將用戶評論句按所述候選特徵分類,從而得到相應候 選特徵的評論句類;
特徵過濾模塊其根據評論句分類的結果對候選特徵進行進一歩過濾,從 而得到感興趣的候選特徵作為最終特徵,以及得到所對應的候選評論句類;
摘要生成模塊其用來計算所述候選評論句類的得分,抽取若干文摘句牛 成摘要。其中,用戶評論預處理模塊將預處理結果發送到特徵識別模塊,得到識別 出的候選特徵,將經過所述用戶評論模塊預處理後的用戶評論文本和特徵識別 模塊識別出的候選特徵送入評論句分類模塊進行分類,得到評論句類;對所述 候選特徵進行過濾得到最終特徵及其對應的候選評論句類;摘要生成模塊以所 述候選評論句類和所述最終特徵作為輸入進行統計分析並生成摘要。
本發明的有益效果
本發明提出了一種基於用戶評論文本的自動摘要方法,第一次將文本自動 摘要技術應用於包含豐富主觀信息的用戶評論,並且針對用戶評論的特點提出 了基於特徵的分類方法。
本發明方法能夠生成簡潔、全面的用戶評論摘要,大大縮短用戶閱讀評論 獲取有用信息的時間,提高知識利用率;基於特徵的本方法是切合用戶評論自 身特點的,本發明提出的特徵識別與特徵過濾算法的査準率可達81%以上,査全 率可達52%,査準率和F1值較選取的對比算法都有較大的提高。在網絡時代信息 爆炸式增長的背景下,根據本發明的用戶評論自動摘要方法具有重大的意義, 可以廣泛應用於電子商務等諸多領域,能夠顯著提高從海量信息中獲取知識的 質量和效率。


圖l為根據本發明的基於用戶評論文本特徵的自動摘要方法的總流程圖2為根據本發明方法的評論句分類的流程圖3為根據本發明方法的摘要生成的流程圖。
具體實施例方式
下面結合附圖和具體實施方式
對本發明作進一歩詳細描述 實施例l:
以下結合一個在電子商務中為用戶評論生成摘要的例子,詳細描述本發明 的具體實施方式
。電子商務是網際網路上重要的Web應用,電子商務網站往往允許用戶對商品
發表評論,這些包含著用戶對商品購買和使用的主觀性體驗的評論,常常可以 作為其他用戶挑選商家和商品的參考,也可以作為商家改進服務的依據。大型 網站匕的熱門商品往往包含成百上千條用戶評論,閱讀十分耗時。本發明可以 為大量用戶評論自動生成簡潔、全面的摘要,大大提高知識獲取的效率。
如圖l所示,基於特徵的用戶評論自動摘要方法主要包括以下幾個步驟 步驟1用戶評論預處理爬取並解析用戶評論,然後對所述用戶評論進行 預處理。
為電子商務中商品的用戶評論生成摘要,首先需要從電子商務網站上爬取
針對該商品的所有用戶評論網頁。在本實施例中,從www. amazon. com上爬取針 對商品Apple iPod touch的所有用戶評論網頁,解析網頁得到939條用戶評論。
在開始自動摘要之前,需要對用戶評論進行一系列預處理。使用Stanford Part-of-Speech Tagger對用戶評論進行詞性標註,Stanford Part-of—Speech Tagger是一個使用最大熵模型的詞性標註器,準確率可達96.86%。此外,刪除 用戶評論中的刪除停用詞,使用Porter Stemmer為剩餘的詞語抽取詞幹。處理 後的評論句採用向量空間模型表示和存儲。
步驟2特徵識別通過分析大量用戶評論,從用戶評論中識別出被用戶評價 的特徵,然後從所述被用戶評價的特徵屮,使用統計方法識別出候選特徵。
如前所述,事物的特徵是用戶在評價某件事物時著眼的某個側面、某個細 節或者某個屬性、某個組成部分。在電子商務領域中,用戶著眼的往往是商品 本身的屬性或組成部分,或者購物過程中的某個側面或細節,這些被統稱為特 徵。這些特徵往往是名詞或者兩個名詞組成的詞組;因為不同用戶採用相同的 詞語表示特徵,而往往用不同的詞語表達他們的購物和用戶體驗,所以表示特 徵的詞語出現的頻率較其他詞語更高。基於此,本發明採用一種基於頻繁項集 挖掘的統計方法進行特徵識別,能夠自適應地識別各種商品的特徵。
頻繁項集挖掘的問題描述是〉是一個含N個項集的集合,其
10中>,/ = 1,2,...,^是一個^項集,/7,/ = 1,2,...,",是一個項。給定一個參數
最小支持度^V^^p^"頻繁項集挖掘是為了找出所有滿足以下條件的項集S: D中至少存在/V* //7.w/^o;^個項集& ,使得S ^ & 。
Apriori算法是頻繁項集挖掘的經典算法之一。它採用寬度優先搜索策略, 利用Apriori性質,即滿足最小支持度要求的m項集一定是所有滿足要求的n 項集的併集的子集(m〉n),有效地縮小了搜索空間。
與Apriori算法不同,本文的特徵算法僅識別單字和雙字特徵,即1-項集 和2-項集,尤其特別為兩者指定了不同的最小支持度/^/7sz//^0rW和 啦'77^/A^r^。之所以如此,是因為組成雙字特徵兩個詞語共現的頻率要遠低於 單字特徵出現的頻率。若兩者採用同樣的最小支持度,則參數太大會導致無法 有效識別雙字特徵,參數太小會導致識別大量錯誤的單字特徵。該算法步驟如 下
1) 抽取用戶評論中所有名詞生成事務文件,文件每行為一個評論句中出現 的名詞;
2) 遍歷事務文件,統計每個名詞的支持度;事務文件的總行數,即評論句 總數為
3) 選取支持度不小於/z/i/^,pw^的名詞為單字特徵;
4) 以所有支持度不小於^i/^w/^or^的名詞作為雙字特徵候選集;
5) 遍歷事務文件,統計任意兩個名詞所組成的詞組的支持度,選取支持度 不小於/wV s,por"的詞組作為雙字特徵。
如算法步驟4)所示,選取支持度不小於/77i/7s,por"的名詞而不是所有名 詞作為雙字特徵候選集,是利用Apriori性質以縮小搜索空間。算法中的兩個 參數啦'刀s砂/ oi^7和肌V^w/^or^通過一些列實驗學習得到,其中單字特徵支 持度/w'/LSi/ftwrW為0. 012,雙字特徵支持度/w'/7s,/ orz^為0. 005。
步驟3評論句分類將用戶評論句按所述候選特徵分類,從而得到相應候 選特徵的評論句類。識別出商品的所有被評價的特徵後,依次分析每一個評論句評價的特徵, 將評論句分到該特徵對應的評論句類中。於是得到一系列評論句類,其中每一 個類對應一個特徵,包含評價該特徵的所有評論句。
步驟4特徵過濾根據評論句分類的結果對候選特徵進行過濾,從而得到 感興趣的候選特徵及其所對應的候選評論句。
完成評論句分類後,需要根據分類的結果,考慮組成雙字特徵的兩個詞語 在評論句中出現的位置以及出現的次數,過濾無意義的雙字特徵;然後根據候 選單字特徵在概念上與雙字特徵的包含關係過濾冗餘的單字特徵。
對於雙字特徵過濾,觀察到組成雙字特徵的兩個詞語在評論句屮的出現往 往距離較近,而且保持一致的相對順序。為此定義了有效的雙字特徵的概念。 定義1 一個有效的雙字特徵f^ ,w^應滿足以下條件
(1) f-〈WpW,在評論句S中共現,w,和^保持w,在前w,在後的相對順序, 且兩者出現位置的距離小於給定閾值W'/7^『i》e;
(2) 更新雙字特徵的支持度為滿足條件(1)的評論句的數目,雙字特徵
的支持度必須大於給定閾值歷i^ wp/ 。
若雙字特徵,的支持度小於給定閾值,則該雙字特徵是無意義的。 對於單字特徵過濾,定義了單字特徵的純支持度(pure support)的概念。 定義2 已知所有雙字特徵/;,/2,...,/;,,2 。 一個單字特徵w的純支持度,是指w 出現且/;,/2,...,/ ,2不出現的評論句的總數。
有效的單字特徵是指純支持度不小於給定閾值巡i^o^^p的單字特徵,純支 持度小於歷i"; s,p的單字特徵是冗餘的。
例如,battery life和life為算法1識別出的特徵,battery life的支持度為20, life的支持度為30,則life的純支持度為30-20=10。若給定 肌V AWA^20,則life是冗餘的單字特徵。
評論句分類與特徵過濾算法的具體描述如下
輸入經過預處理的用戶評論,以及算法l識別出的候選特徵 輸出經過過濾的特徵,以及各個特徵對應的評論句類
過禾呈Classifier(V&c/oprw'ze, / i/75"〃巡啦'邵6"〃卯)
2while讀入一個評論句5,
3 for A中的每一個詞語w,
4 if ,是算法1識別出的一個單字特徵then
5 《-^在^中出現的位置
6 =恥wm u <y7 , )
7 將評論句&分到單字特徵w,對應的評論句類。
8 for腳ns中的每一對名詞(w"《),(Wi,《)
9 if 是雙字特徵&& 《〈w油麗fee then
10 將A分到雙字特徵《^,vn >對應的評論句類^
11 else if 是3又字牛寺個正&& o#,^cws/ze then
12 將s,分到雙字特徵〈^, >對應的評論句類
13 for每一個雙字特徵
14 根據定義1更新 的支持度
15 if s,, < yz i776""淨then
16 刪除雙字特徵
1317 for在雙字特徵中出現的每一個名詞w,
18 根據定義1計算w,的純支持度戸"w,
19 if 戸p巧〈邁i邵幼; p then
20 刪除單字特徵w,
算法2第1-12行成評論句分類,如圖2所示,給定一個評論句,算法先判斷其中出現的每 -個名詞是否是單字特徵,然後判斷每兩個單字特徵組成的名詞對是否是雙字特徵,然後將該評論句分到相應的單字特祉或雙字特徵對應的評論句類。具體評論句分類過程如下
(l)讀入一個評論句s,記錄其中出現的名詞^,2,...,,,判斷,力(—l,…t)是單字特徵?如果不是,繼續處理s中下-個名詞w,+,直到處理完s中出現的所有名詞;(2)如果w,是單字特徵,則將s分到w,對應的類c,,將w,加入nouns;對nouns中的每一對名詞,判斷〈",w'p是雙字特徵?如果是,那麼將s分到對應的類^;否則,繼續回到(1)繼續處理s中下一個名詞。
算法2第13-16行根據定義1進行雙字特徵過濾,第17-20行根據定義2完成單字特徵過濾。三個參數r^^H^ 'ze,肌';isw/^和啦V7/^WAD分別表示組成雙字特徵的兩個名詞在評論句中出現位置間的最大距離,雙字特徵的最小支持度,和單字特徵的最小純支持度。經過系列實驗學習,『力7t/o^ize取值為2,瓜i/ s〃/ p禾口 /z i/^swp/3的取f直:^另ij與歷j'/ 5"〃/ parz^禾口 /w'/ sw/^orz^相同,為0. 005和0,012。
歩驟5摘要生成計算所述候選評論句的得分,抽取若干文摘句生成摘要。在評論句分類的基礎上,本發明使用句子抽取的方法生成摘要。圖3為摘要生成的流程圖。如圖3所示,對於每一個評論句類,先計算組成評論句詞語
的權重,抽取若干權重最高的關鍵詞組成表示該評論句類主題的質心向量;然後基於評論句與質心的相似度、評論句長度以及句子在整篇評論中的位置計算評論句的得分,按照壓縮率抽取得分最高的若干評論句作為該分類的文摘句;最後按照一定順序排列各個評論句類的文摘句生成摘要。
^="1^2,...,^>為某種產品某個特徵的評論句分類,w是d中評論句的數目。
& =<、,,、,.., ,,、hl,2,…,.V是評論句5,的向量模型表示,"是整個評論句分類中出現的詞語的總數,w,中f是評論句的標識符,而J是詞語的全局標識符。
=,("'"',/ = 1,2,...義/' = 1,2,...^是詞語,的權值。特別地,當巧沒有在a中出現時、=0.
評論句分類d的質心是個能反映該分類的主題的偽句子,同樣採用向量模型表示,ce"的^W)=。其中、為關鍵詞v^的權重,計算方法為
《=log
出現的句子數
對於每個評論句,計算以卜三種得分
(1) 基於質心的得分如下formula see original document page 15
即表示評論句的向量與質心向量的餘弦相似度。因為質心是表示文檔集合主題的偽句子,與質心越相似的評論句越能反映文檔集合的主題,故而得分越高。
(2) 基於評論句長度的得分如下
,、j中最短句的長度n, , W1
長度越短的句子得分越高,可以使相同長度的摘要包含更多的句子,從而包含更加豐富的信息。(3)基於段落首句的得分如下
,、卩,如果si是段落首句
f '、 否則
根據Baxendale的研究,句子在文檔中的位置對句子重要性的影響重大,段落首句是該段落中心句的概率為85%。因此,段落首句得分為l。
對於一個評論句、,其初始得分為基於質心和基於長度的得分的線性和,即score。
) = " * score乙) +々* score, (s,) + y承score, )
其中"為基於質心得分的權值,/ 是基於評論句長度的得分的權值,^是基
於段落首句的得分的權值,0<",/ ,7<1且《 + / + 7 = 1。通過一系列實驗考量生成摘要的質量和實際的應用需求,選取"=0.5,^ = 0.3,y = 0.2 。
得到評論句的初始得分後,依次從各分類中抽取得分最高的句子加入摘要;若摘要長度未達到壓縮率的限制,則在每次迭代後重新計算各分類中剩餘評論句的得分,然後抽取得分最高的句子加入摘要,直到摘要長度達到限制時迭代結束。第(k+l)次迭代時,評論句x,的得分計算方法為
scorek+l") = scorek") — ;scorek 0:)
其中^是第k次迭代後選取的得分最高的評論句。每次迭代後重新計算句子
得分的目的是為了為與已選取的句子內容不相似的句子賦予更高的得分,以降低所生成的摘要的冗餘度。
最終生成摘要吋需要考慮從各個評論句類中選取的文摘句之間的相對順序。這裡先將特徵按支持度的降序排列,依次各個特徵對應的評論句類中選取一個文摘句加入摘要。
性能評測
基於特徵的用戶評論自動摘要方法首先需要分析用戶評論識別出被評價的特徵,然後將所有評論句按照所評價的特徵進行分類,使用句子抽取的方法從各個評論句類中抽取文摘生成摘要。因此,特徵識別的質量對於生成摘要的質
16評測特徵識別的質量的指標主要有以下三
杳全率(Recall) ^正確識別的特徵數—— 人工標註的特徵數二水.
査準率(Precision) w =確另歸魏
識別的特徵總數
Fl值(Fl-measure) fi= 2p7
p + i
在用戶評論摘要的應用中,有些特徵往往只被很少的用戶評價,而在摘要篇幅受限的情況下應該優先考慮被用戶普遍關注的特徵,所以特徵識別的査準率比查全率更重要。
實驗選定的對比算法是Hu & Liu在情感分析系統FBS研究中採用的Apriori算法(Hu Minqing, Liu Bing. Mining and Summarizing Customer Reviews.SIGKDD, 2004, 168-177)。實驗數據是從電子商務網站amazon、cnet、和印inions上收集的5種商品的英文用戶評論,包括2款行動電話、l款筆記本電腦、l款MP3播放器和1款數位相機,每種商品有數百條用戶評論。
首先選取一個標註者閱讀所有用戶評論,人工標註出其中的特徵,表1第2列為各種商品人工標註的特徵數。然後比較算法識別的特徵與人工標註特徵,第3列和第7列分別為算法識別出的特徵數;統計算法識別正確的特徵數,計算查準率、査全率和F1值。實驗結果表明,本發明採用的特徵識別與過濾算法的查全率為51.9%,査準率為81.0%,而F1值為62. 7%,相較於對比算法查準率提高了24%, Fl值提高了6。/。。
表l特徵識別的質量評測產品名稱人工標 注的特 徵數FBS特徵識別與特徵過濾算法特徵 數査準率査全 率Fl值特徵 數查準 率.查全 率Fl值
行動電話183630. 6830. 5180. 589430. 8370. 4340. 571
行動電話2100640. 7500. 4800. 585610. 8030. 4900. 609
筆記本65600. 6330. 5850. 608430. 8370. 5540. 667
MP3播放器68700. 5860. 6030. 594530. 7740. 6030. 678
數位相機62570. 6320. 5810.605400.8000. 5460. 627
平均值75. 662. 80. 6570. 5530. 59648. 00.8100. 5丄90. 630
在準確的特徵識別的前提下,給定壓縮率(實驗中取1%),基於特徵的用戶
評論白動摘耍方法能夠生成覆蓋所有被識別出的特徵(查全率為51. 9%)的摘耍, 而且能夠大大縮短閱讀時間(1%),從而顯著提高用戶從海量用戶評論中獲取有
用信息的效率,這在信息爆炸式增長的網絡時代具有重大的實踐意義和應用前
旦 足。
以上僅為本發明較佳的具體實施方式
,但木發明的保護範圍並不局限於此, 本發明方法同樣適用於電子產品、電子書籍、手機和提高用戶關聯度的擴大銷 售領域。此外,任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內, 可輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。
權利要求
1.一種基於用戶評論文本特徵的自動摘要方法,其包括以下步驟步驟1,用戶評論預處理爬取並解析用戶評論網頁,得到用戶評論,然後對所述用戶評論進行預處理,得到預處理後的用戶評論;步驟2,特徵識別通過分析所述預處理後的用戶評論,從中識別出被用戶評價的特徵,然後從所述被用戶評價的特徵中,使用統計方法識別出候選特徵;步驟3,評論句分類將所述預處理後的用戶評論句按所述候選特徵分類,從而得到相應候選特徵的評論句類;步驟4,特徵過濾根據所述評論句類對所述候選特徵進行過濾,從而得到最終特徵及其所對應的候選評論句類;步驟5,摘要生成計算所述候選評論句類中每個句子的得分,抽取若干文摘句生成摘要。
2. 根據權利要求l所述的基於用戶評論文本特徵的自動摘要方法,其特徵 是步驟1中,所述爬取並解析用戶評論網頁是指,針對選取的特定的事物爬 取該事物的所有用戶評論網頁,得到爬取的用戶評論,然後解析所述爬取的用 戶評論,獲得用戶評論文本。
3. 根據權利要求1所述的基於用戶評論文本特徵的自動摘要方法,其特 徵是步驟1中,對所述用戶評論進行預處理是指,標註所述用戶評論中的所 有詞語的詞性,去除其中的停用詞,並對剩餘詞語進行詞幹抽取,得到所述預 處理後的用戶評論。
4. 根據權利要求1所述的基於用戶評論文本特徵的自動摘要方法,其特 徵是,步驟2中所述被用戶評價的特徵是指是用戶在評價某件事物時著眼的某 個側面、某個細節、某個屬性或者某個組成部分。
5. 根據權利要求l所述的基於用戶評論文本特徵的自動摘要方法,其特徵 是,步驟2中所述使用統計方法識別出候選特徵是指提取所述被用戶評價的特 徵相應的用戶評論句中的所有名詞,計算單個名詞出現的頻率以及任意兩個名 詞共現的頻率;選取出現頻率最高的單個名詞和共現頻率最高的名詞作為候選 特徵。
6. 根據權利要求l所述的基於用戶評論文本特徵的自動摘要方法,其特徵是步驟4中所述的對候選特徵進行過濾是指,根據組成特徵的名詞在評論句中 出現的相對位置,以及各個特徵之間意義上的泛化與特化關係,過濾無意義和 冗餘的候選特徵。
7. 根據權利要求l所述的基於用戶評論文本特徵的自動摘要方法,其特徵 是步驟5中所述計算所述候選評論句的得分是指根據所述候選評論句的K度、 位置和內容計算所述候選評論句的得分。
8. 根據權利要求1或7所述的基於用戶評論文本特徵的自動摘要方法,其特徵是步驟5進一步包括採用統計方法計算山表現各個評論句類主題的關鍵詞, 然後根據評論句內容與主題的契合度、評論句的長度以及評論句在整篇評論中 出現的位置,計算評論句的得分,然後抽取用戶評論句類中得分最高的若干原 評論句組織生成摘要。
9.根據權利要求8所述的基於用戶評論文本特徵的自動摘要方法,其特徵是所述採用統計方法計算出表現各個評論句類主題的關鍵詞是指,在對評論 句分類的基礎上,使用統計的方法找出每個類的關鍵詞,構造作為表示該評論 句類主題的偽句子的質心,計算基於評論句與質心的相似度;所述評論句內容與主題的契合度是指評論句與質心的相似度。
10. —種基於用戶評論文本特徵的自動摘要系統,其包括 用戶評論預處理模塊其用於爬取並解析用戶評論網頁,得到用戶評論,然後對所述用戶評論進行預處理,得到預處理後的用戶評論;特徵識別模塊其通過分析所述預處理後的用戶評論,從中識別出被用戶評價的特徵,然後從所述被用戶評價的特徵中,使用統計方法識別出候選特徵; 評論句分類模塊其將所述預處理後的用戶評論句按所述候選特徵分類,從而得到相應候選特徵的評論句類;特徵過濾模塊其根據所述評論句分類對所述候選特徵進行過濾,從而得到最終特徵及其所對應的候選評論句類;摘要生成模塊計算所述候選評論句類中每個句子的得分,抽取若干文摘句生成摘要,其中,用戶評論預處理模塊將預處理結果發送到特徵識別模塊,得到識別 出的候選特徵;將經過所述用戶評論模塊預處理後的用戶評論文本和特徵識別 模塊識別出的候選特徵送入評論句分類模塊進行分類,得到評論句類;對所述 候選特徵進行過濾得到最終特徵及其對應的候選評論句類;摘耍生成模塊以所 述候選評論句類和所述最終特徵作為輸入進行統計分析並生成摘要。
全文摘要
一種基於用戶評論文本特徵的自動摘要方法及其自動摘要系統,該方法包括以下步驟爬取並解析用戶評論網頁,並對用戶評論進行一系列預處理;從用戶評論中識別出被用戶評價的特徵;將用戶評論句按其評價的特徵進行分類,並根據評論句分類的結果過濾特徵;以及計算評論句的得分,抽取若干文摘句生成摘要。本發明能夠從大量用戶評論中準確地識別用戶關注的特徵,根據評論的特徵進行評論句分類,然後使用基於句子抽取的文本摘要方法自動生成簡潔、全面的摘要,從而幫助用戶顯著提高獲取知識的效率和質量;本發明應用於電子商務領域能夠縮短用戶挑選商品的時間,提高購物效率,改善購物體驗。
文檔編號G06F17/30GK101667194SQ200910093409
公開日2010年3月10日 申請日期2009年9月29日 優先權日2009年9月29日
發明者銘 張, 章彥星 申請人:北京大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀