新四季網

一種多文檔自動文摘方法

2023-04-26 11:06:51


專利名稱::一種多文檔自動文摘方法
技術領域:
:本發明涉及信息處理領域,進一步地,涉及到一種多文檔自動文摘方法。
背景技術:
:隨著時代的進步和經濟的發展,人們日常生活中對信息的需求量越來越大,尤其是隨著網際網路的日益普及,每天都有海量的信息在網際網路上發布和傳播。以中國網際網路的發展為例,根據北大天網提供的搜索結果,2005年底中國的網頁總數約為10.8億個,另據CNNIC的統計,截至2007年3月底,中國WAP網頁數量約為2.6億,網頁字節悽t約為800GB。網頁規模急劇增長的網際網路,在為人們提供更加豐富的信息服務的同時,也給人們帶來了如何高速有效獲取有用信息的困惑。以搜尋引擎為代表的信息檢索技術可以根據用戶的需求從海量信息中找出一批相關網頁,提高了信息獲取的效率。但這種方法很大程度上依賴於對於用戶查詢的準確理解以及查詢結果的排序策略,同時在返回的查詢結果的基礎上還需要用戶自己逐個網頁查看以獲取真正想要的信息,在用戶查詢意圖不明確時難以做到準確高效,另外受搜尋引擎採集和存儲能力的影響,很難保證無信息的遺漏。在信息極大豐富的情況下,人們迫切需要取代獲取相關信息、直接獲取有用信息甚至最有價值信息的方法,以進一步減輕信息獲取的工作量。多文檔自動文摘技術可以在未給定先驗知識的條件下對大量未知信息進行大意概括以幫助人們快速了解信息內容,可以在用戶查詢意圖不明確時對雜亂的檢索結果進行自動摘要以輔助人們加快查找速度,從而大大減輕了信息獲取的代價,進一步提高了信息獲取效率。多文檔自動文摘方法在信息融合、信息檢索、在線問答、移動內容服務和網際網路內容安全等許多領域都具有重要價值和良好的應用前景。人工生成摘要信息的方法在針對單篇文檔時比較有效,但由於代價昂貴,在面對大量文檔時顯得無能為力。通過機器學習和人工智慧的方法,從多篇文檔中自動進行重要信息的提取並形成多文檔文摘,成為重要信息高效獲取的最為現實而有效的技術手段。目前的自動文摘技術主要是基於句子級的內容分析與抽取,即從原始的文檔(或文檔集)中抽取一些關鍵的句子組成文摘,主要的文摘算法可以概括為以下三類基於機器學習的文摘方法。該方法在向量空間模型的基礎上利用分類、聚類等機器學習方法將句子劃分為不同的類別,再從每個類別中抽取出最重要的句子來構成文摘。這種方法不受應用領域的限制,但受模型和機器學習方法的限制,往往算法精度有限。搜索式的文摘方法。該方法藉助文本搜索領域的算法,針對文摘任務的特點,對所有句子構造一種特殊的查詢結果排序策略,再根據文摘長度要求選取排在前面的若干句子構成文摘。這種方法不用單獨去構造句子所在的類別信息,但受查詢結果排序策略的影響很大。基於圖排列的文摘方法。該方法先利用聚類算法把文檔集劃分為不同類別,再藉助圖模型對不同類別的文檔集進行建模,通過對同一類別中句子間關聯關係分析,計算出此類別中權重最大的句子作為最重要的句子,這些重要句子組成文摘。這種方法與基於機器學習的文摘方法相比能夠更好的進行重要句的選取,但文摘性能往往取決於聚類算法的性能。綜上所述,現有技術中自動提取文摘的能力,受各種不同因素限制,精度難以保證。
發明內容本發明的目的是提供一種多文檔自動文摘的方法,即能夠有效地進行句子類別信息的區分,又能從中抽取最重要句子,從而得到一種精度高、推廣性好的多文檔自動文摘方法。為實現上述目的,根據本發明的一個方面,提供了一種多文檔自動文摘方法,包括以下步驟1)把文檔集進行句子邊界切分,用向量空間模型表示句子;2)計算句子向量間的距離構成句子關聯矩陣;3)根據句子關聯矩陣計算初始句子權重向量;4)根據初始句子權重向量,選取權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關聯矩陣中劃分出對應句子所代表子主題所在的子矩陣,更新句子關聯矩陣;5)重複步驟3)和4),完成文摘。根據本發明的另一方面,上述步驟3)包含根據初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調整模型;步驟4)根據句子權重調整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關聯矩陣中劃分出對應句子所代表子主題所在的子矩陣,更新句子關聯矩陣。根據本發明的另一方面,上述步驟2)包含對句子關聯矩陣進行規範化,形成句子關係圖;步驟3)根據句子關係圖計算初始句子權重向量;步驟4)根據初始句子權重向量,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關係圖中劃分出對應句子所代表子主題所在的子圖,更新句子關係圖。根據本發明的另一方面,上述步驟2)包含對句子關聯矩陣進行規範化,形成句子關係圖;步驟3)根據句子關係圖計算初始句子權重向量;步驟4)根據句子權重調整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從句子關係圖中劃分出對應句子所代表子主題所在的子圖,更新句子關係圖。根據本發明的再一方面,上述步驟2)包含對句子關聯矩陣根據閾值進行約簡,然後對約簡後的矩陣進行規範化,形成句子關係圖。根據本發明的又一方面,上述根據初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調整模型包含步驟a)首先計算句子對主題的貢獻度;b)對句子在文檔中的位置進行分類,學習訓練語料,得到句子位置偏好性;c)對初始句子權重向量、句子對主題的貢獻度按線性模型進行加權,對位置偏好性按乘積進行加權,得到句子權重調整模型。根據本發明的又一方面,上述步驟a)包含計算句子與主題的相似度和句子所在文檔與主題的相似度。根據本發明的又一方面,上述步驟4)—包含根據初始句子權重向量計算調整的句子權重向量;然後從調整的句子權重向量中選取具有最大權重的結點,把此結點所對應的句子作為候選文摘句;利用圖劃分的方法,從句子關聯矩陣中劃分出與具有最大權重的結點關係密切的結點,共同構成一個子主題;從句子關聯矩陣中刪除子主題中所有結點的連邊。本發明所述方法與現有技術相比,具有以下效果在藉助圖模型進行最重要句子抽取的同時利用圖的劃分方法進行文檔中類別信息的有效區分,提高了多文檔自動文摘的精度。以下,結合附圖來詳細說明本發明的實施例,其中圖l是本發明方法的流程圖。圖2是本發明的句子位置特徵概率分布實例圖。圖3是本發明方法的圖劃分過程示意圖。具體實施方式本發明的核心思想在於,在多文檔文摘中引入句子關係圖模型和主題-子主題的隱性邏輯結構的挖掘,把文摘問題轉換為一個子主題查找和子圖劃分的迭代過程。圖1繪製了根據本發明的一個較佳實施例的多文檔文摘方法的流程圖。下面結合附圖1對本發明的具體實施方式進行詳細說明。如附圖1步驟101所示,讀入所需的文檔集,利用句子邊界檢測方法把文檔用切分出來的句子集合表示,再進行中文分詞/去停用詞和西文還原/去停用詞操作,用向量空間模型表示句子。如附圖1步驟102所示,計算句子兩兩之間的距離,這裡釆用下面的cosine7>式來度量任意兩個句子s,.和^之間的距離必,(^,^;):其中;5是兩個句子對應的詞向量表示,詞向量中每個詞的權重可以依據f/W/公式計算得到,《是句子中詞的出現頻次,&/=l。g(1.0+W/M),w是出現該詞的句子總數,w是所有句子數;H是句子向量S的範數。根據句子距離可以得到句子關聯矩陣。可以依據某一閾值糹對得到的句子關聯矩陣按以下規則進行約簡:其中,^是關聯矩陣中第i行第j列的值,本實施例中0<《)Mz>=l、」,其中,/(;),代表第i次迭代後的/(;)向量,u表示所有元素為1/n的向量,B為句子關聯矩陣或句子關係圖,c為";)的收斂閾值,其取值範圍為(0.6,1.0),收斂時的/(》,.即為句子初始權重向量。如附圖1步驟104所示,初始權重向量沒有考慮主題偏向性和摘要選取主觀性因素。因此,本發明引入了句子權重調整模型。首先計算句子對主題的貢獻度,即利用cosine公式分別計算每個句子與主題的相似度以及句子所在文檔與主題的相似度,其中針對主題無關與主題相關的文摘任務的不同,主題可以定義為多檔集的中心或是用戶指定的某個特定主題或查詢主題;為了挖掘人工文摘對長度和句式,特別是句子在文檔中的位置方面的偏好性,本發明對句子在文檔中的位置進行了如下表1的分類,然後採用概率模型擬合人工摘要選取的偏好性,在給定的訓練語料上,對長度、位置和句式特徵進行監督學習得到相應的概率分布。最後,為了綜合考慮這兩類因素對句子重要度度量的影響,本發明對圖模型中受詞特徵影響的部分按線性模型進行加權,而對受主觀偏好影響的部分在獨立性假設的前提下用乘積形式進行加權,從而得到句子權重調整模型formulaseeoriginaldocumentpage8其中(4)formulaseeoriginaldocumentpage8其中,n多文檔集中句子的個數,i為對應句子的編號,/(;)為用公式(3)求得的句子向量^的初始權重,f和^T)代表主題向量及當前句子所的貢獻度,flp(/yI&表示事先學習的各個偏好性特徵對文摘影響的概率分一l布,其中k是偏好性特徵的總數,fj代表偏好性特徵,AA表示加權係數,其取值範圍為(O,10)。表1文章中句子的位置屬性tableseeoriginaldocumentpage9以某一西文新聞語料為例,文章中句子位置偏好性特徵的概率分布如附圖2所示。附圖2中每個位置的值對應於該位置上出現文摘句的條件概率。如附圖1步驟105所示,根據句子權重調整模型,在句子關聯矩陣或句子關係圖上選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,利用圖劃分方法從句子關係圖中劃分出該句子所代表子主題所在的子矩陣或子圖,更新句子關聯矩陣或句子關係圖。具體過程如附圖3所示,先利用句子權重調整模型計算調整的句子權重向量A;然後從A中選取具有最大權重的句子Si作為候選文摘句;再利用圖劃分的方法,從關聯矩陣或關係圖上劃分出與Si關係密切的結點,這些結點與Sj—起構成一個子主題;最後從關聯矩陣或關係圖上刪除與當前子主題中所有結點的連邊,即刪除此結點在關聯矩陣或關係圖中所對應的行和列,完成子主題所在子圖的劃分和關係圖的調整。其中圖劃分方法可以選擇圖的查找算法,例如BFS,或切分算法,例如Mincut。在此步驟中,也可以直接根據初始權重向量,在句子關聯矩陣或句子關係圖上選取權重最大的結點,把此結點所對應的句子作為候選文摘句,利用圖劃分方法從句子關聯矩陣或句子關係圖中劃分出該句子所代表子主題所在的子矩陣或子圖。具體過程與上述過程類似。重複步驟103、104、105,—旦文摘長度滿足用戶設定的條件,例如文摘長度要求,或是圖中已無子圖可劃分,則算法終止,此時所有候選文摘句構成文摘,即在關係圖結點規模不斷縮減的迭代過程中,本發明完成文摘句提耳又和文摘生成的過禾呈。為了-瞼證本發明的有效性,採用文檔理解會議(DocumentUnderstandingConference)2005年的測試數據進行測試,4吏用目前通用的ROUGE工具對結果進行評測,並將ROUGE中兩種最主要的指標ROUGE-2和ROUGE-SU4的評測結果與DUC2005最好的三個系統NUS3、PolyU、IIITH-Sum和基準系統(Baseline)的評測結果進行了對比,結果如表2所示表2:在DUC2005任務上系統評測的比較結果tableseeoriginaldocumentpage10其中ROUGE-2和ROUGE-SU4的得分越高,文摘效果越好,即與人工標準文摘更接近。表2的評測結果表明,本發明的方法表現優異,在兩個主要評價指標上都優於國際上最好的評測系統以及基準系統。提供所述公開的實施例子的上述描述,使得本領域的技術人員能夠製造或者使用本發明。對於本領域的技術人員來說,這些實施例的各種修改是顯而易見的,並且這裡定義的總體原理也可以在不脫離本發明的範圍的基礎上應用於其他實施例。因此,本發明並不限於這裡示出的實施例,而是與符合這裡公開的原理和新穎特徵的最廣範圍相一致。權利要求1.一種多文檔自動文摘方法,包括下列步驟1)把文檔集進行句子邊界切分,用向量空間模型表示句子;2)計算所述句子向量間的距離構成句子關聯矩陣;3)根據所述句子關聯矩陣計算初始句子權重向量;4)根據所述初始句子權重向量,選取權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關聯矩陣中劃分出所述對應句子所代表子主題所在的子矩陣,更新句子關聯矩陣;5)重複步驟3)和4),完成文摘。2.如權利要求l所述的方法,其特徵在於所述步驟3)包含根據所述初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調整模型;所述步驟4)根據所述句子權重調整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關聯矩陣中劃分出所述對應句子所代表子主題所在的子矩陣,更新句子關聯矩陣。3.如權利要求l所述的方法,其特徵在於所述步驟2)包含對所述句子關聯矩陣進行規範化,形成句子關係圖;所述步驟3)根據所述句子關係圖計算初始句子權重向量;所述步驟4)根據所述初始句子權重向量,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關係圖中劃分出所述對應句子所代表子主題所在的子圖,更新句子關係圖。4.如權利要求2所述的方法,其特徵在於所述步驟2)包含對所述句子關聯矩陣進行規範化,形成句子關係圖;所述步驟3)根據所述句子關係圖計算初始句子權重向量;所述步驟4)根據所述句子權重調整模型,選取當前權重最大的結點,把此結點所對應的句子作為候選文摘句,從所述句子關係圖中劃分出所述對應句子所代表子主題所在的子圖,更新句子關係圖。5.如權利要求3或4所述的方法,其特徵在於所述步驟2)包含對所述句子關聯矩陣根據閾值進行約筒,然後對約簡後的矩陣進行規範化,形成句子關係圖。6.如權利要求2或4所述的方法,其特徵在於所述根據所述初始句子權重向量、句子對主題的貢獻度和句子位置偏好性計算句子權重調整模型包含步驟1)首先計算所述句子對主題的貢獻度;2)對所述句子在所述文檔中的位置進行分類,學習訓練語料,得到所述句子位置偏好性;3)對所述初始句子權重向量、所述句子對主題的貢獻度按線性模型進行加權,對位置偏好性按乘積進行加權,得到所述句子權重調整模型。7.如權利要求6所述的方法,其特徵在於所述步驟1)包含計算所述句子與主題的相似度和所述句子所在文檔與主題的相似度。8.如權利要求1中所述的方法,其特徵在於,所述步驟4)包含根據所述初始句子權重向量計算調整的句子權重向量;然後從所述調整的句子權重向量中選取具有最大權重的結點,把此結點所對應的句子作為候選文摘句;利用圖劃分的方法,從所述句子關聯矩陣中劃分出與所述具有最大權重的結點關係密切的結點,共同構成一個子主題;從所述句子關聯矩陣中刪除所述子主題中所有結點的連邊。全文摘要本發明公開了一種利用圖劃分方法來自動提取多文檔文摘的方法,包括以下步驟進行句子邊界切分,把文檔用切分出來的句子表示;將句子表示成向量,計算句子兩兩間的相似度構成句子關聯矩陣,並按指定的閾值對關聯矩陣進行約簡,同時進行規範化處理;在多文檔文摘中引入主題的隱性邏輯結構的挖掘,將文檔集按主題劃分成不同的隱性子主題,從而把文摘任務轉化為對子主題的選取和抽取過程;利用圖劃分的方法,既從全局特性上保證句子所在子主題的重要度,又從局部特性上保證不同子主題之間內容的低冗餘性,從而有效提高了文摘質量。文檔編號G06F17/27GK101231634SQ20071030851公開日2008年7月30日申請日期2007年12月29日優先權日2007年12月29日發明者瑾張,王小磊,許洪波申請人:中國科學院計算技術研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀