新四季網

摘要生成裝置和摘要生成方法

2023-05-29 20:45:01 2

專利名稱:摘要生成裝置和摘要生成方法
技術領域:
本發明涉及摘要生成裝置和摘要生成方法。
背景技術:
為了電子書籍的檢索等目的而應用從表示文章的文章數據生成表示摘要的摘要數據的技術。作為摘要生成的步驟,例如有對於構成文章的各句根據各種各樣的基準計算分值而抽出分值較高的句子的步驟。例如JP特開2003-281164號公報記載有利用單詞詞頻作為分值計算的基準的方式。這是因為詞頻較高的單詞被推測為文章中重要的單詞。文章由多個句子構成,句子由多個單詞構成。並且,在各個單詞中存在不只有一個詞義而具有多個詞義的單詞。但是,在JP特開2003-281164號公報記載的方法中,在利用單詞詞頻時未考慮單詞的詞義。關於具有多個詞義的單詞,即使詞頻高也存在與各詞義對應的詞頻低的情況。因此,具有多個詞義的單詞即使詞頻高也可能並非重要單詞。因此,按照JP特開2003-281164 號公報記載的方法,對於具有多個詞義的單詞不加考慮地僅基於各單詞的詞頻計算分值, 即使抽出了句子也無法生成適當的摘要。

發明內容
本發明為了解決上述課題而做出,其目的在於提供摘要生成裝置和摘要生成方法,通過對具有多個詞義的單詞進行考慮而能夠生成適當的摘要。本發明是摘要生成裝置,其特徵在於,具有存儲文章數據的文章數據存儲部;詞頻統計部,對由上述文章數據表示的文章中的多個單詞,基於該文章數據統計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;句子選擇部,基於上述文章數據和表示上述文章中的單詞和副單詞中通過上述詞頻統計部統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。根據本發明,詞頻統計部,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻。並且,句子選擇部,基於表示文章中的單詞和副單詞中通過詞頻統計部統計的詞頻最高者的數據,選擇句子來生成摘要數據。因此,本發明的摘要生成裝置,能夠生成考慮了具有多個詞義的單詞的適當的摘要。並且本發明的摘要生成裝置,其特徵在於,上述詞頻統計部具有存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據的詞典數據存儲部;基於上述文章數據和上述詞典數據判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;基於上述文章數據和上述詞典數據從包含通過上述單詞判斷部判斷為具有多個
4詞義的單詞的句子中檢出與該單詞關聯的搭配語的搭配語檢出部;出現數取得部,基於上述文章數據和上述詞典數據,對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。並且根據本發明,能夠基於在詞典數據存儲部中存儲的詞典數據,通過搭配語檢出部檢出與具有多個詞義的單詞關聯的搭配語。並且,能夠通過出現數取得部對具有多個詞義的單詞,按照與搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理, 取得在文章中出現的該副單詞的數量作為詞頻。並且本發明的摘要生成裝置,其特徵在於,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的前一句和後一句的至少一方中,檢測與該單詞關聯的搭配語。並且根據本發明,搭配語檢出部從包含具有多個詞義的單詞的句子的前一句和後一句的至少一方中檢出搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在搭配語,對於該單詞,也能夠按照與搭配語對應的每個詞義作為不同的副單詞處理,從而能夠生成適當的摘要。並且本發明的摘要生成裝置,其特徵在於,上述詞典數據將單詞與跟該單詞對應的同義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現的該第二副單詞的數量作為詞頻。並且根據本發明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢出與該單詞的同義詞關聯的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對於該單詞,也能夠按照與同義詞的搭配語對應的每個詞義作為不同的第二副單詞處理,從而能夠生成適當的摘要。並且,即使在包含具有多個詞義的單詞的句子的前一句和後一句中不存在該單詞的搭配語,對於該單詞,也能夠按照與同義詞的搭配語對應的詞義作為不同的第二副單詞處理,從而能夠生成適當的摘要。並且本發明的摘要生成裝置,其特徵在於,上述詞典數據將單詞與跟該單詞對應的近義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的近義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述近義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在上述文章中出現的該第三副單詞的數量作為詞頻。並且根據本發明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢出與該單詞的近義詞關聯的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對於該單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而能夠生成適當的摘要。並且,即使在包含具有多個詞義的單詞的句子的前一句和後一句中不存在該單詞的搭配語,或者不存在與該單詞的同義詞關聯的搭配語,對於該單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而能夠生成適當的摘要。並且本發明的摘要生成裝置,其特徵在於,上述詞典數據將單詞與跟該單詞對應的反義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的反義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述反義詞關聯的搭配語的單詞,按照與該搭配語對應的詞義作為不同的第四副單詞處理,取得在上述文章中出現的該第四副單詞的數量作為詞頻。並且根據本發明,搭配語檢出部從包含具有多個詞義的單詞的句子中檢測與該單詞的反義詞關聯的搭配語。因此,即使包含具有多個詞義的單詞的句子中不存在該單詞的搭配語,對於該單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而能夠生成適當的摘要。並且,即使在包含具有多個詞義的單詞的句子的前一句和後一句中不存在該單詞的搭配語,或者不存在與該單詞的同義詞和近義詞關聯的搭配語,對於該單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而能夠生成適當的摘要。並且本發明的摘要生成方法,是從文章數據生成摘要數據的摘要生成裝置生成摘要數據時的摘要生成方法,其特徵在於,包含以下步驟詞頻統計步驟,對由上述文章數據表示的文章中的多個單詞,基於該文章數據統計各單詞的詞頻,當上述文章中的單詞有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;句子選擇步驟,基於上述文章數據和表示上述文章中的單詞和副單詞中在上述詞頻統計步驟中統計的詞頻最高者的數據選擇上述文章中的多個句子,從而生成摘要數據。並且根據本發明,在詞頻統計步驟中,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻。並且,在句子選擇步驟中,基於表示文章中的單詞和副單詞中通過詞頻統計部統計的詞頻最高者的數據選擇句子來生成摘要數據。因此,採用本發明的摘要生成方法,能夠生成考慮了具有多個詞義的單詞的適當的摘要。並且本發明的摘要生成方法,其特徵在於,上述詞頻統計步驟,包含基於上述文章數據以及、將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據,判斷上述文章中的各單詞是否具有多個詞義的單詞判斷步驟;基於上述文章數據和上述詞典數據,從包含在上述單詞判斷步驟中判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯的搭配語的搭配語檢出步驟;出現數取得步驟,基於上述文章數據和上述詞典數據,對在上述單詞判斷步驟中判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對在上述單詞判斷步驟中判斷為具有多個詞義的單詞,按照與在上述搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。並且根據本發明,能夠基於詞典數據,在搭配語檢出步驟中,檢測與具有多個詞義的單詞關聯的搭配語。並且,能夠在出現數取得步驟中,對具有多個詞義的單詞,按照與在搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在文章中出現的該副單詞的數量作為詞頻。


本發明的目的、特色和優點通過下述詳細說明和附圖能夠更加明確。圖1為基於功能表示摘要生成裝置的構成的框圖。圖2為表示相對於文章數據的摘要數據生成處理的流程圖。
具體實施例方式以下參照附圖對本發明的優選實施方式進行詳細說明。以下對本發明實施方式的摘要生成裝置100進行說明。摘要生成裝置100是從文章數據生成摘要數據的裝置。圖1為功能性表示摘要生成裝置100的構成的框圖。摘要生成裝置100通過 PC (Personal Computer)等具備的現有公知的控制運算裝置和存儲裝置實現,在功能上包含文章數據存儲部10、詞頻統計部20、句子選擇部30。詞頻統計部20包含前處理部21、詞典數據存儲部22、單詞判斷部23、搭配語檢出部24、出現數取得部25。文章數據存儲部10具有存儲作為生成摘要數據的對象的文章數據的功能。通過文章數據表示的文章(以下有時簡稱為「文章」)例如是論文或小說等。詞典數據存儲部22具有存儲詞典數據的功能。詞典數據為關於各種單詞的總括性數據。具體而言設定為,在詞典數據中對各單詞關聯該單詞是否具有多個詞義的信息。並且設定為,在詞典數據中,對具有多個詞義的單詞關聯多個詞義和與該多個詞義各自對應的搭配語。這裡,搭配語是關於具有多個詞義的單詞的各詞義,作為表示該詞義的單詞在句中使用該單詞時,與其它詞義比較,通常與該單詞一起在相同句中使用的可能性高的單詞。例如,「打」這個中文單詞具有「買」、「玩」、「攪拌」、「裝訂」、「浸泡」等詞義。在與該單詞「打」一起使用中文單詞「酒」時,與其它詞義比較,表示「買」的詞義的可能性通常較高。因此,單詞「酒」在詞典數據中設定為與詞義「買」對應的搭配語。並且,對於一個單詞,一個搭配語僅對應一個詞義。因此,在單詞「酒」設定為對應詞義「買」的搭配語的情況下,不會作為與「攪拌」、「浸泡」等其它詞義對應的搭配語來設定。搭配語可以利用Wordnet或hownet等資料庫,根據人的判斷在詞典數據中設定, 並且也可以使輸入了電子報紙或網站等的文章數據的信息處理裝置判斷來設定搭配語。例如,使信息處理裝置判斷與單詞「打」的詞義「攪拌」對應的搭配語時,從通過文章數據表示的文章中檢測包含單詞「攪拌」的句子,按照在包含「攪拌」的單詞的句子中出現的次數的降序將規定個數(例如100個)的單詞判斷為與單詞「打」的詞義「攪拌」對應的搭配語。
7並且,雖然對於與一個詞義對應地設定的搭配語的數量沒有特別限制,但是優選為50個以上。並且,對於具有多個詞義的單詞,在詞典數據中,對該單詞關聯設定表示與其它詞義相比一般情況下最常用的詞義的信息。與其它詞義相比可能最常用的詞義,根據以報紙等為基礎的統計進行選擇。並且,在詞典數據中,對各單詞關聯設定同義詞、近義詞和反義詞。並且,在詞典數據中,也對各單詞關聯設定表示該單詞的詞類的信息。對於詞頻統計部20、前處理部21、單詞判斷部23、搭配語檢出部對、出現數取得部 25和句子選擇部30的功能,按照針對文章數據的摘要數據生成處理進行說明。圖2為表示針對文章數據的摘要數據生成處理的流程圖。摘要數據生成處理按照詞頻統計步驟Si、句子選擇步驟S2的順序進行。在詞頻統計步驟Sl中,詞頻統計部20對通過文章數據表示的文章中的多個單詞, 基於該文章數據統計各單詞的詞頻。在詞頻統計步驟Sl中,當文章中的單詞具有多個詞義時,詞頻統計部20按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻。在句子選擇步驟S2中,通過句子選擇部30,基於文章數據和表示文章中的單詞和副單詞中在詞頻統計步驟Sl中統計的詞頻最高者的數據,選擇文章中的多個句子而生成摘要數據。詞頻統計步驟Si,具體而言,按照前處理步驟S1-1、單詞判斷步驟S1-2、搭配語檢出步驟S1-3、出現數取得步驟S1-4的順序進行。在前處理步驟Sl-I中,通過前處理部21 對文章數據進行前處理。具體而言,作為前處理,首先根據文章中的句號、終止符,將文章分割為構成該文章的各個句子。接著,依照詞典數據將各個句子分割為構成各句的各單詞。在單詞判斷步驟S1-2中,通過單詞判斷部23,基於文章數據和詞典數據,判斷文章中的各單詞是否具有多個詞義。當作為判斷對象的單詞,在詞典數據中沒有設定,或者與不具有多個詞義的信息關聯時,判斷為不具有多個詞義,當與具有多個詞義的信息關聯時, 判斷為具有多個詞義。在搭配語檢出步驟S1-3中,通過搭配語檢出部對,基於文章數據和詞典數據,從包含在單詞判斷步驟S1-2中判斷為具有多個詞義的單詞(以下有時稱為「對象單詞」)的句子(以下稱為「本句」)中檢出與該對象單詞關聯的搭配語。在本實施方式中,當未從本句中檢出搭配語時,通過搭配語檢出部M,從本句的前一句(以下稱為「前句」)中檢測搭配語。並且,在本實施方式中,當未從前句中檢出搭配語時,通過搭配語檢出部M,從本句的後一句(以下稱為「後句」)中檢測搭配語。並且,作為本發明的其他實施方式,可以構成為, 當未從本句中檢出搭配語時,從後句中檢測搭配語,此時如果沒有從後句中檢出搭配語,則從前句中檢測搭配語。並且在本實施方式中,當在本句中、前句中和後句中均未檢出與對象單詞關聯的搭配語時,通過搭配語檢出部M,基於詞典數據,從本句中檢測與該對象單詞的同義詞關聯的搭配語。如果在詞典數據中相對於對象單詞沒有設定同義詞,或者在詞典數據中沒有設定與該同義詞對應的搭配語,或者未從本句中檢出與該同義詞關聯的搭配語,則通過搭配語檢出部M,基於詞典數據,從本句中檢測與該對象單詞的近義詞關聯的搭配語。如果在詞典數據中相對於對象單詞沒有設定近義詞,或者在詞典數據中沒有設定與該近義詞對應的搭配語,或者未從本句中檢出與該近義詞關聯的搭配語,則通過搭配語檢出部M,基於詞典數據,從本文中檢測與該對象單詞的反義詞關聯的搭配語。並且在本實施方式中,如果在詞典數據中相對於對象單詞沒有設定反義詞,或者在詞典數據中沒有設定與該反義詞對應的搭配語,或者沒有從本句中檢出與該反義詞關聯的搭配語,則判斷為通過搭配語檢出部M,基於詞典數據,檢出了與其它詞義相比可能最常用的詞義對應的搭配語,進行此後的處理。在詞典數據中,相對於對象單詞,沒有設定表示與其它詞義相比可能最常用的詞義的信息時,則通過搭配語檢出部M判斷為本句中不存在對象單詞,進行此後的處理。在出現數取得步驟S1-4中,出現數取得部25,基於文章數據和詞典數據,對在單詞判斷步驟S1-2中判斷為不具有多個詞義的單詞,取得在文章中出現的該單詞的數量作為詞頻。因此,對在單詞判斷步驟S1-2中判斷為不具有多個詞義的單詞,在單詞判斷步驟 S1-2的處理之後,立即進行出現數取得步驟S1-4的處理。另外,在出現數取得步驟S1-4中,出現數取得部25,基於文章數據和詞典數據,對在單詞判斷步驟S1-2中判斷為具有多個詞義的單詞,按照與在搭配語檢出步驟S1-3中檢出的該單詞的搭配語對應的每個詞義作為不同的第一副單詞處理,取得在文章中出現的該第一副單詞的數量作為詞頻。另外,在出現數取得步驟S1-4中,出現數取得部25,基於文章數據和詞典數據,對在搭配語檢出步驟S1-3中檢出了與對象單詞的同義詞關聯的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在文章中出現的該第二副單詞的數量作為詞頻。另外,在出現數取得步驟S1-4中,出現數取得部25,基於文章數據和詞典數據,對在搭配語檢出步驟S1-3中檢出了與對象單詞的近義詞關聯的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在文章中出現的該第三副單詞的數量作為詞頻。另外,在出現數取得步驟S1-4中,出現數取得部25,基於文章數據和詞典數據,對在搭配語檢出步驟S1-3中檢出了與對象單詞的反義詞關聯的搭配語的該對象單詞,按照與該搭配語對應的每個詞義作為不同的第四副單詞處理,取得在文章中出現的該第四副單詞的數量作為詞頻。例如,假設在漢語文章中含有「我打酒」的漢語句子。該句子由單詞「我」、「打」和 「酒」構成。並且,「打」這個中文單詞,如上所述具有「買」、「玩」、「攪拌」、「裝訂」、「浸泡」的意思。在詞典數據中,關於單詞「打」,與詞義「買,,對應地關聯搭配語「酒」時,在出現數取得步驟S1-4中,單詞「打」作為「意思是『買』的『打』」的第一副單詞處理,判定為出現一個「意思是『買』的『打』」的副單詞。對於文章中的其它單詞「打」,也作為「意思是『買』的 『打』」的副單詞處理時,判定為出現一個「意思是『買』的『打』 」的副單詞。並且,判定的數的合計值,作為「意思是『買』的『打』 」的副單詞的出現數量取得,並將取得的出現數作為詞頻。另外,例如在詞典數據中,關於「A」這個單詞,設定「A1」、「A2」和「A3」等詞義,設定「B」是同義詞、「C」是近義詞、「D」是反義詞,對同義詞「B」設定「Β1」、「Β2」等詞義,對近義詞「C」設定「C1」、「C2」的詞義,對反義詞「D」設定「D1」、「D2」、「D3」的詞義,和詞義「Al」、 詞義"A2 」、詞義"A3 」、詞義「Bi,,、詞義"B2 」、詞義"Cl 」、詞義"C2 」、詞義"Dl,,、詞義"D2 」、詞義「D3』,分別對應地,設定「a」、「b,,、「c」、「d」、「e」、「f 」、「 g」、「h」、「 i 」、「 j 』,的搭配語時的處
理如下所示。並且,此時假設對單詞「A」設定一般情況下最常用的詞義為「Al」。此時,首先對於單詞「A」,從本句、前句和後句中的任一個檢測搭配語「a」、「b」、 「C」的任一個。例如,在本句中檢出了搭配語「b」時,單詞「A」作為「意思是『A2』的『A』」 的第一副單詞處理,判定為出現一個「意思是『A2』的『A』」的第一副單詞。並且,在本實施方式中,從本句中(或者前句中或後句中),檢出關於對象單詞與兩個以上的詞義分別對應的搭配語時,基於詞典數據,該對象單詞作為表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理,判定為出現一個表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞。例如,在本句中檢出了搭配語「a」、「c」時,對象單詞「A」作為「意思是『Al』的『A』」的第一副單詞處理,判定為出現一個「意思是『Al』的 『A』」的第一副單詞。對於對象單詞,沒有設定表示與其它詞義相比一般情況下最常用的詞義的信息時,作為該對象單詞在本句中不存在的情況處理,未取得出現數。在本句中、前句和後句中均未檢出與對象單詞「A」對應的搭配語「a」、「b」、「c」的任一個時,從本句中檢出了與同義詞「B」對應的搭配語「d」、「e」的任一個。例如,在本句中檢出搭配語「e」時,單詞「A」作為「具有與『B2』基本相同意思的『A』」這樣的第二副單詞處理,判定為出現一個「具有與『B2』基本相同意思的『A』」這樣的第二副單詞。並且,在本實施方式中,從本句中對於同義詞檢出了與兩個以上的詞義分別對應的搭配語時,基於詞典數據,對象單詞作為表示與同義詞的詞義中一般情況下最常用的詞義基本相同的意思的第二副單詞處理,判定為出現一個表示與同義詞的詞義中一般情況下最常用的詞義基本相同的意思的第二副單詞。關於同義詞,沒有設定表示與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現數。在本句中,與同義詞「B」對應的搭配語「d」、「e」均未檢出時,從本句中檢測與近義詞「C」對應的搭配語「f」、「g」的任一個。例如,在本句中檢出搭配語「f」時,單詞「A」作為 「具有與『Cl』類似意思的『A』」這樣的第三副單詞處理,判定為出現一個「具有與『Cl』基本相同意思的『A』」這樣的第三副單詞。並且,在本實施方式中,從本句中,對於近義詞檢出了與兩個以上的詞義分別對應的搭配語時,基於詞典數據,對象單詞作為表示與近義詞的詞義中一般情況下最常用的詞義類似的意思的第三副單詞處理,判定為出現一個表示與近義詞的詞義中一般情況下最常用的詞義類似的意思的第三副單詞。對於近義詞,沒有設定與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現數。在本句中,與近義詞「C」對應的搭配語「f」、「g」均未檢出時,從本句中檢測與反義詞「0」對應的搭配語「1!」、「1」、「」」的任一個。例如,在本句中檢出搭配語「j」時,單詞「A」 作為「具有與『D3』相反意思的『A』」這樣的第四副單詞處理,判定為出現一個「具有與『D3』 相反意思的『A』」這樣的第四副單詞。並且,在本實施方式中,從本句中,對於反義詞檢出了與兩個以上的詞義分別對應的搭配語時,基於詞典數據,對象單詞作為表示與反義詞的詞義中一般情況下最常用的詞義相反意思的第四副單詞處理,判定為出現一個表示與反義詞的詞義中一般情況下最常用的詞義相反意思的第四副單詞。對於反義詞,沒有設定與其它詞義相比一般情況下最常用的詞義的信息時,作為對象單詞在本句中不存在的情況處理,未取得出現數。在本句中,與反義詞「0」對應的搭配語「1!」、「1」、「」」均未檢出時,基於詞典數據, 對象單詞作為表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理,判定為出現一個表示該對象單詞的詞義中一般情況下最常用的詞義的第一副單詞。對於對象單詞,沒有設定與其它詞義相比可能最常用的詞義的信息時,作為該對象單詞在本句中不存在的情況處理,未取得出現數。這樣,在本實施方式中,按照(1)從本句中檢出對象單詞的搭配語,(2)未從本句中檢出對象單詞的搭配語時,從前句中和後句中檢出對象單詞的搭配語,(3)從前句中和後句中未檢出對象單詞的搭配語時,從本句中檢出同義詞的搭配語,(4)未檢出同義詞的搭配語時,從本句中檢出近義詞的搭配語,(5)未檢出近義詞的搭配語時,從本句中檢出反義詞的搭配語,(6)未檢出反義詞的搭配語時,作為表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞處理這樣的順序,進行詞頻統計的處理。但是,作為本發明,不限於此,可以適宜地設定是否分別進行從前句中和後句中檢出對象單詞的搭配語的處理、檢出同義詞的搭配語的處理、檢出近義詞的搭配語的處理、檢出反義詞的搭配語的處理、作為表示對象單詞的詞義中一般情況下最常用的詞義的第一副單詞的處理,或者也能夠適宜地設定各自執行的順序。並且,在本實施方式中,可以設置停止詞。停止詞是在出現數取得部25進行的出現數取得處理中作為句中不存在的情況處理的單詞,例如是前置詞或後置詞等。對於停止詞不統計詞頻。並且,雖然在本實施方式中,出現數取得部25將出現數直接作為詞頻,但是作為本發明的其它實施方式,出現數取得部25也可以構成為將出現數乘以與單詞的詞類對應的所定係數所得值作為詞頻。例如,在單詞或者第一 第四副單詞為名詞時將出現數乘以 1. 5的值作為詞頻,為動詞時將出現數乘以0. 8的值作為詞頻等。當上述這樣的詞頻統計步驟Sl的處理結束後,在句子選擇步驟S2中,通過句子選擇部30,基於文章數據和表示文章中的單詞和第一 第四副單詞中在出現數取得步驟 S1-4中統計的詞頻最高者的數據,選擇文章中的多個句子。然後,句子選擇部30生成表示將選擇的句子進行概括的摘要的摘要數據。例如,『 」這個單詞的詞頻為10,「F」這個單詞的詞頻為20,「意思是A2的A」這樣的第一副單詞的詞頻為30時,詞頻最高者是「意思是『A2』的『A』」這樣的第一副單詞。使用表示該第一副單詞的數據,例如句子選擇部30選擇包含「意思是『A2』的『A』」的所有句子,將僅由包含「意思是『A2』的『A』」的句子構成的文章作為摘要,生成摘要數據。並且,句子選擇部30也可以構成為一併使用詞頻以外的信息進行句子的選擇。作為詞頻以外的信息,有各句在文章整體中的位置信息、用戶設定關鍵字信息、文章題目所含單詞信息、提示詞(Cue word)信息等。提示詞是「也就是說」、「即」、「總之」等表示要旨的句子中所含的單詞。例如構成為,在一併使用詞頻以外的信息進行句子的選擇時,句子選擇部30計算各句的分值進行句子的選擇。分值計算的基準,例如在使用各句在文章整體中的位置信息時,是將文章整體分割為文章前半部和文章後半部,對文章前半部中的句子賦予1分,對文章後半部中的句子賦予2分等。並且,在使用用戶設定的關鍵字信息時,是對包含該關鍵字
11信息表示的單詞的句子賦予10分等,在使用文章題目中所含單詞信息時,是對包含該單詞信息表示的單詞的句子賦予10分等,在使用提示詞信息時,是對包含該提示詞信息表示的單詞的句子賦予10分等。以這種基準計算各句的分值的同時,也計算以詞頻為基準的分值。例如,對包含詞頻第一高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予10分,對包含詞頻第二高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予5分,對包含詞頻第三高的單詞(或者第一 第四副單詞)的句子,對每一個該單詞(或者第一 第四副單詞)賦予1分等。然後,句子選擇部30能夠按照以全部的基準算出的分值的合計值的降序,選擇上位5個句子,生成摘要數據。根據本發明的摘要生成裝置100,詞頻統計部20,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞(第一 第四副單詞)處理,統計與各副單詞對應的詞頻,句子選擇部30,基於表示文章中的單詞和副單詞中通過詞頻統計部統計的詞頻最高者的數據,生成摘要數據,因此能夠生成考慮了具有多個詞義的單詞的適當的摘要。並且在本實施方式中,基於在詞典數據存儲部22中存儲的詞典數據,通過搭配語檢出部M,能夠檢出與具有多個詞義的單詞關聯的搭配語。並且,能夠通過出現數取得部 25,對於具有多個詞義的單詞,按照與搭配語檢出部M檢出的搭配語對應的每個詞義作為不同的副單詞(第一 第四副單詞)處理,取得在文章中出現的該副單詞的數量作為詞頻。並且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞對應的搭配語時,從前句中和後句中檢出該搭配語。因此,即使在本句中不存在與對象單詞對應的搭配語,也能夠對該對象單詞按照與搭配語對應的每個詞義作為不同的第一副單詞處理,從而生成適當的摘要。並且在本實施方式中,搭配語檢出部M,在從本句、前句和後句中均未檢出與對象單詞對應的搭配語時,從本句中檢測與該單詞的同義詞關聯的搭配語。因此,即使在本句、 前句和後句中不存在與對象單詞對應的搭配語,對於該對象單詞,也能夠按照與同義詞的搭配語對應的每個詞義作為不同的第二副單詞處理,從而生成適當的摘要。並且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞的同義詞對應的搭配語時,從本句中檢測與該單詞的近義詞關聯的搭配語。因此,即使在本句中不存在與對象單詞和該對象單詞的同義詞對應的搭配語,對於該對象單詞,也能夠按照與近義詞的搭配語對應的每個詞義作為不同的第三副單詞處理,從而生成適當的摘要。並且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞的近義詞對應的搭配語時,從本句中檢測與該單詞的反義詞關聯的搭配語。因此,即使在本句中不存在與對象單詞、該對象單詞的同義詞以及近義詞對應的搭配語,對於該對象單詞,也能夠按照與反義詞的搭配語對應的每個詞義作為不同的第四副單詞處理,從而生成適當的摘要。並且在本實施方式中,搭配語檢出部M,在從本句中未檢出與對象單詞的反義詞對應的搭配語時,關於對象單詞,判斷為在本句中檢出了與其它詞義相比一般情況下最常用的詞義對應的搭配語。因此,在本句中,即使不存在與對象單詞以及該對象單詞的同義詞、近義詞和反義詞對應的搭配語,對於該對象單詞,也能夠作為表示與該對象單詞的詞義中其它詞義相比一般情況下最常用的詞義的第一副單詞處理,從而能夠生成適當的摘要。
摘要生成裝置100,可以通過在現有公知的信息處理裝置中存儲使該信息處理裝置作為摘要生成裝置100發揮功能的程序即摘要生成程序而實現。該摘要生成程序可以記錄在現有公知的計算機可讀取的記錄介質中。通過上述摘要生成程序記錄在記錄介質中,可以便攜地提供記錄用於執行摘要生成裝置100進行的各種處理的程序代碼(執行程序、中間代碼程序、源程序等)的記錄介質。並且,記錄介質也可以是微型計算機進行處理的存儲器,例如R0M(Read Only Memory)等程序介質,或者通過插入計算機作為外部存儲裝置具有的程序讀取裝置進行讀取的程序介質。在記錄介質中存儲的程序,可以是微處理器訪問記錄介質執行的方式,或者也可以是微處理器從記錄介質讀出程序代碼並且將讀出的程序代碼下載到微型計算機的程序存儲區域來執行該程序的方式。該下載用程序預先存儲於主體裝置。這裡,上述程序介質是構成為能夠與本體分離的記錄介質,可以是包含磁帶、盒帶等磁帶系、軟盤、硬碟等磁碟、CD-ROM (Compact Disc-Read Only Memory)、 MO(Magneto Optical disc)、MD(Mini Disc)、DVD(Digital Versatile Disc)等光碟的盤系、ICantegrated Circuit)卡(包含存儲卡)、光卡等卡系,或者基於掩模ROM、 EPROM(Erasable Programmable Read Only Memory) > EEPROM(ElectricalIy Erasable Programmable Read Only Memory)、快閃記憶體ROM等的半導體存儲器的固定地保持程序代碼的介質。另外,只要是計算機能夠連接包含網際網路的通信網絡的系統構成,則記錄介質也可以是以從通信網絡下載程序代碼的方式流動地保持程序代碼的介質。並且,當這樣從通信網絡下載程序時,可以將該下載用程序預先存儲於本體裝置,或者從其它記錄介質安裝。 另外,上述摘要生成程序能夠以上述程序代碼通過電子傳輸而具體化的嵌入載波的計算機數據信號的方式實現。本發明可以在不脫離其精神或者主要特徵的範圍內以其它方式實施。因此,上述實施方式僅為各方面的例示,本發明範圍由權利要求範圍決定而不限於說明書正文。並且從屬於權利要求範圍的變形或變更均落入本發明範圍。
權利要求
1.一種摘要生成裝置,其特徵在於,具有 存儲文章數據的文章數據存儲部;詞頻統計部,對由上述文章數據表示的文章中的多個單詞,基於該文章數據統計各單詞的詞頻,當上述文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;句子選擇部,基於上述文章數據和表示上述文章中的單詞和副單詞中通過上述詞頻統計部統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。
2.根據權利要求1所述的摘要生成裝置,其特徵在於, 上述詞頻統計部具有存儲將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據的詞典數據存儲部;基於上述文章數據和上述詞典數據判斷上述文章中的各單詞是否具有多個詞義的單詞判斷部;基於上述文章數據和上述詞典數據從包含通過上述單詞判斷部判斷為具有多個詞義的單詞的句子中檢測與該單詞關聯的搭配語的搭配語檢出部;出現數取得部,基於上述文章數據和上述詞典數據,對通過上述單詞判斷部判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對通過上述單詞判斷部判斷為具有多個詞義的單詞,按照與通過上述搭配語檢出部檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。
3.根據權利要求2所述的摘要生成裝置,其特徵在於,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含上述判斷為具有多個詞義的單詞的句子的上下文中,檢出與該單詞關聯的搭配語。
4.根據權利要求2或3所述的摘要生成裝置,其特徵在於, 上述詞典數據將單詞與跟該單詞對應的同義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的同義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述同義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第二副單詞處理,取得在上述文章中出現的該第二副單詞的數量作為詞頻。
5.根據權利要求2 4中任一項所述的摘要生成裝置,其特徵在於, 上述詞典數據將單詞與跟該單詞對應的近義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的近義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述近義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第三副單詞處理,取得在上述文章中出現的該第三副單詞的數量作為詞頻。
6.根據權利要求2 5中任一項所述的摘要生成裝置,其特徵在於, 上述詞典數據將單詞與跟該單詞對應的反義詞建立關聯,上述搭配語檢出部構成為,當未檢出上述搭配語時,從包含該單詞的句子中檢測與上述判斷為具有多個詞義的單詞對應的反義詞關聯的搭配語,上述出現數取得部構成為,對通過上述搭配語檢出部檢出與上述反義詞關聯的搭配語的單詞,按照與該搭配語對應的每個詞義作為不同的第四副單詞處理,取得在上述文章中出現的該第四副單詞的數量作為詞頻。
7.一種摘要生成方法,是從文章數據生成摘要數據的摘要生成裝置生成摘要數據時的摘要生成方法,其特徵在於,包含以下步驟詞頻統計步驟,對由上述文章數據表示的文章中的多個單詞,基於該文章數據統計各單詞的詞頻,當上述文章中的單詞有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻;句子選擇步驟,基於上述文章數據和表示上述文章中的單詞和副單詞中在上述詞頻統計步驟中統計的詞頻最高者的數據,選擇上述文章中的多個句子,從而生成摘要數據。
8.根據權利要求7所述的摘要生成方法,其特徵在於,上述詞頻統計步驟包含基於上述文章數據以及、將單詞、與該單詞對應的多個詞義、與該多個詞義各自對應的搭配語關聯起來的詞典數據,判斷上述文章中的各單詞是否具有多個詞義的單詞判斷步驟;基於上述文章數據和上述詞典數據,從包含在上述單詞判斷步驟中判斷為具有多個詞義的單詞的句子中檢出與該單詞關聯的搭配語的搭配語檢出步驟;出現數取得步驟,基於上述文章數據和上述詞典數據,對在上述單詞判斷步驟中判斷為不具有多個詞義的單詞,取得在上述文章中出現的該單詞的數量作為詞頻,對在上述單詞判斷步驟中判斷為具有多個詞義的單詞,按照與在上述搭配語檢出步驟中檢出的搭配語對應的每個詞義作為不同的副單詞處理,取得在上述文章中出現的該副單詞的數量作為詞頻。
全文摘要
本發明目的是提供摘要生成裝置和摘要生成方法,通過考慮具有多個詞義的單詞而能夠生成適當的摘要。在摘要生成裝置(100)中設有存儲文章數據的文章數據存儲部(10);對由文章數據表示的文章中的多個單詞,基於該文章數據統計各單詞的詞頻,當文章中的單詞具有多個詞義時,按照每個詞義作為不同的副單詞處理,統計與各副單詞對應的詞頻的詞頻統計部(20);基於文章數據和表示文章中的單詞和副單詞中詞頻最高者的數據來選擇文章中的多個句子,從而生成摘要數據的句子選擇部(30)。
文檔編號G06F17/30GK102479196SQ201010560580
公開日2012年5月30日 申請日期2010年11月23日 優先權日2010年11月23日
發明者樂寧, 吳亞棟, 吳波 申請人:夏普株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀