新四季網

關鍵詞提取裝置、方法以及程序的製作方法

2023-06-14 16:05:46

關鍵詞提取裝置、方法以及程序的製作方法
【專利摘要】本發明的實施方式涉及關鍵詞提取裝置、方法及程序。目的在於提供能夠提示反映了用戶意向的關鍵詞的關鍵詞提取裝置、方法及程序。本實施方式的文件製作支持裝置包括:分離部,針對被賦予了表現用戶的意圖的第1註解至文字列的多個文件的各個文件,分離第1註解與該文件;第1提取部,從文件中提取一般用語;第2提取部,從文件中進行提取,作為用戶用語;生成部,對各文件進行歸類,生成1個以上的文件群;計算部,在取得針對文件群中包含的關鍵詞的來自用戶的第2註解的情況下,根據註解的種類計算特徵量;第1更新部,根據所述特徵量更新被賦予了第2註解的關鍵詞的所述得分;以及第2更新部,根據被更新了的得分更新所述文件群,得到更新群。
【專利說明】關鍵詞提取裝置、方法以及程序

【技術領域】
[0001〕 本發明的實施方式涉及一種關鍵詞提取裝置、方法以及程序。

【背景技術】
[0002]近年來,電子化文件的使用機會增加。電子化文件的利用方式、對象內容也沒有停留於由以往的臺式?所進行的企業內文件的閱覽等,而能夠通過具有輕便性的平板電腦、智慧型手機等,簡單地訪問一般地公開了的博客、評論網站、布告板等各種信息。
[0003]另一方面,需要進行用於從龐大的文件中訪問自己正尋找的文件、內容的鑽研。例如,存在以下等手段:與日曆顯示連動地以時間序列提示向文件的連結,或者通過提示幾個被稱為標籤雲0101^(1)的關鍵詞來引起閱讀者的興趣,或者進一步地,通過一併記載用戶注釋((30.60)、關聯報導,實現向其他文件、參考連結目的地的導入。


【發明內容】

[0004]特別地,在提示關鍵詞的情況下,為了進行檢索的線索詞或摘要式的顯示,已知幾種從用戶閱覽了的網頁文件、用戶正製作並管理的辦公文件等中提示關鍵詞的手段,例如存在分別針對文件中的一般用語以及專業用語而提取為關鍵詞的方法。
[0005]然而,在明確地進行了下劃線、圈這樣的表示來自用戶的指示的註解(£1111101:81:1011)的情況下,無法反映這些註解。另外,在將這樣的用戶訪問了的文件集合設為對象的情況下,與處理大規模的網頁文件集合的情況不同,通過單純地利用頻度信息,啟發式地提示鎖定的關鍵詞、閱覽時未注意到的關鍵詞很困難。
[0006]由於文件數量少,所以在提示了與用戶的嗜好、興趣不同的關鍵詞的情況下,除了其差別很顯眼之外,所提示的關鍵詞較強地依賴於被添加或刪除了的文件集合的內容地被更新,所以有時作為檢索起點的關鍵詞變得不確定,失去了前往想要訪問的文件的路徑。
[0007]本公開是為了解決上述問題而完成的,其目的在於,提供一種能夠提示反映了用戶的意向的關鍵詞的關鍵詞提取裝置、方法以及程序。
[0008]本實施方式所涉及的內容製作支持裝置包括分離部、第1提取部、第2提取部、生成部、計算部、第1更新部以及第2更新部。分離部,針對被賦予了表現用戶的意圖的第1註解至文字列的多個文件的各個文件,分離該第1註解與該文件。第1提取部,根據被預先定義了的詞類信息,從所述文件中提取一般用語。第2提取部,根據合成詞的出現頻度,從所述文件中提取與所述一般用語不同的合成詞作為用戶用語。生成部,將所述一般用語以及所述用戶用語設為關鍵詞,計算該關鍵詞的得分,對基於該得分的所述文件之間的相關度達到閾值以上的各文件進行歸類,生成1個以上的文件群化11!8仏10。計算部,在取得針對所述文件群中包含的關鍵詞的來自用戶的第2註解的情況下,根據註解的種類計算特徵量。第1更新部,根據所述特徵量,更新被賦予了所述第2註解的關鍵詞的所述得分。第2更新部,根據被更新了的得分更新所述文件群,得到更新群。
[0009]根據上述構成的關鍵詞提取裝置,能夠提示反映了用戶的意向的關鍵詞。

【專利附圖】

【附圖說明】
[0010]圖1是示出了本實施方式所涉及的關鍵詞提取裝置的框圖。
[0011]圖2是示出了本實施方式所涉及的關鍵詞提取裝置的動作的流程圖。
[0012]圖3是示出了賦予文件的註解的一個例子的圖。
[0013]圖4是示出了文件與關鍵詞的對應關係的一個例子的圖。
[0014]圖5是示出了本實施方式所涉及的文件群的代表詞的一個例子的圖。
[0015]圖6是示出了從關鍵詞輸出部輸出的關鍵詞列表的一個例子的圖。
[0016]圖7是示出了由用戶輸入的註解的一個例子的圖。
[0017]圖8是示出了關鍵詞得分更新部的關鍵詞更新處理的一個例子的圖。
[0018]圖9是示出了被更新了的文件群的代表詞的一個例子的圖。
[0019]圖10是示出了從關鍵詞輸出部輸出的被更新了的關鍵詞列表的一個例子的圖。

【具體實施方式】
[0020]以下,一邊參照圖面一邊詳細地說明本實施方式所涉及的關鍵詞提取裝置、方法以及程序。此外,在以下的實施方式中,附加了相同的附圖標記的部分進行同樣的動作,適當省略重複的說明。
[0021]參照圖1的框圖,說明本實施方式所涉及的關鍵詞提取裝置。
[0022]本實施方式所涉及的關鍵詞提取裝置100包括分離部101、詞素解析部102、一般用語提取部103、註解特徵提取部104、用戶詞彙提取部105、群生成部106、用戶指示取得部107、關鍵詞得分更新部108、群更新部109以及關鍵詞輸出部110。
[0023]分離部101接受輸入文件,分離文件與被賦予到輸入文件的來自用戶的註解(也稱為第1註解輸入文件既可以是用戶對從網頁(硏^)上收集到的網頁文件附加了註解的文件,也可以是用戶對由文件製作軟體等製作了的文件附加了註解的文件。
[0024]註解是指用戶主要手寫下的下劃線、圈、刪除線、注釋等表現用戶的意圖的筆劃(8^0^6) 0可以假定:在下劃線、圈的情況下是提高重要度的強調指示,在刪除線的情況下是降低重要度的刪除指示。此外,不限於手寫,在通過應用程式賦予圈、下劃線等的情況下也能夠同樣地處理。
[0025]另外,註解的指定方法不限於由筆、定位裝置所進行的操作,作為平板型設備等中的觸摸面板上的操作,通過由針對符合的單詞的雙擊、長按所進行的強調、由滑動所進行的刪除這樣的手段,也能夠同樣地處理。
[0026]詞素解析部102從分離部101接受輸入文件,針對輸入文件中的文字列進行詞素解析。
[0027]—般用語提取部103接受由詞素解析部102進行詞素解析了的輸入文件,從輸入文件中提取一般用語。在一般用語的提取處理中,例如參照預先定義了詞類信息等的詞典,將名詞中的被賦予了特定的屬性的詞素、以及假名未錄詞語等提取為一般用語即可。
[0028]註解特徵提取部104從分離部101接受註解,關於在文件中的什麼地方被賦予了什麼樣的註解,根據註解的種類分別提取特徵量。另外,在從後面敘述的用戶指示取得部107接受到針對後面敘述的關鍵詞列表所賦予的來自用戶的註解(也稱為第2註解)的情況下,針對該註解也同樣地提取特徵量。
[0029]用戶詞彙提取部105接受由詞素解析部102進行詞素解析了的輸入文件,計算詞素模式的出現頻度,作為用戶用語取得根據出現頻度提取到的合成詞。用戶用語包括例如由用戶所屬的組織共同地使用的創造新詞、縮略詞。另外,當在輸入文件中對文字列附加了註解的情況下,也將附加了註解的文字列、被補記了的注釋的文字列提取為用戶用語。
[0030]群生成部106分別從一般用語提取部103取得一般用語,從用戶詞彙提取部105取得用戶用語,將一般用語與用戶用語設為關鍵詞,進行文件歸類(01118仏!'1118),生成1個以上的文件群。關於文件歸類的詳細情況將後面敘述。
[0031]用戶指示取得部107經由用戶界面取得來自用戶的註解。
[0032]關鍵詞得分(8⑶!'一)更新部108分別從群生成部106接受文件群,從註解特徵提取部104接受註解的特徵量。關鍵詞得分更新部108根據註解的特徵量,更新文件群的文件中包含的關鍵詞的得分。
[0033]群更新部109從關鍵詞得分更新部108接受文件群與被更新了的關鍵詞的得分,根據被更新了的得分更新文件群,得到更新群。
[0034]關鍵詞輸出部110根據由群生成部106生成了的文件群輸出關鍵詞列表。另外,在通過用戶對關鍵詞列表賦予了註解的情況下,關鍵詞輸出部110從群更新部109接受被更新了的文件群,輸出與文件群對應的關鍵詞。關於關鍵詞的輸出例子將參照圖4在後面敘述。
[0035]接著,參照圖2的流程圖,說明關鍵詞提取裝置100的動作。
[0036]在步驟3201中,分離部101針對多個輸入文件的各個文件,分離文件與註解。
[0037]在步驟3202中,詞素解析部102針對文件進行詞素解析。進行了詞素解析後,對詞素單位的文字列賦予詞類信息。
[0038]在步驟3203中,一般用語提取部103參照作為一般用語詞典預先被登記的一般用語的列表,從附加了詞類信息的文字列中提取一般用語。
[0039]在步驟3204中,用戶詞彙提取部105根據進行詞素解析了的結果,將名詞和未錄詞語鄰接的組合的文字列視為合成詞,對合成詞各自的出現頻度進行計數,計算用於將各合成詞判定為用戶用語的判定值。
[0040]具體而言,作為合成詞的判定值使用式(1)計算10^1116。
[0041〕 10^1116 (⑶)=1611^11 (⑶)X (11 (⑶)-七(⑶)卜(⑶))...(1)
[0042]⑶:合成名詞
[0043](0^) 的長度(構成單名詞數量)
[0044]:語料庫((3011)118)中的⑶的出現次數
[0045]1:(⑶:包括⑶的、比當前對象的⑶長的合成名詞的出現次數
[0046]0(^):包括⑶的、比當前對象的⑶長的合成名詞的不同出現次數
[0047]此外,也可以代替將0妨1116的值用作判定值。
[0048]在步驟3205中,用戶詞彙提取部105按照通過式(1)所計算的判定值從高到低的順序,作為用戶用語得到合成詞。
[0049]在步驟3206中,註解特徵提取部104判定是否對輸入文件賦予了註解。在對輸入文件賦予了註解的情況下,前進到步驟3207,在未對輸入文件賦予註解的情況下,前進到步驟 3208。
[0050]在步驟3207中,註解特徵提取部104將被附加了註解的文字列添加到用戶用語。例如,在文件中存在通過手寫界面描繪了的圓或四方形等的圈的情況下,將處於圈的內部的文字列設為用戶用語即可,在劃有標記、下劃線的情況下,將重疊有標記或下劃線的文章或單詞等文字列設為用戶用語即可。另外,若存在重疊於文件地描繪了的注釋,則也可以對注釋進行文字識別而設為用戶用語。
[0051〕 在步驟3208中,群生成部106根據一般用語與用戶用語,對文件進行歸類,生成文件群。作為對文件進行歸類的方法,例如,將一般用語與用戶用語設為關鍵詞,計算關鍵詞的得分。之後,根據關鍵詞的得分,對文件之間的相關度達到閾值以上的各文件進行歸類,並對文件進行分類即可。此外,關於對文件進行歸類,使用一般的歸類方法即可。
[0052]在步驟3209中,關鍵詞輸出部110在文件群中包含的關鍵詞當中,作為代表性的關鍵詞提不關鍵詞列表。
[0053]在步驟3210中,用戶指示取得部107針對關鍵詞判定是否存在來自用戶的指示。在存在來自用戶的指示、即註解的情況下,前進到步驟3211,在沒有來自用戶的註解的情況下,前進到步驟3212。
[0054]在步驟3211中,關鍵詞得分更新部108根據註解更新關鍵詞的得分。
[0055]在步驟3213中,群更新部109根據被更新了的關鍵詞的得分更新文件群。
[0056]在步驟3214中,關鍵詞輸出部110輸出包括被更新了的關鍵詞的關鍵詞列表。至此,關鍵詞提取裝置100的動作結束。
[0057]接著,參照圖3說明對文件賦予的註解的一個例子。
[0058]圖3是註解的一個例子,是針對網頁文件上的報導劃了下劃線的結果。在圖3中,是對「流光(8廿棚肥10 」劃了下劃線的例子。另外,是針對網頁文件而對「1的訓胍」這樣的合成詞圈了圓、或者對「000+300雙驅動」劃了下劃線、或者「有機物」、「10撤3雜貨」劃了下劃線的例子。這樣被賦予了註解的文字列也設為用戶用語。
[0059]接著,參照圖4說明文件與關鍵詞的對應關係的一個例子。
[0060]在圖4的例子中,是針對從文件4到文件?的文件進行歸類的情況,表格400示出了關鍵詞401與文件402的對應關係。關鍵詞401是一般用語與用戶用語中包含的文字列。文件402是包括註解的文件。
[0061]具體而言,作為關鍵詞401,將「下載」、「安裝」以及「備份」與文件402 「文件八」對應起來。另外,各個關鍵詞的文件4中的得分是「3」、「2」以及「1」。
[0062]得分例如根據以下的式(2)計算即可。
[0063]得分=出現統計量+註解偏差(化狀)值…(2)
[0064]此外,出現統計量既可以僅僅是文件中的出現次數,也可以使用界/10?值等。註解偏差值是根據註解的種類而設定的特徵量。在這裡,設為文件中的出現次數。即,可知在文件4中,下載出現了 3次,安裝出現了 2次,備份出現了 1次。
[0065]根據這些值計算文件之間的相似度。關於相似度的計算,例如使用餘弦相似度來計算即可,具體而言,在計算文件八與文件8的相似度的情況下,通過對文件八以及文件8中包含的關鍵詞進行矢量表記,計算餘弦相似度。
[0066]文件八的矢量能夠表示為76(:(八)={3,2,0,0,0,0,0,0,0,0,1,0,0,0,0},文件 8
的矢量能夠表示為^6(:(8) = |0,0,3,2,2,0,0,0,0,0,1,0,0,0,0:|。因此,餘弦相似度使用008(^60(^) ,^60(8)) = 乂6。(八)^60(8)/1^1 |8 來計算即可。在這裡,「」表示內積,「 | | 」
表示絕對值。
[0067]在該情況下,作為餘弦相似度,能夠得到1/(8(^1:(9+4+1)^8(^1:(9+4+4+1)) = 1/8^1-1: (14) (18) ^ 0.063。
[0068]上述那樣在各文件之間計算餘弦相似度,根據1^116^18法等整合為群,從而能夠生成文件的群。
[0069]此外,將從多個文件群中按照得分的值從大到小的順序取出了的關鍵詞設定為該群的代表詞。
[0070]接著,參照圖5說明文件群的一個例子。圖5是示出了根據關鍵詞、得分來定義文件之間的距離並根據文件之間的相似度進行歸類了的結果的表格500,包括10 501與代表詞 502。
[0071]10 501是文件群的標識符。代表詞502表不各文件群中包含的關鍵詞的代表詞。
[0072]具體而言,(下載、安裝丨、(單通道動作、雙通道動作、存儲器丨、(蓄電池充電、立體聲揚聲器、抗菌塗層、瓷鍵盤「116 1^6713081-(1) |、(美利堅合眾國丨、(備份、磁帶、流光1、I自然、機殼分別成為代表文件群的代表詞。
[0073]接著,參照圖6說明從關鍵詞輸出部110輸出的關鍵詞列表的一個例子。
[0074]圖6是將關鍵詞的代表詞顯示為標籤雲600的顯示例子。在該標籤雲600的顯示中,按照得分從大到小的順序改變文字的大小而顯示。
[0075]此外,針對根據用戶詞彙提取部105中的用戶用語的提取結果而得到的用戶用語,根據式(1)估算得分即可,但關於從一般用語提取部103輸出的單詞,得分無法明確地得到。因此,事先定義與一般用語的提取方法相應的得分。在這裡,例如在作為「名詞」進一步地被賦予了詳細的屬性信息(人名、組織名稱等)的情況下,應用賦予比一般的「名詞」高的得分等的預處理。
[0076]或者,應用如下預處理即可:考慮由用戶詞彙提取部105得到的得分信息,將以包含固定數量的一般用語的方式調整了的值賦予給從一般用語的提取結果中得到的關鍵詞。
[0077]接著,參照圖7說明用戶指示取得部所取得的註解的一個例子。
[0078]圖7是顯示了文件群的代表詞的標籤雲700的一個例子,針對每個文件群,代表詞被區別地顯示。在這裡,橫向1列所顯示的代表詞是從1個文件群中得到的代表詞。
[0079]另外,用戶針對被進行標籤雲顯示了的代表詞,賦予圈、叉廣記號的註解。
[0080]在圖7的例中,針對代表詞「匪)+300雙驅動」附加了叉記號。在該情況下,被假定為用戶認為不需要該關鍵詞的情況,所以,關於附加了叉記號的「000+300雙驅動」,從符合的群的代表詞刪除,或者使得分降低(例如,設為最低值),或者設為0、負值等地施加偏差,或者,內部地保持設立在顯示中不出現等的標誌(行叫)這樣的數據即可。
[0081]另外,針對代表詞「放電主雷擊」畫有圈。在該情況下,被假定為用戶認為該關鍵詞重要的情況,所以,使被圈住的關鍵詞的得分上升,或者,作為固定(冊也沉)的用途,設立特定的標誌,或者進行將得分設定成在符合的群內低於顯示用的閾值那樣的值等的處理即可。另外,也可以通過對在標籤雲上被圈住的關鍵詞進行所謂的釘扎,而使其常時顯示。
[0082]進一步地,針對代表詞「下載」、「存儲器」、「美利堅合眾國」畫有圈。在這樣的文件群不同的多個代表詞被圈住了的情況下,被認為是使各代表詞建立關聯的建立關聯指示,所以也可以進行以被選擇為相同文件群的方式使單詞的同現度上升這樣的處理。
[0083]以下,以圖7所示的代表詞「流光」與另外的文件群的代表詞「霹雷」建立關聯了的情況為例,說明文件群的更新處理的具體例子。
[0084]參照圖8說明關鍵詞得分更新部108的關鍵詞更新處理的一個例子。
[0085]圖8是示出了每個被更新了的文件的關鍵詞的關係的表格800。假定如下情況:除了圖3的文件之外,還新添加了文件以及文件!I,並且2種不同的註解被附加給關鍵詞。
[0086]在這裡,如式(2)所示,被賦予了註解的關鍵詞的得分通過加上註解偏差值來計算。在圖7的例子中,作為註解偏差值(特徵量),被乘以「八皿⑦)」。在這裡,?是正整數。關於註解偏差值,根據註解的差異而分配不同的值。
[0087]例如,設為針對「用圓圈住文字列」這樣的註解操作分配「 10」,另外針對「劃字下線」( = ⑵)的操作分配「5」。
[0088]其結果,文件中出現的單詞腦」的得分為1X10 = 10,所以變成「 10」,另夕卜,分別將文件6中出現的單詞「流光」的得分更新為「5」,進一步地,將文件!I中出現的「有機物」以及「10撤3」的得分更新為「5」。
[0089]也可以事先地固定這些值,也可以根據從所累積的文件集合得到的單詞的統計信息動態地更新。
[0090]接著,參照圖9說明被更新了的文件群的代表詞的一個例子。
[0091]在圖9所示的表格900中,根據被更新了的特徵量更新代表詞。例如,示出了除了新添加了 「1的211胍」、「匪)+300雙驅動」之外,對10 5還新添加了 「有機物」、「 11)撤3」這樣的單詞的狀況。
[0092]關於10 4中存在的「流光」這樣的關鍵詞,通過此次的註解,文件群內的關鍵詞的得分被更新,「流光」被新關聯到10 6的文件群。
[0093]接著,參照圖10說明從關鍵詞輸出部110輸出的被更新了的關鍵詞列表的一個例子。
[0094]圖10是根據被更新了的文件群而通過標籤雲1000顯示代表詞的一個例子。
[0095]圖10所示的標籤雲1000讓群的特徵視覺上地成為橫向的聯繫。另外,根據註解的差異,賦予相對於其他關鍵詞變更字體顏色等效果。
[0096]另外,關於這些代表詞,進一步地,也存在與始終被顯示(顯示上的釘扎)等的功能連動等的區別。另外,關於新設置的群,為了表示更加詳細的上下文(⑶社一#)信息,實施了降低所顯示的關鍵詞的閾值而多一些地進行顯示等的效果。
[0097]根據以上所示的本實施方式,通過根據用戶賦予了註解的文件對文件進行歸類,並顯示文件群的代表詞,從而能夠提示與用戶收集並閱覽了的文件的傾向相應的關鍵詞,不僅與新文件的登記傾向相應的新的關鍵詞,還能夠明確地保持用戶認為重要的關鍵詞。另外,通過參照用戶針對關鍵詞的註解,更新關鍵詞的特徵量並顯示更新了的關鍵詞,從而能夠輸出反映了用戶的意向的關鍵詞列表。
[0098]在上述的實施方式中示出了的處理步驟所表示的指示能夠基於作為軟體的程序來執行。通過通用的計算機系統預先存儲該程序並讀入該程序,也能夠得到與基於上述關鍵詞提取裝置的效果同樣的效果。上述實施方式中所記述的指示作為能夠使計算機執行的程序,被記錄到磁碟(軟盤、硬碟等)、光碟(⑶-如^ 03-1?、0)-鼎、070±尺、0乂0±鼎、8111-以7(註冊商標)01%等〉、半導體存儲器、或者與之類似的記錄介質中。只要是計算機或嵌入系統能夠讀取的記錄介質,其存儲形式可以是任意方式。計算機若從該記錄介質讀入程序並根據該程序使0^執行程序所記述的指示,則能夠實現與上述實施方式的關鍵詞提取裝置同樣的動作。當然,在計算機取得程序的情況下或者讀入程序的情況下,也可以是通過網絡來取得或者讀入。
[0099]另外,也可以是根據從記錄介質安裝到計算機、嵌入系統的程序的指示在計算機上工作的03(作業系統)、資料庫管理軟體,網絡等的飢中間件)等執行用於實現本實施方式的各處理的一部分。
[0100]進一步地,本實施方式中的記錄介質不限於與計算機或者嵌入系統獨立的介質,還包括對通過「隊網際網路等傳遞的程序進行下載並存儲或暫時存儲的記錄介質。
[0101]另外,記錄介質不限於一個,在由多個介質執行本實施方式中的處理的情況下,也包括本實施方式中的記錄介質,介質的構成也可以任意構成。
[0102]此外,本實施方式中的計算機或嵌入系統用於根據記錄介質中存儲的程序執行本實施方式中的各處理,也可以是網絡連接有由個人計算機、微型電子計算機等1個構成裝置、多個裝置的系統等的任意構成。
[0103]另外,關於本實施方式中的計算機,不限於個人計算機,也包括在信息處理設備中包含的運算處理裝置、微型電子計算機等,是能夠根據程序實現本實施方式中的功能的設備、裝置的統稱。
[0104]雖然說明了本發明的幾個的實施方式,但這些實施方式是作為例子而示出的,並非意在限定發明的範圍。這些新穎的實施方式能夠通過其他各種方式來實施,在不脫離發明的主旨的範圍內,能夠進行各種的省略、置換、變更。這些實施方式、其變形包含於發明的範圍、主旨,並且包含在權利要求書所記載的發明及其均等的範圍內。
【權利要求】
1.一種關鍵詞提取裝置,其特徵在於,包括: 分離部,其針對將表現用戶的意圖的第I註解賦予文字列的多個文件的各個文件,分離該第I註解與該文件; 第I提取部,其根據被預先定義了的詞類信息,從所述文件中提取一般用語; 第2提取部,其根據合成詞的出現頻度,從所述文件中提取與所述一般用語不同的合成詞作為用戶用語; 生成部,其將所述一般用語以及所述用戶用語設為關鍵詞,計算該關鍵詞的得分,對基於該得分的所述文件之間的相關度達到閾值以上的各文件進行歸類,生成I個以上的文件群; 計算部,其在取得針對所述文件群中包含的關鍵詞的來自用戶的第2註解的情況下,根據註解的種類計算特徵量; 第I更新部,其根據所述特徵量,更新被賦予了所述第2註解的關鍵詞的所述得分;以及 第2更新部,其根據被更新了的得分更新所述文件群,得到更新群。
2.根據權利要求1所述的關鍵詞提取裝置,其特徵在於,還包括: 輸出部,針對各個所述更新群的文件群,提取作為代表性的關鍵詞的代表詞,針對每個所述文件群對該代表詞進行分類而提示, 所述第2註解包括如下指示,該指示包括針對所述關鍵詞降低重要度的刪除指示、提高該重要度的強調指示、使所述代表詞彼此建立關聯的建立關聯指示, 所述第I更新部使用與所述指示相應的所述特徵量更新所述得分。
3.根據權利要求1或2所述的關鍵詞提取裝置,其特徵在於, 所述計算部根據所述第I註解的種類計算所述特徵量, 所述生成部在計算所述得分的情況下,使用與所述第I註解的種類相應的所述特徵量計算所述得分。
4.根據權利要求2所述的關鍵詞提取裝置,其特徵在於, 所述輸出部在所述第2註解是所述強調指示的情況下,被設置為對被賦予了所述第2註解的代表詞進行強調顯示或者始終進行顯示的顯示方式。
5.一種關鍵詞提取方法,其特徵在於,包含以下步驟: 針對將表現用戶的意圖的第I註解賦予文字列的多個文件的各個文件,分離該第I註解與該文件, 根據被預先定義了的詞類信息,從所述文件中提取一般用語, 根據合成詞的出現頻度,從所述文件中提取與所述一般用語不同的合成詞作為用戶用語, 將所述一般用語以及所述用戶用語設為關鍵詞,計算該關鍵詞的得分,對基於該得分的所述文件之間的相關度達到閾值以上的各文件進行歸類,生成I個以上的文件群, 在取得針對所述文件群中包含的關鍵詞的來自用戶的第2註解的情況下,根據註解的種類計算特徵量, 根據所述特徵量,更新被賦予了所述第2註解的關鍵詞的所述得分,並且 根據被更新了的得分更新所述文件群,得到更新群。
6.一種用於使計算機作為以下單元發揮功能的關鍵詞提取程序,所述單元包括: 分離單元,針對將表現用戶的意圖的第I註解賦予文字列的多個文件的各個文件,分離該第I註解與該文件; 第I提取單元,根據被預先定義了的詞類信息,從所述文件中提取一般用語; 第2提取單元,根據合成詞的出現頻度,從所述文件中提取與所述一般用語不同的合成詞作為用戶用語; 生成單元,將所述一般用語以及所述用戶用語設為關鍵詞,計算該關鍵詞的得分,對基於該得分的所述文件之間的相關度達到閾值以上的各文件進行歸類,生成I個以上的文件群; 計算單元,在取得針對所述文件群中包含的關鍵詞的來自用戶的第2註解的情況下,根據註解的種類計算特徵量; 第I更新單元,根據所述特徵量,更新被賦予了所述第2註解的關鍵詞的所述得分;以及 第2更新單元,根據被更新了的得分更新所述文件群,得到更新群。
【文檔編號】G06F17/30GK104462170SQ201410466362
【公開日】2015年3月25日 申請日期:2014年9月12日 優先權日:2013年9月20日
【發明者】布目光生, 岡本昌之, 永江尚義 申請人:株式會社東芝

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀