新四季網

內容處理設備和方法、程序以及記錄介質的製作方法

2023-10-07 19:17:59

專利名稱:內容處理設備和方法、程序以及記錄介質的製作方法
技術領域:
本發明涉及內容處理設備和方法、程序以及記錄介質,更具體地,涉及可以通過使 得用戶能夠基於給定信息識別期望的內容來提高用戶滿意度的內容處理設備和方法、程序 以及記錄介質。
背景技術:
在相關技術中,當在進行針對要被廣播的節目的記錄預訂的情況下設置針對作為 要被記錄的對象的一定節目的記錄預訂時,由於如果記錄對象的節目的廣播時間被改變, 則與作為記錄對象的該節目不相同的節目被記錄,所以該記錄失敗。只要能從能夠採用EPG(電子節目指南)數據的記錄設備中的最近的EPG數據中 識別出記錄對象節目,就可以通過修改預訂內容使得所識別的節目可被記錄來避免記錄失 敗。已經提出了以下方法通過使用EPG數據確定節目標題信息的相似性或廣播日期 信息的匹配狀態等來識別節目(例如,參見JP-A-2005-102059)但是,在JP-A-2005-102059的技術中,當僅通過節目標題信息而不採用廣播日期 信息來執行識別處理時,難以識別雖然節目不具有相似的節目標題但實際上相同的節目。 例如,當在存在具有被稱為「 > (棕色),,的節目標題的節目時由EPG數據表示的節 目標題是「Brown (棕色)」的情況下,難以實際上識別該節目。已提出了一種系統,其通過針對識別節目所必需的每個信息而將日本字符(片 假名)轉換成羅馬字符且確定目標字符串中是否包括關鍵詞來識別節目(例如參見 JP-A-2007-201573)。

發明內容
但是,在即使當使用JP-A-2007-201573的技術時僅通過節目標題信息來執行識 別處理的情況下,難以準確地執行識別處理。例如,當存在具有被稱為「力#一*情報$ , Kt 卜(午夜體育信息)」的節目標題的節目時,由EPG數據表示的節目標題可以是「7 求一 ^情報□ Midnight (體育信息□ 午夜 ),,。可以在內容處理側以各種方式方便地改變用於識別各個內容中的內容的名稱。例 如,通常,在介紹電視節目的雜誌、網際網路的網頁等中描述的節目標題可能與由EPG數據表 示的節目標題不精確匹配。例如,在要被重新廣播的內容的情況下,諸如「重播」之類的字符通常可以被添加 到通過EPG數據表示的節目標題中。在其它情況下,響應於節目的廣播期(印isode)(即表 示哪一期廣播)而添加的副標題或字符(如「特別期(special)」)可以被添加到由EPG數 據表示的節目標題中。另外,在節目標題中包含的間隔或符號可以與EPG數據或其它媒體 的間隔或符號不相同。在如上所述的相關技術中,實際上相同的節目可能不能被識別,並且例如期望的節目可能不能被記錄。這樣,期望通過使得用戶能夠根據給定信息簡單地識別期望的內容來提高用戶的 滿意度。根據本發明的第一實施例,提供了一種內容處理設備,包括關鍵詞獲取裝置,用 於獲取用於指定內容的關鍵詞;標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預 定的加工規則來加工所獲取的標題;相似性計算裝置,用於計算加工後的標題與該關鍵詞 之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由該關鍵詞指定的標 題的內容。內容處理設備還可以包括更新裝置,用於更新加工規則。
加工規則可以包括用於正規化處理的正規化規則,該正規化規則刪除內容標題 中包括的不必要的字符或者對字體或字符屬性進行轉換;以及用於重構處理的重構規則, 該重構規則對通過正規化處理正規化後的內容標題的字符串進行結合或刪除。內容標題可以是EPG數據中包括的內容標題,正規化規則可以包括刪除EPG數據 中的表示廣播期的字符串的規則。可以基於EPG數據來設置對所識別的內容的記錄預訂。內容處理設備還可以包括第二加工裝置,用於基於預定的加工規則來加工所獲 取的關鍵詞。相似性計算裝置可以計算加工後的關鍵詞與標題之間的相似性,識別裝置可以基 於所計算的相似性來識別用於指定標題的關鍵詞。根據本發明的第一實施例,提供了一種內容處理方法,包括以下步驟獲取用於指 定內容的關鍵詞;獲取內容標題;基於預定的加工規則加工所獲取的標題;計算加工後的 標題與該關鍵詞之間的相似性;以及基於所計算的相似性來識別具有由該關鍵詞指定的標 題的內容。根據本發明的第一實施例,提供了一種程序,該程序用於使得計算機用作內容處 理設備,該內容處理設備包括關鍵詞獲取裝置,用於獲取用於指定內容的關鍵詞;標題獲 取裝置,用於獲取內容標題;加工裝置,用於基於預定的加工規則來加工所獲取的標題;相 似性計算裝置,用於計算加工後的標題與該關鍵詞之間的相似性;以及識別裝置,用於基於 所計算的相似性來識別具有由該關鍵詞指定的標題的內容。在本發明的第一實施例中,獲取用於指定內容的關鍵詞。獲取內容標題。基於預 定的加工規則來加工所獲取的標題。計算加工後的標題與該關鍵詞之間的相似性。基於所 計算的相似性來識別具有由該關鍵詞指定的標題的內容。根據本發明的第二實施例,提供了一種內容處理設備,包括關鍵詞獲取裝置,用 於獲取用於指定內容的關鍵詞;標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預 定的加工規則來加工所獲取的關鍵詞;相似性計算裝置,用於計算加工後的關鍵詞與該標 題之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由該關鍵詞指定的 標題的內容。在本發明的第二實施例中,識別用於指定內容的關鍵詞。獲取內容標題。基於預 定的加工規則來加工所獲取的關鍵詞。計算加工後的關鍵詞與該標題之間的相似性。基於 所計算的相似性來識別具有由該關鍵詞指定的標題的內容。
根據本發明的實施例,可以通過使得用戶能夠基於給定信息識別期望的內容來提高用戶的滿意度。


圖1是示出了根據本發明的實施例的內容標題識別系統的配置示例的圖;圖2是示出了圖1中的內容標題識別系統的功能配置示例的框圖;圖3是示出了正規化規則的列表的示例的圖;圖4是示出了重構規則的列表的示例的圖;圖5是示出了內容標題識別處理的示例的流程圖;圖6是示出了內容標題加工處理的示例的流程圖;圖7是示出了正規化處理的示例的流程圖;圖8是示出了重構處理的示例的流程圖;圖9是示出了關鍵詞信息的示例的圖;圖10是示出了內容元數據的示例的圖;圖11是示出了關鍵詞和內容的對應關係表的圖;圖12是示出了圖1的內容標題識別系統的另一功能配置示例的框圖;圖13是示出了個人計算機的配置示例的框圖。
具體實施例方式下面將參考附圖對本發明的實施例進行描述。圖1是示出了根據本發明的實施例的內容標題識別系統的配置示例的圖。在該圖 中所示的內容標題識別系統10包括連接到網絡20的伺服器31、記錄器32以及客戶端33。例如,內容標題識別系統10從伺服器31中蓄積的信息中提取用於檢索內容標題 的關鍵詞,並根據該關鍵詞對記錄器32中蓄積的內容標題進行識別。例如,與所識別的標 題對應的內容數據被與關鍵詞相關聯,並被提供給客戶端33。例如,由用戶在網際網路上檢索和收集的信息被蓄積在伺服器31中。例如,用戶檢 索其感興趣的信息,並將檢索到的信息記錄到記錄介質中,該記錄介質例如是如果期望的 話則設於伺服器31中的HDD(硬碟驅動)。伺服器31具有基於所蓄積的信息來提取用於檢 索內容標題的關鍵詞的功能,並響應於來自客戶端33的請求而提取並提供關鍵詞。例如, 伺服器31包括通用計算機等。例如,伺服器31可以經由網際網路等連接到網絡20。例如,記錄器32包括HDD記錄器、DVD記錄器等,其將內容記錄到HDD或DVD的記 錄介質中。記錄器32具有提取被記錄到記錄介質中的內容標題的功能,並響應於來自客戶 端33的請求而提取並提供標題。例如,客戶端33包括電視接收器等,且在內部包括CPU、存儲器等。例如,客戶端 33通過由CPU執行程序軟體等來指定與從伺服器31提供的關鍵詞相對應的內容標題。也 就是說,客戶端33將被記錄到記錄器32中的內容標題識別為具有給定關鍵詞的標題。例如,內容標題識別系統10包括適用於通用即插即用(UPnP)規範的設施。例如, 內容標題識別系統10能夠處於在不要求用戶執行複雜操作的情況下通過使用UPnP功能連 接網絡來使得可以進行通信的狀態,並且能夠自動執行對其它設施的檢測或連接。例如,內容標題識別系統10包括與DLNA(數字生活網絡聯盟)規範相對應的設施。因此,例如,記錄器32可以用作由DLNA定義的DMS (數字媒體伺服器),並且客戶端33可以用作由DLNA定義的DMP (數字媒體播放器)。在這種情況下,例如,可以通過嵌入 在DMS中的CDS (內容目錄服務)功能來獲取內容標題。圖2是示出了圖1的內容標題識別系統10的功能配置示例的框圖。在該圖中,關鍵詞信息51被看作用於存儲從伺服器31中蓄積的信息中提取的每 個關鍵詞的資料庫。關鍵詞提供部分52響應於來自關鍵詞獲取部分81的請求而從關鍵詞 信息51中讀取一個或多個預定的關鍵詞,並將所讀取的關鍵詞提供給關鍵詞獲取部分81。 例如,關鍵詞獲取部分81獲取作為文本數據的關鍵詞。內容數據61表示蓄積在記錄器32中的內容數據的集合。從每個EPG等獲取的元 數據被添加至內容數據,並且內容標題提供部分62從內容數據的內容元數據中提取內容 標題。內容標題提供部分62響應於來自內容標題獲取部分82的請求而向內容標題獲取部 分82提供每個提取的內容標題。例如,內容標題獲取部分82獲取內容標題作為文本數據。內容標題加工部分84基於從加工規則數據83提供的加工規則來加工通過內容標 題獲取部分82獲取的內容標題。這裡,詞彙「加工」是指構成文本數據的字符串的字符被 轉換,該字符串的一些字符被刪除,以及預定字符的順序被重新排列。加工規則數據83在關鍵詞或內容標題被加工時存儲規則(信息)。這裡,規則在 內容標題被識別時被用於必要的處理,且對應於內容標題或關鍵詞的類型或屬性。例如,通常,在網際網路上的網頁中公開的介紹電視節目的內容標題可能與EPG數 據中包括的內容標題不精確匹配。例如,這種不匹配對應於以下情況作為EPG的特定字符 的「新」(表示新的節目)、「重播」(表示重新廣播)或「(結局)」(表示最終一期)被添加 到內容標題中。例如,表示對應內容的廣播期的信息通常被添加到EPG數據中包括的內容標題 中。另一方面,表示廣播期的信息典型地不被添加到對應內容的一般名稱中,這可能是使得 難以識別關鍵詞和內容標題的一個因素。例如,定義規則使得「當在中間存在特定字符串時,該特定字符串自身的字符和後 續字符被刪除。該特定字符串是「新」」。例如,在網頁等中描述的內容標題與EPG數據中包括的內容標題之間的不匹配通 常可能是由全形字符與半角字符之間的差異所導致的。例如,關於在網頁等中描述的信息, 作為由特定的作業系統等採用的字符的、依賴於平臺的字符可以被轉換成通用字符。這裡,例如,定義規則使得「在作為內容標題的字符組而存在全形形式和半角形式 的情況下,當轉換對象字符位於中間時,全部字符被轉換成半角形式」。如上所述,刪除內容標題中包括的不必要的字符或者對內容標題自身或字符的屬 性進行轉換的處理被稱作正規化處理。用於正規化處理的規則被稱為正規化規則。在正規化處理完成之後的內容標題也可能與網頁等中描述的內容標題不精確匹 配。這種不匹配通常是由插入到字符串中的間隔等導致的。這裡,例如,定義規則使得「將全形間隔或半角間隔看作分隔符,且將已被分隔開 的第一字符串和第二字符串直接連接」。如上所述,在正規化處理完成之後結合或刪除內容標題的字符串的處理被稱為重構處理。用於重構處理的規則被稱為重構規則。圖3是示出了存儲在加工規則數據83中的正規化規則的列表的示例的圖。在該示例中,第一規則的規則名稱被設置成「RUle_EPG_A_01」。同樣地,第二至第六規則名稱被設置成 「Rule_EPG_A_02」 至 「Rule_EPG_A_06」。規則「RUle_EPG_A_01」的規則內容是「當頭部中存在特定字符串時,刪除該特定 字符串」。作為對象的特定字符串可以是「包括用於「新」的三個字符的字符串(「括號」, 「新」,「括號(結束)」)」。這裡,被添加有「新」的內容標題表示該內容是新的節目。「Rule_EPG_A_02」的規則內容是指「當特定字符串存在於一定處時,刪除該特定字 符串的字符以及後續字符」。作為對象的特定字符串可以是「重播」和「(結局)」。這裡,被 添加有「重播」或「(結局)」的內容標題表示重新廣播或內容的最終期。規則「Rule_EPG_A_03」的規則內容是指「在其中存在全形形式和半角形式的特 定字符串的情況下,當對應字符(字符串)處於中間時,將全部字符轉換成半角形式」。作 為對象的特定串可以是「A到Z(表示字母表A到Z)」、「l到9(表示數字1到9) 」、「?」、
U I 」 ......
、ο規則「Rule_EPG_A_04」的規則內容是指「當特定字符串存在於頭部中時,刪除該 特定字符串」。作為對象的特定字符串可以是「電影□」、「連續電視□」、「戲劇□」、「動畫片 □ 」、「黃金時段□」、「新聞階段□」、「午夜□」、……。在作為上述對象的特定字符串中,「□」 代表全形間隔。規貝lJ「RUle_EPG_A_05」的規則內容是指「當特定字符串處於中間時,刪除該特定字 符串」。作為對象的特定字符串可以是「☆」。規貝lJ「RUle_EPG_A_06」的規則內容是指「當特定字符串處於中間時,將該特定字符 串轉換成預定的字符串」。作為對象的特定字符串可以是「 」,並且「 」被轉換成「 」( 代表「 」的逆向轉換)。例如,當EPG內容標題是「戲劇□旅行2009 □ 歡迎 (結局)(重播)到大空! □出發時間」,根據規則「Rule_EPG_A_01 」至「Rule_EPG_A_06」而正規化後的標題變成「旅 行2009 □ 歡迎 到大空! □出發時間」。圖4是示出了存儲在加工規則數據83中的重構規則的列表的示例的圖。在該示例中,第一規則的規則名稱是「RUle_EPG_B_01」。同樣地,第二至第四規則 的名稱是 「Rule_EPG_B_02」 至 「Rule_EPG_B_04」。規貝lJ「RUle_EPG_B_0r』是指「全形間隔或半角間隔被看作分隔符,且將已被分隔開
的第一字符串和第二字符串直接連接」。例如,當根據規則「Rule_EPG_B_01」的重構處理被應用於上述正規化後的標題時, 被重構的標題變成「旅行2009 歡迎 到大空! □出發時間」。規貝lJ「RUle_EPG_B_02」是指「將全形間隔或半角間隔看作分隔符,且通過全形間隔
連接已被分隔開的第一字符串和第二字符串」。例如,當根據規則「Rule_EPG_B_02」的重構處理被應用於上述正規化後的標題時, 被重構的標題變成「旅行2009 □ 歡迎 到大空! □出發時間」,這與重構之前的標題沒 有差別。如上所述,即使當應用重構規則時,也可以不加工標題字符串。規貝fJ「Rule_EPG_B_03」的規則內容是指「將全形間隔或半角間隔看作分隔符,且刪除除了被分隔開的第一字符串以外的其它字符串」。例如,根據規貝"J「Rule_EPG_B_03」的重構處理被應用到上述的初始化的標題,則被重構的標題變成「旅行2009」。規貝lJ「RUle_EPG_B_04」的規則內容是指「將全形間隔或半角間隔看作分隔符,且刪 除除了被分隔開的第二字符串以外的其它字符串」。例如,根據規貝"J「Rule_EPG_B_04」的重 構處理被應用到上述的初始化的標題,則被重構的標題變成「 歡迎 到大空! 」。圖3和圖4分別示出了正規化規則和重構規則的示例,其不限於上述規則。例如, 可以響應於關鍵詞信息51或內容數據61的類型或屬性而改變正規化規則和重構規則。返回到圖2,加工規則更新部分85被構成為對存儲在加工規則數據83中的正規化 規則和重構規則進行更新。例如,基於用戶的命令來更新正規化規則和重構規則。例如,力口 工規則更新部分85可以將從管理人員提供的規則輸入到加工規則數據83中,使得通過正 規化規則和重構規則的管理人員來更新正規化規則和重構規則。在這種情況下,例如,加工 規則更新部分85可以經由網絡等連接到管理人員的設備。內容指定部分86計算從關鍵詞獲取部分81提供的關鍵詞與從內容標題加工部分 84提供的被加工的標題之間的相似性。內容指定部分86計算從關鍵詞獲取部分81提供的 關鍵詞與從內容標題獲取部分82提供的加工前的標題之間的相似性。例如,期望通過以下方式來計算關鍵詞與標題之間的相似性通過2-gram(n-gram 中η = 2的情況被稱為二重gram(bi-gram))分割關鍵詞和每個標題,識別被分割的作為集 合的字符串,以及計算jaccard係數。例如,n-gram的細節被描述如下http://gihyo. jp/dev/serial/01/make-findspot/0005例如,jaccard係數的細節被描述如下http://ibisforest.org/index.php ? 2. 261264E+28942. 261264E+289A8. 60239 6E+2895% A45. 556400E+2525A4% E6% BO例如,內容指定部分86如上所述地針對每個加工後的標題和關鍵詞計算jaccard 係數,並存儲該jaccard係數作為每個加工後的標題與關鍵詞之間的相似性。例如,內容 指定部分86如上所述地針對每個加工前的標題和關鍵詞計算jaccard係數,並存儲該 jaccard係數作為每個加工前的標題和關鍵詞之間的相似性。上述的通過2-gram和jaccard係數進行的相似性計算是示例性的,並且可以通過 其它方法來計算該相似性。例如,內容指定部分86以降序排列所計算的相似性值,並識別具有最高的相似性 的標題作為對應於關鍵詞的內容標題。這裡,當具有最高的相似性的標題是加工後的標題 時,則將應用相應加工之前的標題(即,加工前的標題)識別為對應於關鍵詞的內容標題。可以將多個具有高相似性的高等級標題識別為對應於關鍵詞的內容標題。根據本發明的實施例,例如,即使當EPG數據中包括的內容標題與網頁等的其它 媒體中描述的內容標題不匹配時,這兩個內容標題也可以被識別。這裡,為了簡化描述,圖2中的與圖1的伺服器31到客戶端33相關聯的功能塊已 經被描述,但是不一定如上所述地對這些功能塊進行關聯。例如,可以將一個設備構成為包 括圖2的全部功能塊。可以通過記錄器32和客戶端33來實現圖2的全部功能塊。下面將參考圖5的流程圖對通過客戶端33所進行的內容識別處理的示例進行描述。
在步驟S21中,關鍵詞獲取部分81獲取關鍵詞。這時,例如,關鍵詞提供部分52 從關鍵詞信息51中讀取一個或多個預定的關鍵詞,並將所讀取的一個或多個預定的關鍵 詞提供給關鍵詞獲取部分81。例如,關鍵詞獲取部分81獲取該一個或多個關鍵詞作為文本 數據。在步驟S22中,內容標題獲取部分82獲取一個內容標題。這時,內容標題提供部分 62從內容數據的內容元數據中提取內容標題,並將所提取的內容標題提供給內容標題獲取 部分82。例如,內容標題獲取部分82獲取內容標題作為文本數據。在步驟S23中,內容指定部分86計算通過步驟S21的處理獲取的關鍵詞與通過步 驟S22的處理獲取的內容標題之間的相似性。這時,例如,通過以下方式來計算相似性通 過2-gram分割每個關鍵詞和標題,識別被分割的作為集合的字符串,以及計算jaccard系 數。在步驟S24中,內容標題加工部分84執行內容標題加工處理,稍後將參考圖6對 該內容標題加工處理進行描述。這裡,將參考圖6的流程圖對圖5的步驟S24的內容標題加工處理的詳細示例進 行描述。在步驟S41中,內容標題加工部分84執行稍後將參考圖7來描述的正規化處理。 這樣,如上所述,內容標題被正規化。在步驟S42中,內容標題加工部分84執行稍後將參考圖8來描述的重構處理。這 樣,如上所述,正規化後的內容標題被重構。下面將參考圖7的流程圖對圖6的步驟S41的正規化處理的詳細示例進行描述。在步驟S61中,內容標題加工部分84執行初始化。這裡,例如,初始化是指清除作 為先前加工對象的文本數據或使規則應用順序等返回到初始值的處理。在步驟S62中,內容標題加工部分84通過應用一個正規化規則來對內容標題進行 正規化。例如,當如同在圖3的示例中那樣地將規則「Rule_EPG_A_01」到「Rule_EPG_A_06」 存儲在加工規則數據83中時,通過首先應用規則「Rule_EPG_A_01」來執行正規化處理。在步驟S63中,內容標題加工部分84將字符串更新為規則應用之後的字符串。 例如,當作為要被加工的對象的內容標題是「戲劇□旅行2009 □ 歡迎 (結局)(重 播)到大空! □出發時間」時,應用規則「Rule_EPG_A_01」之後的字符串還是「戲劇□旅行 2009 □ 歡迎 (結局)(重播)到大空! □出發時間」。因此,在這種情況下,「戲劇□旅 行2009 □ 歡迎 (結局)(重播)到大空! □出發時間」被存儲(更新)為規則應用之 後的字符串。在步驟S64中,內容標題加工部分84確定下個正規化規則是否存在。在這種情況 下,由於規則「Rule_EPG_A_02」到「Rule_EPG_A_06」尚未被應用,所以在步驟S64中確定下 個正規化規則存在,並且處理返回到S62。在步驟S62中,應用下個正規化規則。在這種情況下,通過應用規則「Rule_EPG_ A_02」來執行正規化。因此,規則應用之後的字符串變成「戲劇□旅行2009 □ 歡迎 到大空! □出發 時間」,並且標題字符串被更新,如以上在步驟S63中所描述的那樣。
之後,重複執行步驟S62到S64的處理,直到通過應用規則「Rule_EPG_A_03」到 「Rule_EPG_A_06」來執行正規化為止。也就是說,當在步驟S62中已應用了規則「Rule_EPG_ A_06」時,在步驟S64中確定不存在下個正規化規則,並且正規化處理結束。在上述示例中,規則「Rule_EPG_A_01」到「Rule_EPG_A_06」被應用,且正規化的標 題變成「旅行2009 □ 歡迎 到大空! □出發時間」。當正規化處理結束時,存儲上述字符 串ο 下面將參考圖8的流程圖對圖6的步驟S42的重構處理的詳細示例進行描述。在步驟S81中,內容標題加工部分84獲取正規化的字符串。在上述示例的情況下, 「旅行2009 □ 歡迎 到大空! □出發時間」被獲取作為正規化的字符串。在步驟S82中,內容標題加工部分84應用一個重構規則。例如,當如在圖4的示 例中那樣地將規則「Rule_EPG_B_01」到規則「Rule_EPG_B_04」存儲在加工規則數據83中 時,通過首先應用「 Rule_EPG_B_01,,來執行重構。在上述示例中,當通過規則「Rule_EPG_B_01 」進行的重構處理被應用到在步驟 S81中獲取的字符串時,被重構的標題變成「旅行2009 歡迎 到大空! □出發時間」。在步驟S83中,內容標題加工部分84確定字符串是否已經被加工。在這種情況下, 由於在規則「Rule_EPG_B_01」之前的字符串與在規則「Rule_EPG_B_01」之後的字符串不相 同,所以在步驟S83中確定該字符串已經被加工,並且處理進行到步驟S84。在步驟S84中,內容標題加工部分84存儲被重構的串。這裡,所存儲的字符串被 看作一個加工後的標題。在步驟S85中,內容標題加工部分84確定是否存在下個重構規則。在這種情況下, 由於規則「Rule_EPG_B_02」到規則「Rule_EPG_B_04」尚未被應用,所以在步驟S85中確定 存在下個重構規則,並且處理返回步驟S82。在步驟S82中,應用下個正規化規則。在這種情況下,通過應用規則「Rule_EPG_ B_02」來執行重構處理。例如,當在上述示例中已應用了通過規則「Rule_EPG_B_02」進行的重構處理時,被 重構的標題變成「旅行2009 □ 歡迎 到大空! □出發時間」,這與重構處理之前的標題 沒有不同。如上所述,即使在重構規則被應用時,也可以不加工標題字符串。在這種情況下,在步驟S83中確定字符串尚未被加工,並且處理進行到步驟S85。重複執行步驟S82到S85的處理,並且通過應用規則「Rule_EPG_B_03」到「Rule_ EPG_B_04」來執行重構。當在步驟S82中已應用了規則「Rule_EPG_B_04」時,在步驟S85中確定下個重構 規則不存在,並且重構處理結束。當在上述示例中正規化處理結束時,規則「 Ru 1 e_EPG_B_01 」、規則「 Ru 1 e_EPG_ B_03」和規則「Rule_EPG_B_04」的重構處理結果的字符串被存儲。也就是說,通過應用內容標題加工處理而獲得的標題變成三個標題「旅行 2009 歡迎 到大空! □出發時間」、「旅行2009」和「 歡迎 到大空! 」。如上所述,內容標題加工處理被執行。返回到圖5,在步驟S24的處理之後,處理進行到步驟S25。在步驟S25中,內容指定部分86計算通過步驟S21的處理獲取的關鍵詞與所獲得的作為步驟S24的處理的結果而獲得的加工後的標題之間的相似性。在上述示例中,由於 加工後的標題的數量是3,所以計算出3個相似性值。以與在步驟S23的情況下的方式相同 的方式來計算該相似性。在步驟S26中,內容指定部分86確定是否存在下個內容。在步驟S26中確定存在 下個內容,直到從內容標題提供部分62提供的所有內容標題被完全加工為止,並且處理返 回到步驟S22。如上所述,重複執行步驟S22到S26的處理。 另一方面,當從內容標題提供部分62提供的所有內容標題已被完全加工時,在步 驟S26中確定不存在下個內容,並且處理進行到步驟S27。在步驟S27中,內容指定部分86以降序排列在步驟S23或S25中計算的相似性值。 假設這些相似性值與內容標題相關聯。在步驟S28中,內容指定部分86創建關鍵詞和內容之間的對應關係表。這時,例 如,預定數量的內容標題被選擇作為具有已計算的較高值的相似性的內容標題,上述較高 值等於或大於閾值,且被識別成對應於關鍵詞的內容標題。已經描述了針對各個內容中的每個內容而重複執行步驟S22到S26的處理的示 例,但是必要時可以執行更有效的處理。例如,可以針對存儲在內容數據61中的所有內容 而預先執行步驟S24的內容標題加工處理。將參考圖9到11進一步進行描述。圖9是示出了作為蓄積在伺服器31中的信息的、存儲在圖2的關鍵詞信息51中 的信息的示例的圖。在該示例中,作為從網頁等獲取的介紹與網際網路相連接的另一伺服器 中的內容的內容名稱的「節目名稱」連同作為該網頁的地址信息的「信息URL」一起被描述。例如,圖9中所示的信息被存儲為構成資料庫的關鍵詞信息51的記錄。記錄121是其節目名稱為「ABC紀錄片」的內容信息。同樣地,記錄122是其節 目名稱為「DEF動畫片」的內容信息,記錄123是其節目名稱為「GHI測試的鬼」的內容信 息,……,記錄124是其節目名稱為「XYZ雜耍演出」的內容信息。關鍵詞提供部分52從關鍵詞信息51的記錄中讀取被描述成節目名稱的信息作為 關鍵詞,並將所讀取的信息提供給關鍵詞獲取部分81。關鍵詞獲取部分81獲取由文本數據 構成的關鍵詞信息51的記錄的節目名稱作為關鍵詞。例如,在圖5的步驟S21中執行該處理。圖10是示出了作為蓄積在記錄器32中的信息的、存儲在圖2的內容數據61中的 信息的示例的圖。例如,基於從每個EPG等中獲取的元數據來產生圖10中所示的信息,該 信息由被附加到內容數據的元數據的信息構成。在該示例中,在元數據141、元數據142、……中描述了以下信息表示內容標題的 「標題」,以及表示對應內容的廣播日期和廣播頻道的「廣播時間」和「頻道」。在元數據141、 元數據142、……中還描述了以下信息作為對應內容的製作者的網頁的地址信息的「內容 URL "ο內容標題提供部分62從內容數據61的元數據中提取被描述為標題的信息,並將 所提取的信息提供給內容標題獲取部分82。例如,內容標題獲取部分82獲取由文本數據構 成的內容數據61的元數據標題作為內容標題。例如,在圖5的步驟S22中執行該處理。
圖11是示出了關鍵詞與內容之間的對應關係表的示例的圖。這裡,例如,客戶端 33執行內容標題識別處理,在該處理中指定與圖9中所示的每個記錄相對應的關鍵詞。如圖11所示,在關鍵詞和內容的對應關係表中描述了與關鍵詞「ABC紀錄片」、 「DEF動畫片」、「GHI測試的鬼」、……「XYZ雜耍演出」相對應的內容的元數據。也就是說,圖10的元數據141被描述成與從圖9的記錄121中獲得的關鍵詞「ABC 紀錄片」相對應的內容。元數據141的標題是「「新」ABC □紀錄片□第一集3小時特別 節 目」。當直接計算與「ABC紀錄片」之間的相似性時,可能不能獲得高的相似性。也就是說, 通過如參考圖6到8所描述的那樣地加工元數據142的標題字符串來提高與從記錄121中 獲得的關鍵詞之間的相似性,並且可以識別與該關鍵詞相對應的內容。圖10的元數據142被描述成與從圖9的記錄123中獲得的關鍵詞「GHI測試的鬼」 相對應的內容。元數據142的標題是「連續電視DGHI ☆測試的鬼(結局)「重播」」。當 直接計算與「GHI測試的鬼」之間的相似性時,可能不能獲得高的相似性。也就是說,通過如 參考圖6到8所描述的那樣地加工元數據142的標題字符串來提高與從記錄123中獲得的 關鍵詞之間的相似性,並且可以識別與該關鍵詞相對應的內容。與從圖9的記錄122和記錄124獲得的關鍵詞「DEF動畫片」和「XYZ雜耍演出」相 對應的內容分別被描述成「無」。也就是說,當不存在與對應的關鍵詞之間的相似性等於或 大於閾值的內容標題時,對應於該關鍵詞的內容被看作「無」。在圖5的步驟S28中,例如,產生圖11中所示的對應關係表。在該示例中,識別出與一個關鍵詞相對應的一個內容。替代性地,存在相似性值等 於或大於閾值的多個內容標題,可以識別與一個關鍵詞相對應的多個內容。當識別出與一個關鍵詞相對應的多個內容時,可以設置所識別的內容的數量的上 限。在這種情況下,例如,可以識別出與一個關鍵詞相對應的具有高相似性值的三個內容。替代性地,當存在相似性值等於或大於閾值的多個內容標題時,可以按從最近的 記錄日期/時間開始的順序來識別與一個關鍵詞相對應的三個內容。例如,客戶端33提示顯示器顯示圖11中所示的對應關係表。這樣,例如,客戶端 33的用戶可以從多個所記錄的內容中識別出與網際網路上介紹的內容相對應的項。替代性地,所識別的與關鍵詞相對應的內容的縮略圖可以被進一步顯示為GUI。基 於該顯示的GUI,可以再現所識別的內容。如上所述,內容標題識別處理被執行。以上描述了其中從多個被記錄到記錄器32的內容中識別與關鍵詞相對應的內容 的示例。替代性地,根據本發明的實施例,可以識別與關鍵詞相對應的元數據(例如,EPG數 據的部分)。在這種情況下,例如,獲得圖11中所示的對應關係表的客戶端33可以通過參考 圖5所描述的處理來向記錄器32發送記錄預訂命令。這樣,該用戶可以從EPG數據中識別 (指定)與期望的關鍵詞相對應的內容,並且可以基於EPG數據來進行對所識別內容的記錄 預訂。例如,在相關技術中,當不知道廣播日期/時間的信息等時,難以對節目進行識 另IJ。當僅通過節目標題信息而不使用廣播日期信息來執行識別處理時,不可能識別出雖然 節目不具有相似的節目標題但實際上相同的節目。
存在一種系統,該系統通過將日本字符(片假名)轉換成羅馬字符並確定目標字 符串中是否包括關鍵詞來識別節目。但是,在僅通過節目標題信息來執行識別處理的情況 下,難以準確執行識別處理。在內容加工側可以通過各種方式方便地改變用於識別各個內容中的內容的名稱。 例如,通常,在介紹電視節目的雜誌、網際網路的網頁等中描述的節目標題可能與由EPG數據 表示的節目標題不精確匹配。如上所述,在相關技術中,可能不能識別實際上相同的節目,以及例如可能不能記 錄期望的節目 。另一方面,根據本發明的實施例,即使在用於識別各個內容的名稱已被改變時也 可以準確識別內容。因此,本發明可以提高用戶的滿意度。以上已描述了其中要被識別的與關鍵詞相對應的內容主要是廣播節目等的內容 的示例,但其不限於此。例如,在網際網路上的運動圖像張貼站點等上提供的運動圖像數據的 內容可以被識別成與關鍵詞相對應的內容。以上描述了其中使用正規化規則和重構規則來加工內容標題以容易地確定與關 鍵詞之間的相似性的示例,但是必要時可以對關鍵詞進行加工。例如,可以通過響應於關鍵 詞信息51的記錄信息的獲取源而加工內容標題及加工關鍵詞來確定這兩者的相似性。在這種情況下,例如,期望應用圖12中所示的配置來代替圖2的配置。圖12是示 出了圖1的內容標題識別系統10的另一功能配置示例的框圖。該圖12對應於圖2,並且通 過相同的附圖標記來指示相同的元件。圖12的配置與圖2的配置的不同之處在於安裝了 關鍵詞加工部分87。圖12的其它配置與圖2的配置相同。在圖12的配置中,關鍵詞加工部分87被構成為用於通過應用存儲在加工規則數 據83中的規則來對由關鍵詞獲取部分81獲取的關鍵詞進行加工。關鍵詞加工部分87不 必通過應用正規化規則和重構規則來加工關鍵詞。例如,可以僅通過正規化規則來加工關 鍵詞。例如,在圖12的配置中,存儲在加工規則數據83中的規則可以被存儲為以下規 則該規則被劃分成要由內容標題加工部分84使用的規則和要由關鍵詞加工部分87使用 的規則。這樣,例如,即使當存儲在關鍵詞信息51中的信息的類型和存儲在內容數據61中 的內容的類型被任意地改變時,也可以適當地執行內容標題識別處理。以上已描述了加工內容標題以容易地確定與關鍵詞之間的相似性的示例,但是可 以加工關鍵詞以容易地確定與內容標題之間的相似性。也就是說,已經描述了識別與給定關鍵詞相對應的內容的本發明的以上示例,但 是即使在識別與給定內容相對應的關鍵詞時也可以應用本發明。例如,在用戶確定是否通 過顯示EPG數據來記錄預定內容時,可以基於對應的內容元數據來識別網際網路上描述的對 應的內容標題。這樣,例如,用戶可以預先檢查對內容的估計,以便確定是否記錄該內容。以上描述的一系列處理可以通過硬體或軟體來執行。當通過軟體來執行該一系列 處理時,從程序記錄介質將構成該軟體的程序安裝到嵌入在專用硬體中的計算機中,或者 例如安裝到圖13中所示的能夠通過安裝各種程序來執行各種功能的通用個人計算機700 中。
在圖13中,CPU (中央處理單元)701根據存儲在R0M(只讀存儲器)702中的程序 或從存儲部分708加載到RAM(隨機存取存儲器)703中的程序來執行各種處理。RAM 703 還適當地存儲必要的數據,使得CPU701執行各種處理。CPU 701,ROM 702和RAM 703經由總線704相互連接。輸入/輸出接口 705也連 接到總線704。輸入/輸出接口 705連接到輸入部分706,包括鍵盤、滑鼠等;顯示器,包括 LCD (液晶顯示器);輸出部分707,包括揚聲器等;存儲部分708,包括硬碟等;以及通信部 分709,包括數據機、LAN卡的網絡接口卡等。通信部分709通過包括網際網路的網絡來 執行通信處理。如果必要的話,驅動器710被連接到輸入/輸出接口 705。適當地安裝諸如磁碟、 光碟、磁光碟或半導體存儲器之類的可拆卸介質711。如果必要的話,從中讀取的計算機程 序被安裝到存儲部分708中。當通過軟體來執行上述一系列處理時,從諸如網際網路之類的網絡或包括可拆卸介 質711的記錄介質等安裝構成該軟體的程序。與圖13中所示的設備主體相分離的該記錄介質包括磁碟(包括軟盤(註冊商 標))、光碟(包括CD-ROM(光碟-只讀存儲器)或DVD(數字多功能光碟)、磁光碟(包括 MD (迷你光碟)(註冊商標)),該可拆卸介質711包括半導體存儲器等,在其上記錄節目以 向用戶分發節目。在記錄介質預先被嵌入在該設備主體中的狀態下,該記錄介質可以由記 錄要被傳送給用戶的節目的ROM 702或存儲部分708中包括的硬碟構成。這裡,已將圖13描述成個人計算機的配置示例,但是,例如,圖13可以被應用為圖 13的伺服器31到客戶端33的配置示例。參考圖2或圖12描述的功能塊可以由可操作用 於執行程序的預定步驟的CPU 701、存儲部分708或可拆卸介質711構成。在本說明書中描述的一系列處理包括要被並行執行或單獨執行的處理以及要被 按時間順序執行的處理。本發明並不限於以上描述的實施例,在不脫離本發明的範圍的情況下可以進行各 種改變。本申請包含與在2009年4月10日提交日本專利局的日本優先權專利申請JP 2009-096304中公開的主題相關的主題,其全部內容通過引用合併與此。
權利要求
一種內容處理設備,包括關鍵詞獲取裝置,用於獲取用於指定內容的關鍵詞;標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預定的加工規則來加工所獲取的標題;相似性計算裝置,用於計算加工後的標題與所述關鍵詞之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由所述關鍵詞指定的標題的內容。
2.根據權利要求1所述的內容處理設備,還包括 更新裝置,用於更新所述加工規則。
3.根據權利要求1所述的內容處理設備,其中所述加工規則包括用於正規化處理的正規化規則,所述正規化處理刪除內容標題中包括的不必要的字符 或者對字體或字符屬性進行轉換;以及用於重構處理的重構規則,所述重構處理對通過所述正規化處理正規化後的內容標題 的字符串進行結合或刪除。
4.根據權利要求3所述的內容處理設備,其中所述內容標題是電子節目指南數據中包括的內容標題,以及其中所述正規化規則包括刪除電子節目指南數據中的表示廣播期的字符串的規則。
5.根據權利要求4所述的內容處理設備,其中基於所述電子節目指南數據來設置對所識別的內容的記錄預訂。
6.根據權利要求1所述的內容處理設備,還包括第二加工裝置,用於基於預定的加工規則來加工所獲取的關鍵詞。
7.根據權利要求6所述的內容處理設備,其中所述相似性計算裝置計算加工後的關鍵詞與所述標題之間的相似性;以及 其中所述識別裝置基於所計算的相似性來識別用於指定所述標題的關鍵詞。
8.一種內容處理方法,包括以下步驟 獲取用於指定內容的關鍵詞; 獲取內容標題;基於預定的加工規則加工所獲取的標題;計算加工後的標題與所述關鍵詞之間的相似性;以及基於所計算的相似性來識別具有由所述關鍵詞指定的標題的內容。
9.一種程序,所述程序用於使得計算機用作內容處理設備,所述內容處理設備包括 關鍵詞獲取裝置,用於獲取用於指定內容的關鍵詞;標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預定的加工規則來加工所獲取的標題;相似性計算裝置,用於計算加工後的標題與所述關鍵詞之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由所述關鍵詞指定的標題的內容。
10.一種記錄介質,權利要求9所述的程序被記錄到所述記錄介質中。
11.一種內容處理設備,包括關鍵詞獲取裝置,用於獲取用於指定內容的關鍵詞; 標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預定的加工規則來加工所獲取的關鍵詞;相似性計算裝置,用於計算加工後的關鍵詞與所述標題之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由所述關鍵詞指定的標題的內容。
全文摘要
本發明公開了內容處理設備和方法、程序以及記錄介質。該內容處理設備包括關鍵詞獲取裝置,用於獲取用於指定內容的關鍵詞;標題獲取裝置,用於獲取內容標題;加工裝置,用於基於預定的加工規則來加工所獲取的標題;相似性計算裝置,用於計算加工後的標題與該關鍵詞之間的相似性;以及識別裝置,用於基於所計算的相似性來識別具有由該關鍵詞指定的標題的內容。
文檔編號H04N7/173GK101859311SQ201010129310
公開日2010年10月13日 申請日期2010年3月9日 優先權日2009年4月10日
發明者榎並嗣智, 河野真一, 礒津政明 申請人:索尼公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀