信息識別系統的製作方法
2023-05-15 20:10:06 1
專利名稱:信息識別系統的製作方法
技術領域:
本發明涉及根據在利用內容的時間段中對內容輸入的信息估計 出利用內容的格式,掌握內容利用狀態的信息識別系統。
背景技術:
伴隨最近的寬帶網絡的普及,web內容等大容量的介質內容得到 了普及。侈寸i口, 在多數門戶 (portal service )中,使用web來進行問 巻調查(questionnaire),其作為收集個人用戶的信息的功能是重要 的,如果可以對能夠利用網際網路的用戶保證問巻調查,則可以進行全 局信息收集。
另一方面,利用紙的問巻調查是以往以來所使用的方法,雖然存 在回收費時的難點,但在當前也被廣泛利用。
但是,不論是使用了利用web的網絡上的內容的問巻調查還是 使用紙來進行的問巻調查,為了掌握整體的傾向,都需要合計並分析 所輸入或寫入的數據。
在該情況下,現狀為首先在web內容的情況下,對輸入問巻調 查的回答信息的各文本框附加回答序號標籤,根據該標籤序號,將輸 入到相同標籤序號的文本框中的數據視為針對同 一質問的回答而進 行合計、分析。
另一方面,在寫入紙的問巻調查的情況下,合計寫入紙的回答的 作業人員讀取回答內容而進行合計、分析。對於後者,近年來,利用 稱為數字筆這樣的具有可以取得寫入紙的位置數據的功能的筆系統, 來讀取紙上的筆記位置、時刻數據,而可以電子地存儲信息,在該情 況下,在紙上設定回答記錄區域,將記入到該區域內的數據視為回答 數據而進行合計、分析。另外,作為以往的分析方法,有在web內容的情況下,使用針 對設定於該內容內的回答輸入用文本框進行輸入的時刻,抽取針對問 巻調查的各質問的回答順序,或者使用所輸入的內容,來判斷內容的 正誤的功能(專利文獻l:日本特開2002 - 149048 )、(專利文獻2: 日本特開2004 - 229948 ( US 2004/0152060 ))、(專利文獻3:日本 特開2005-352877)。另外,有在為利用數字筆輸入的內容的情況下, 通過針對上述記載的回答記入區域的輸入時刻來抽取回答順序,或者 對於所輸入的內容,通過採用文字識別技術等來判斷內容的正誤的功 能(專利文獻4:日本特開2004 - 265272 )、(專利文獻5:日本特 開2004 - 127197)。
發明內容
專利文獻l、專利文獻2、專利文獻3例如通過對在學習中針對 成為教育用的PC用web內容或評價對象的接口記錄的學習者的PC 操作日誌與正確操作數據進行比較、分析,而進行操作型學習的評價。
在成為對象的內容或接口的各輸入位置,安裝有用於取得所輸入 的數據的功能,通過安裝該功能而可以取得輸入內容和時刻。因此, 為了取得輸入內容,需要在各輸入位置安裝該功能,但難以對所需的 所有內容安裝本功能。
另外,專利文獻4、專利文獻5的裝置使用數字筆來取得筆記信 息,並根據記載於筆記區域內的筆記信息來判斷筆記內容的正誤。但 是,即使在該情況下也需要預先登記應筆記的區域,並且在該登記中 通常較花費時間。因此,無法針對大量的內容在短時間內抽取用戶的 輸入過程或無法對其進行視覺化,無法發揮充分的功能。
如果對本申請公開的發明中的代表性的發明的概要進行簡單說 明,則如下所述。將個人電腦、便攜電話這樣的電子內容利用框體作 為基本,抽取向該框體的輸入行動(數據輸入輸出(輸入文本、顯示 內容)),計算出該行動數據間的類似值、差分值、行動數據與模範 數據的類似值、差分值,從而估計出內容中的數據輸入位置,根據所估計出的輸入位置估計出用戶的輸入狀況,將該估計值呈現成內容利 用狀況。
根據本發明,無需分辯用戶和內容格式,而可以根據在用戶利用 內容的期間輸入輸出的信息估計出用戶的內容利用狀態,進行所開發 出的內容評價。另外可以簡便且迅速地進行針對大量內容的評價,所
以直接反應出所利用的結果而可以迅速地制訂web內容或其他內容 的開發指南。另外,由於可以掌握用戶自身的內容嗜好和利用傾向, 所以可以恰當地提供用戶所需的信息。
圖l是示出本發明的實施方式的系統結構的框圖的一個例子。 圖2是示出數據管理解析用伺服器101的結構的框圖的一個例子。
圖3是示出數字筆伺服器102的結構的框圖的一個例子。 圖4是示出用戶用終端的結構的框圖的一個例子。 圖5是示出內容評價者用終端的結構的框圖的一個例子。 圖6A、 6B分別是用戶用終端、內容評價者用終端的輸入畫面的 一個例子。
圖7是按照內容種類的事件輸入流程(web形式)的一個例子。
圖8是按照內容種類的事件輸入流程(利用數字筆)的一個例子。
圖9是用戶用終端的閱覽畫面的一個例子。
圖IO是內容評價者用終端的閱覽畫面的一個例子。
圖ll是Web形式內容的閱覽畫面的一個例子。
圖12是數字筆形式內容的閱覽畫面的一個例子。
圖13是用戶用終端中的處理的流程的一個例子。
圖14是內容評價者用終端中的處理流程的一個例子。
圖15是用戶事件數據解析程序1010204中的解析處理流程的例子。
圖16是由數字筆用格式估計程序以及事件區域移動過程識別程序執行的事件解析的流程的一個例子。
圖17是由數據管理解析用伺服器上的解析結果顯示用程序執行 的解析結果顯示的流程的一個例子。
具體實施例方式
圖1示出作為用於實施本發明的一個方式的內容自由格式(Free Format)識別裝置。
首先,對系統結構的例子和功能的例子進行敘述。本系統如圖1 所示,由伺服器/客戶機型構成,作為伺服器環境的單元,有進行內容 管理和數據解析的數據管理解析用伺服器101和在使用紙內容的情況 下使用的數字筆伺服器102。
另一方面,作為客戶機環境的單元,作為利用內容的用戶的終端, 有用戶用終端PC103、內容評價者用終端PC 104、數字筆105、以及 數字筆用紙106。在數據管理解析用伺服器101中,進行內容資料庫 的管理、用戶登記/管理、與客戶機軟體的通信處理、事件的解析處理。
數字筆伺服器102如圖3所示,有CPU 1021、程序存儲存儲器 1022。在本存儲器中,搭載有系統程序102201、數據發送接收程序 102202、用戶事件數據解析程序102203、文字識別程序102204、數 字筆用格式估計程序102205、事件區域移動過程識別程序102206。 進而,在硬碟1023中,存儲有單詞辭典102301和識別結果數據 102302。
本伺服器具有對作為利用了設定於客戶機環境中的數字筆105 以及數字筆用紙106的結果而得到的數字筆信息進行存儲、解析的功 能,向數據管理解析用伺服器101發送解析結果。
在數據管理解析用伺服器101中,如圖2所示搭載有CPU 10101、 程序存儲存儲器10102、硬碟10103。搭載於程序存儲存儲器中的程 序是系統程序1010201 、數據積蓄程序1010202、內容管理程序 1010203、用戶事件信息解析程序1010204、解析結果顯示用程序 1010205。另外,存儲於硬碟10103中的數據是用戶事件數據1010301、標準輸入數據1010302、格式估計結果數據1010303、內容數據 1010304。
本發明中的數據管理解析用伺服器的作用主要在於,通過使用用 戶事件信息解析程序1010204,將事件日誌的種類、事件發生位置、 事件發生時刻設為軸,而對從客戶機PC發送的每個內容的多個名的 解析結果即事件信息進行解析,將事件發生所重複的區域假設成是被 指定成用戶的輸入區域的區域,而抽取用戶事件發生區域。進而,進 行在用戶事件發生區域中輸入的內容的比較,以同一信息的情況為目 的,進行在發生區域中發生的文本輸入信息即用戶事件數據1010301 與在客戶機側作為基準數據而輸入的標準解答數據1010303的匹配, 抽取以下的解答內容、步驟。
作為用戶個人單位下的解答內容、步驟,計算出(a)解答的正 誤、(b)解答所需時間、(c)解答順序、(d)解答次數,作為群 體,計算出(a)解答正誤比率、(b)各提問中的解答所需時間分布、 (c )解答順序傾向(模式分類)、(d )解答次數分布。
關於利用鍵盤、滑鼠設備的輸入,針對解答的正誤、解答正誤比 率,利用用戶事件解析程序的子程序即文本解析程序,進行各個用戶 在被估計成用戶事件發生區域的位置處輸入的信息的文本解析,而匹 配是否存在同一單詞或句子。
另一方面,在使用數字筆進行輸入的情況下,使用通過搭載文字 識別功能,而識別出在用戶事件發生區域中發生的數字筆輸入信息即 用戶事件數據1010301,並變換成文本信息這樣的手段。
對於客戶機側,作為利用內容的用戶所利用的設備,設定有用戶 用終端103、內容評價者用終端104以及數字筆105、數字筆用紙106。
作為用戶用終端的PC和數字筆、作為內容評價者用終端的PC 和數字筆例如通過USB連接,使用數字筆記入的數據經由各PC被發 送到數字筆伺服器。
由各PC發生的數字筆的用戶事件數據以外的數據從各PC被發 送到數據管理解析用伺服器101。此處,在測試等需要正確的解答的情況或希望通過問巻調查抽取與標準解答的差分的情況下,例如內容 評價者可以在各用戶事件發生區域中登記其他正確解答或標準解答, 而抽取與實際解答的差分。在進行內容的選擇、各內容的標準解答輸 入的執行、執行時的事件記錄、向各內容的解說輸入後,向伺服器發 送其結果。作為標準解答,可以輸入多個模式的標準解答。
對象內容例如設為web形式內容和數字筆對應紙基本內容這2 種內容。在用戶選擇的內容為web形式內容的情況下,用戶首先起動 內容利用程序,在用戶終端畫面601上顯示圖6A所示的頁面。此處, 在對內容進行回答的情況下,如果如圖13所示選擇"問巻調查回答頁 面",則向問巻調查回答頁面遷移。在選擇了"回答結果閱覽頁面"按 鈕的情況下,向閱覽頁面遷移。在遷移後的頁面上例如顯示出內容的 選擇菜單,當用戶選擇了期望的內容時,用戶用終端例如自動地針對 存儲在數據管理解析用伺服器的硬碟中的頁面,通過內容利用程序, 經由該伺服器的內容管理程序調出從存儲在該伺服器的硬碟中的內 容數據選擇的內容,而顯示在用戶用終端上。
在用戶選擇了"到問巻調查回答頁面,,的情況下,如圖7所示,用 戶通過在web上進行回答並關閉內容的窗口,從而回答狀態結束,事 件收集也結束。利用用戶用終端的解析用信息輸入程序,來進行用戶 經由滑鼠、鍵盤輸入的事件記錄。如果回答結束,而結束web內容, 則利用數據發送接收控制程序向數據管理解析用伺服器自動地發送 所輸入的用戶事件數據。用戶事件數據發送到伺服器的同時,還可以 積蓄到硬碟。
另一方面,在將利用了數字筆的紙基本內容設為對象的情況下, 最初的步驟也與圖13相同,但在選擇了內容之後,如圖8的流程所 示,下載PC上的PDF文件來進行列印,並使用數字筆來進行解答, 而結束解答。
利用數字筆以及數字筆伺服器進行用戶經由數字筆輸入的事件 記錄。如果將在輸入時使用的數字筆放置到與用戶用終端連接的數字 筆盒中,則存儲在數字筆中的事件信息經由用戶用終端而被記錄到數字筆伺服器。之後,管理者從數字筆伺服器取出用戶輸入事件數據,
登記到數據管理解析用伺服器。用於識別用戶的筆ID被預先登記到 數據管理解析用伺服器,作為與登錄中的用戶識別同樣的數據而進行 處理。
另外,內容評價者可以從內容評價者用終端輸入標準輸入數據。 其是如上所述在測試那樣的需要正誤信息的情況、希望在問巻調查中 觀察與標準回答的偏差的情況下進行的。
輸入方法與向用戶用終端的輸入相同,如果內容評價者起動內容 利用程序,並如圖6B或圖14所示選擇"到標準回答輸入頁面",則顯 示出內容選擇菜單,如果選擇用戶進行標準輸入的內容,則經由數據 管理解析用伺服器的內容管理程序選擇相應的內容,在內容評價者用 終端上顯示內容。另外在數字筆輸入的情況下也是與向用戶用終端的 輸入同樣的流程。
例如,使用登錄的ID來識別利用者是對內容回答的用戶還是內 容評價者。另外,所輸入的標準回答還可以作為不同文件而登記多個。
以下,對由用戶輸入的信息輸入位置即用戶輸入事件發生區域的 估計方法進行說明。在伺服器中,起動用戶事件數據解析程序。用戶 事件數據解析程序使用由數據積蓄程序積蓄的用戶輸入事件數據來 進行解析。
如圖15所示,首先,數據管理解析用伺服器從用戶用終端103 接收用於指定解析對象的數據,按照內容單位對從多個用戶終端發送 的事件數據進行分類。此處,利用用戶ID和對內容附加的內容ID來 進行分類。接下來,判斷有無標準回答。
在無標準回答的情況下,根據多個用戶的事件數據的事件輸入位 置信息,估計信息輸入位置。例如,按照以下的順序來實施。
在事件輸入時刻n與輸入時刻n + l之間,例如對於多個用戶事 件數據平均而存在2s以上的差分,並且將多個用戶數據重疊於頁面區 域的情況下,當在事件輸入時刻n輸入的事件位置p (x, y)的前後 距離(p[i-p[i-1)在頁面區域中最大而例如平均為橫向Scm或縱向3cm以上時,^沒為在n與n + l之間存在問題間的間隙,而將間隙 數m + l (0-j)估計成問題數。進而,將針對所估計出的各問題的 解答輸入始端的坐標值以及針對以n為代表的各問題的解答終端的坐 標值與問題[i-0-ml對應起來進行存儲。另外,在滑鼠點擊位置與鍵 盤輸入始端坐標位置相同的情況下,估計成在該位置存在事件發生區 域。進而,從事件發生時刻和事件發生區域抽取事件發生區域間的移 動過程,向存儲器存儲該輸入數據和移動過程。接下來,從所存儲的 多個用戶的移動過程數據抽取每個回答模式的頻度,對在同一事件發 生區域內記載或選擇出的文本數據進行比較,將該比較數據與附加了 頻度的回答模式一起存儲到存儲器。
接下來,對具有標準模式時的信息輸入位置的估計方法進行說 明。使用所輸入的標準模式和多個用戶輸入事件數據來進行事件發生 區域的估計。首先,對用戶輸入事件數據的輸入事件坐標值與標準模 式的各問題中的輸入事件坐標值進行對照,估計用戶的各解答位置。 根據對照的結果,將與標準模式的解答始端坐標值以及終端坐標值符 合的坐標值估計成針對各問題的解答始端以及終端。接下來,為了判 斷多個用戶間的回答內容的偏差、回答的正誤,針對每個區域抽取所 估計出的事件發生區域中的輸入數據(文本信息)。進而,從事件發 生時刻和事件發生區域抽取事件發生區域間的移動過程,向存儲器存 儲該輸入數據和移動過程。接下來,從所存儲的多個用戶的移動過程 數據抽取每個回答模式的頻度,對在同一事件發生區域內記載或選擇 出的文本數據與在標準輸入中記載於相同區域中的數據進行比較,將 該比較數據與附加了頻度的回答模式一起存儲到存儲器。
另外,在利用了數字筆的情況下,如圖16的流程所示,數據管 理解析用伺服器從各用戶用終端接收數字筆的用戶事件數據。在該時 刻,起動數字筆用格式估計程序,解析所輸入的數字筆的用戶輸入事 件數據,進行格式估計。
最初,通過重疊多個用戶的輸入事件數據而抽取數字筆的事件輸 入公共區域。根據公共區域的連續性估計出事件發生區域。具體而言,例如通過用lcm的網格區域切分紙區域,並抽取出輸入了重疊的事件 數據的網格所鄰接的區域,從而估計出事件發生區域。此處以坐標值
的形式向存儲器存儲所估計出的事件發生區域。
接下來,起動事件發生區域移動過程識別程序,從用戶事件數據 的事件發生時刻和事件發生區域抽取移動過程。
接下來,合計各用戶的移動過程,抽取移動模式(回答順序模式), 計算出回答順序模式的頻度,存儲到存儲器。接下來,起動文字識別
程序,利用該程序,從在事件發生區域中發生的事件信息抽取文本。 此處,在使用文件識別程序抽取出文本時,在識別結果為線狀形
狀的情況下(直線、波狀線、圓狀),抽取記載於直線、波狀線的正
上方的文本、在圓內記載成內容的內涵的文本。最後,進行事件發生
區域內文本的比較、直線上、波狀線上、圓內的文本信息的用戶數據
間比較,向存儲器存儲比較結果。
接下來,使用所存儲的事件發生區域(問題數、回答位置)、事
件發生區域內文本信息、與事件發生位置鄰接的文本信息,判斷用戶
狀態。此處示出各判斷基準的例子。 (無記入的判斷)
在無與事件區域i(問題i)的解答始端以及終端符合的輸入事件 坐標值的情況下,判斷為是無記入。
(正確、錯誤、向正確的近似度的判斷)
針對各問題,對所輸入的標準模式與用戶事件進行對照。最初檢 索與標準模式相同的事件或文本信息。在用戶事件與標準模式的事件 或文本信息相同的情況下判斷為"正確",在判斷值k[il中,返回k[i
=0,發送到信息管理控制伺服器。在用戶事件中包含有標準模式的 事件、並且在用戶事件的終端存在相同事件的情況下判斷為"正確", 返回判斷值k[il = 1,發送到信息管理控制伺服器。
另一方面,在用戶事件中包含有標準模式的事件,但在終端中不 存在的情況下,判斷為"猶豫的錯誤",返回判斷值k[i-2,發送到信 息管理控制伺服器。在用戶事件中未包含標準模式事件的情況下,判斷為"錯誤",返回判斷值k[i-3,發送到信息管理控制伺服器。將以 上的值、以及各問題中的標準模式事件和用戶輸入事件的對照數/用戶 輸入事件數的值hij登記成向正確的近似度的值。另外在數字筆數據 的情況、識別結果為線狀形狀的情況下(直線、波狀線、圓狀),進 行記載於直線、波狀線的正上方的文本、在圓內記載成內容的內涵的 文本間的比較,以與上述同樣的形式判斷正確/錯誤。 (解答時間的判斷)
將針對各問題的標準模式的回答始端時刻和終端時刻的差分、與 針對各問題的用戶的回答始端和終端時刻的差分的差分值d[i,估計 成以標準輸入時間為基準值的解答變動時間。
使用上述的方法進行輸入區域的估計以及解答內容步驟的抽取。
傾向以及模式分類來抽取針對各內容的評價傾向。
接下來,顯示解析結果。如上所述解析出的結果最初如圖17所 示,通過數據管理解析用伺服器上的解析結果顯示用程序被變換成解 析結果顯示用數據。首先,起動解析結果顯示用程序,根據所抽取的 解析結果,合計每個事件發生區域的回答結果的偏差、頻度。另外, 合計每個回答模式(問題A—問題B...、問題B—問題A…)的頻度, 整理成表化數據。最終,在從用戶用終端、內容評價者用終端提供了 分發觸發時分發上述數據。
圖9是在用戶用終端中,選擇圖6A中的"到回答結果閱覽頁面,, 而從遷移後的頁面上顯示的內容選擇菜單選擇了期望的內容時顯示 的畫面。顯示出"回答順序模式"和"回答結果"。例如按照頻度順序排 列出多個"回答順序模式"。另外,例如用對模式附加的序號被包圍的 形式,明示用戶的回答順序。在回答結果中,針對各問題、問巻調查, 例如按照頻度順序排列出回答的種類。在正確或標準回答中,在回答 之下存在"正確"或"標準回答,,這樣的記載。
用戶自身的回答例如在同一回答顯示區域中被著色。進而,利用 圖像模式(斜線、矩形…)來表示各個問題、問巻調查的回答過程(果斷的正確、猶豫的正確、果斷的錯誤、猶豫的錯誤)。如圖IO所示,
在內容評價者用終端中也進行同樣的顯示。另外,在一併記載內容和 解析結果的情況下,如圖11所示,在畫面上,與上述示出的那樣的"回
答順序模式"和"回答結果,,一起,在被估計成用戶事件發生區域的位
置,顯示表示各問題的符號(此處為A、 B…)。另外,如圖12中的 "B"所示,利用數字筆,針對線狀、波線狀、圓狀的數據,在該數據 的文本下,根據事件數據的坐標值,顯示筆記數據。
權利要求
1. 一種信息識別系統,其特徵在於,具有第一輸入單元,在顯示作為輸入對象的內容格式的第一終端中輸入多個數據;存儲單元,存儲所輸入的上述多個數據;計算出所輸入的上述多個數據間的類似值或差分值,計算出由第二終端的第二輸入單元作為標準輸入或模範輸入而輸入的數據與上述多個數據的類似值、差分值的單元;以及根據該計算結果,估計上述內容格式中的上述多個數據的信息輸入位置的單元。
2. 根據權利要求1所述的信息識別系統,其特徵在於,具有根 據所計算出的上述多個數據的信息輸入位置的信息與所輸入的上述 多個數據的輸入位置信息的類似值、差分值,估計正確輸入位置和錯 誤輸入位置的單元。
3. 根據權利要求1所述的信息識別系統,其特徵在於,具有根 據所計算出的上述多個數據的信息輸入位置的信息與所輸入的上述 多個數據的輸入位置信息的類似值、差分值,估計正確值和錯誤值的 單元。
4. 根據權利要求1所述的信息識別系統,其特徵在於,具有根 據作為上述標準輸入或模範輸入而輸入的數據的輸入內容信息與所 輸入的上述多個數據的輸入內容信息的類似值、差分值,估計錯誤值 的種類的單元。
5. 根據權利要求l所述的信息識別系統,其特徵在於,具有 存儲由上述第一輸入單元輸入的數據的坐標位置數據以及輸入時刻的單元;和根據由上述第二輸入單元作為標準輸入或模範輸入而輸入的數 據的輸入位置的輸入時刻信息與由上述第一輸入單元輸入的多個輸 入數據的輸入位置的輸入時刻信息的差分值,計算出向格式的各輸入位置的訪問次數的單元。
6. 根據權利要求1所述的信息識別系統,其特徵在於,具有 存儲由上述第一輸入單元輸入的坐標位置數據以及輸入時刻的單元;和根據由上述第二輸入單元作為標準輸入或模範輸入而輸入的數 據的輸入位置的輸入時刻信息與由上述第一輸入單元輸入的多個輸 入數據的輸入位置的輸入時刻信息的差分值,抽出向格式的各輸入位 置的訪問順序傾向的單元。
7. 根據權利要求1所述的信息識別系統,其特徵在於,具有 根據所估計出的上述內容格式中的信息輸入位置、和通過存儲由上述 第一輸入單元輸入的坐標位置數據以及輸入時刻的單元而得到的輸 入位置的輸入時刻信息,計算出向各輸入位置的訪問時間的單元。
8. 根據權利要求1所述的信息識別系統,其特徵在於,具有 根據所估計出的上述內容格式中的信息輸入位置、通過存儲由上述第 一輸入單元輸入的坐標位置數據和輸入時刻的單元而得到的所輸入 的數據的輸入位置的連續性、記載於上述內容格式中的文本的顯示位 置,估計具有連續性的輸入位置數據組所表示的文本內容的單元。
9. 根據權利要求1所述的信息識別系統,其特徵在於,具有按 照同一單詞頻度順序、輸入步驟的模式順序,顯示對由上述第一終端輸入的上述多個數據進行解析而得到的結果的單元。
全文摘要
本發明提供一種信息識別系統,將電子內容利用框體作為基本,抽取向該框體的輸入行動,計算出該行動數據間的類似值、差分值、行動數據與模範數據之間的類似值、差分值,從而估計出內容中的數據輸入位置,根據所估計出的輸入位置估計出用戶的輸入狀況,將該估計值呈現成內容利用狀況。
文檔編號G06Q10/00GK101441617SQ200810170978
公開日2009年5月27日 申請日期2008年10月21日 優先權日2007年11月21日
發明者安藤春 申請人:株式會社日立製作所