新四季網

文章信息處理裝置的製作方法

2023-05-17 04:10:26

專利名稱:文章信息處理裝置的製作方法
技術領域:
本發明涉及文章信息處理裝置,特別是涉及對於來自文章的有意義的單詞或詞組附加表示該意義或內容的信息的技術。
背景技術:
向來,作為通過對文本數據中使用的單獨的單詞進行統計處理來將單獨的單詞進行自動分類,已知有下述的一種技術,即例如對於文本數據中出現的概率為規定值以上的單詞類串附加記號(token),將文本數據的單詞及記號串所包含的單詞及記號所混合的集合加以分割,使得文本數據的單詞及記號串的生成概率為最大,將記號置換為文本數據中存在的詞組,這樣將單詞與詞組匯總進行自動分類(例如,參照專利文獻1日本專利特開平10-97286號公報)。
另外,還已知有一種技術,即在壓縮龐大的文章信息,或變換為通過聲音容易聽懂的表現形式或反過來將用口語詞彙寫的文章變換為容易讀的書面語,或從報紙新聞中抽取人名或地名或組織名或日期時間等文章的重要構成要素(固有表現形式)的系統中,能夠說明而且簡潔地指定包含字符串的限制在內的重寫規則及固有表現抽取規則,而不介意處理的順序(例如,參照專利文獻2日本專利特開2001-67355號公報)。在該技術中,利用翻譯裝置,將用戶描述的重寫規則的集合變換為確定段落文法的規則的集合,然後利用規則綜合裝置,將確定段落文法的規則的集合變換為能夠綜合進行高速並行處理的規則。重寫執行裝置接受綜合後的規則及要變換的文章(原文),將變換後的結果輸出。
但是,在上述的專利文獻1及專利文獻2所揭示的技術中,僅限於將單詞及詞組進行自動分類,連單詞或詞組所具有的意義或內容也不能表現。
另外,近年來隨著通信技術及信息控制技術的發展,在不同的地點及時間,在各信息設備終端中,頻繁地進行電子郵件交換及以主頁瀏覽為代表的那樣的文字信息交換。但是,文字信息中所包含的單詞及詞組的解讀是根據人們的記憶或判斷來進行的,有時由於文理或文章結構的判斷錯誤或記憶的錯誤,常常在文字信息的提供者與文字信息的獲得者之間,對文章的意義或內容有不同的理解。其結果存在的問題是,不能順利地用文字信息進行意向傳遞。
本發明是為解決上述那樣的問題而作出的,其目的在於,提供能夠可靠傳遞文章的意義及內容的文章信息處理裝置。

發明內容
本發明的文章信息處理裝置,具有將普通文章輸入的普通文章輸入單元、存儲形態要素解析及文章結構解析所使用的辭典的辭典存儲單元、通過對從普通文章輸入單元輸入的普通文章用辭典存儲單元中存儲的辭典進行形態要素解析來分解為記號的形態要素解析單元、根據普通文章結構對形態要素解析單元得到的記號的詞類進行解析並生成包含有意義的詞彙的結構化文章的文章結構解析單元、存儲標記(markup)所使用的數據的數據存儲單元、對於在文章結構解析單元中所生成的結構化文章中所包含的有意義的詞彙讀出並附加數據存儲單元中與該有意義的詞彙相關存儲的數據而進行標記處理的要素性質處理單元、以及將在要素性質處理單元中所生成的標記文章進行輸出的標記文章輸出單元。


圖1所示為本發明實施形態1有關的文章信息處理裝置的構成方框圖。
圖2所示為本發明實施形態1有關的文章信息處理裝置的變形例的構成方框圖。
圖3所示為本發明實施形態1有關的文章信息處理裝置的其他變形例的構成方框圖。
圖4所示為本發明實施形態1有關的文章信息處理裝置的另外其他變形例的構成方框圖。
圖5所示為本發明實施形態1有關的文章信息處理裝置的另外其他變形例的構成方框圖。
圖6所示為圖1所示的要素性質處理單元的構成方框圖。
圖7所示為圖6所示的要素性質處理單元中執行的處理流程圖。
圖8所示為圖6所示的要素關係解析單元中執行的處理流程圖。
圖9所示為圖6所示的固有名要素處理單元中執行的處理流程圖。
圖10所示為圖6所示的位置要素處理單元中執行的處理流程圖。
圖11所示為圖6所示的時間要素處理單元中執行的處理流程圖。
圖12所示為圖6所示的行為要素處理單元中執行的處理流程圖。
符號說明1 輸入單元,1a 文本文章輸入單元,1b、1c、1e 外部通信輸入單元,1d 標記文章解析單元,1f 電子郵件結構解析單元,2 標記處理單元,3 輸出單元,3a 外部通信輸出單元,10 普通文章輸入單元,11 辭典存儲單元,12 形態要素解析單元,13 文章結構解析單元,14 數據存儲單元,15 要素性質處理單元,16 標記文章存儲單元,17 標記文章輸出單元,20 要素關係解析單元,21 固有名要素處理單元,22 時間要素處理單元,23 位置要素處理單元,24 行為要素處理單元,25 數據採集單元,30 現在位置推定單元,31 時刻處理單元。
具體實施例方式
下面參照附圖詳細說明本發明的實施形態。另外,本文章信息處理裝置例如能夠在個人計算機,伺服器計算機及PDA等各種信息處理裝置上通過軟體處理來構成。
實施形態1圖1所示為本發明實施形態1有關的文章信息處理裝置的構成方框圖。該文章信息處理裝置由輸入單元1、標記處理單元2及輸出單元3構成。
輸入單元1可以由構築文章信息處理裝置的信息處理裝置的輸入裝置構成。該輸入單元1從各種形態的文章生成普通文章,送至標記處理單元2。標記處理單元2的詳細內容將在後面敘述,生成對普通文章附加標記的標記文章,送至輸出單元3。將從標記處理單元2送來的標記文章輸出。
標記處理單元2由普通文章輸入單元10、辭典存儲單元11、形態要素解析單元12、文章結構解析單元13、數據存儲單元14、要素性質處理單元15、標記文章存儲單元16及標記文章輸出單元17構成。
普通文章輸入單元10接受從輸入單元1送來的普通文章,送至形態要素解析單元12。辭典存儲單元11,存儲有形態要素解析單元12中的形態要素解析及文章結構解析單元13中的文章結構解析分別所使用的辭典。
形態要素解析單元12將從普通文章輸入單元10接受的普通文章一面參照辭典存儲單元11中存儲的辭典,一面進行形態要素解析,分解成記號。這裡,所謂記號是指構成最小意義單位的字符串。將該形態要素解析單元12分解成記號的數據送至文章結構解析單元13。另外,由於在該形態要素解析單元12進行的記號分解技術是眾所周知的,因此在本說明書中省略其詳細說明。
文章結構解析單元13將從形態要素解析單元12進行了記號分解的數據輸入,一面參照辭典存儲單元11中存儲的詞典,一面根據文章的結構來解析詞類,這樣進行文章結構解析,生成表示文章結構的數據。在該結構化的文章中包含位置要素,時間要素,固有名詞要素,行為要素等有意義的詞彙(包含單詞及詞組,下同)。將該文章結構解析單元13中生成的結構化文章送至要素性質處理單元15。另外,由於在該文章結構解析單元13進行的生成結構化文章的技術是眾所周知的,因此在本說明書中省略其詳細說明。
數據存儲單元14將標記所使用的各種數據作為資料庫進行存儲,將在該數據存儲單元14中形成的資料庫,根據從輸入單元1輸入的數據及標記處理單元2的結果所產生的數據隨時進行更新。
要素性質處理單元15對於從文章結構解析單元13送來的結構化文章所包含的有意義的詞彙,執行附加表示該詞彙的意義或內容的數據的標記處理,生成結構化的標記文章。將在該要素性質處理單元15中生成的標記文章送至標記文章存儲單元16。
標記文章存儲單元16,將從要素性質處理單元15送來的標記文章進行存儲。在該標記文章存儲單元16中存儲的標記文章從標記文章輸出單元17讀出。標記文章輸出單元17讀出標記文章存儲單元16中存儲的標記文章,送至輸出單元3。
這裡,為了理解以上那樣構成的文章信息處理裝置的概貌,以產品發表所使用的預先發表(日文プレリリ一ス)的文章為例,說明從普通文章作成標記文章的過程。將預先發表原稿的一部分,設成由以下用引號包圍所示的文章構成。
「「○○株式會社は、カ一ナビ業界初でJava(登錄商標)TMアプリに對應したDVDカ一ナビゲ一シヨンシステム「Aシリ一ズ」2モデルと、高性能ながら普及價格を實現したDVDカ一ナビゲ一シヨンシステム「Bシリ一ズ」2モデルの合計4モデルを4月20日より發殼しますので、お知らせします。」」(其譯文是「「○○株式會社在汽車導向產業首次從4月20日銷售與Java(登錄商標)TM應用對應的DVD汽車導向系統[A系列]的2種型號及實現了既高性能又普及價格的DVD汽車導向系統[B系列]的2種型號的共計4種型號,特此告知。」)若該預先發表原稿從輸入單元1輸入至標記處理單元2,則經由普通文章輸入單元10供給形態要素解析單元12。形態要素解析單元12一面參照辭典存儲單元11中存儲的辭典,一面執行形態要素解析,將以下用引號包圍所示的進行了記號分解的數據輸出。
「/「/○○株式/會社/は、/カ一ナビ/業界/初/で/Java(登錄商標)TM/アプリ/に/對應した/DVD/カ一/ナビゲ一シヨン/システム/「/A/シリ一ズ/」/2/モデル/と、/高性能/ながら/普及/價格/を/實現/した/DVD/カ一/ナビゲ一シヨン/システム/「/B/シリ一ズ/」/2/モデル/の/合計/4/モデル/を/4/月/20/日/より/發殼します/ので、/お知らせします。/」/」將從該形態要素解析單元12輸出的進行了記號分解的數據,送至文章結構解析單元13。文章結構解析單元13接受來自形態要素解析單元12的數據,一面參照辭典存儲單元11中存儲的辭典,一面進行文章結構解析,輸出下述表1表示的結構化的文章。
文章構造/
主語/○○株式會社/主語
接続語/は、/接続語
補語/
主語/「Aシリ一ズ」/主語
修飾語/カ一ナビ業界初接続語/で/接続語
修飾語/Java(登録商標)TMアプリ/修飾語
接続語/に対応した/接続語
/修飾語
修飾語/DVDカ一ナビゲ一シヨンシステム/修飾語
修飾語/2モデル/修飾語
接続語/と、/接続語
主語/「Bシリ一ズ」/主語
修飾語/高性能接続語/ながら/接続語
/修飾語
修飾語/普及価格/修飾語
接続語/を実現した/接続語
修飾語/DVDカ一ナビゲ一シヨンシステム/修飾語
修飾語/2モデル/修飾語
接続語/の/接続語
主語/合計4モデル/主語
接続語/を/接続語
修飾語/4月20日より/修飾語
述語/発売します/述語
接続語/ので/接続語
/補語
述語/お知らせします。/述語
/文章構造
([表1]譯文文章結構/
主語/○○株式會社/主語
連接詞/は、/連接詞
補語/
主語/A系列/主語
修飾語/汽車導向產業初連接詞/で/連接詞
修飾語/Java(登錄商標)TM應用/修飾詞
與連接詞/對應的/連接詞
/修飾語
修飾語/DVD汽車導向系統/修飾語
修飾語/2種型號/修飾語
連接詞/と、/連接詞
主語/[B系列]/主語
修飾語/高性能連接詞/ながら/連接詞
/修飾語
修飾語/普及價格/修飾語
實現連接詞/後的/連接詞
修飾語/DVD汽車導向系統/修飾語
修飾語/2種型號/修飾語
連接詞/的/連接詞
主語/合計4種型號/主語
連接詞/を/連接詞
修飾語/從4月20日/修飾語
謂語/銷售/謂語
連接詞/ので/連接詞
/補語
謂語/特此告知/謂語
/文章結構)將在該文章結構解析單元13中生成的結構化的文章送至要素性質處理單元15。要素性質處理單元15將來自文章結構解析單元13的結構化的文章輸入,一面參照在數據存儲單元14中形成的資料庫,一面進行附加標記的處理,生成下述表2所示的對有意義的詞彙進行標記處理的標記文章。將在該要素性質處理單元15中生成的標記文章,存入標記文章存儲單元16中。
文章/
主語/○○株式會社Position/
緯度/+35.676666/緯度
経度/+139.766666/緯度
/Position
Peculiar Name/
名稱/○○株式會社ふりがな/まるまるかぶしきがいしや/ふりがな
Name/MARUMARU CORPORATION/Name
/名稱
役員/
URI/
ttp//www.marumaru.co.jp/keireki/pdf/2001/p6.pdf/URI
/役員
組織/
URI/
http//www.marumaru.co.jp/keireki/pdf/2001/p4.pdf/URI
/組織
住所/
郵便番號/100-1234/郵便番號
広域地方自治體/東京都/広域地方自治體
地方自治體/千代田區/地方自治體
町名/丸の內二丁目/町名
住居表示/2-3/住居表示
/住所
連絡先/
URI/http//www.marumaru.co.jp/URI
TEL/03-3218-****/TEL
FAX/03-3218-****/FAX
/連絡先
/Peculiar Name
/主語
接続語/は、/接続語
補語/
主語/「Aシリ一ズ」Peculiar Name/
URI/http//www.marumaru.co.jp/carele/carnavi//URI
/Peculiar Name
/主語
修飾語/カ一ナビ業界Peculiar Name/Peculiar Name/
修飾語/初Times/1/Times
/修飾語
接続語/で/接続語
修飾語/Java(登録商標)TMアプリPeculiar Name/
URL/http//www.sun.co.jp/software/java//URL
/Peculiar Name
/修飾語
接続語/に對応した/接続語
/修飾語
修飾語/DVDカ一ナビゲ一シヨンシステムPeculiar Name//Peculiar Name
/修飾語
修飾語/2モデル/修飾語
接続語/と、/接続語
主語/「Bシリ一ズ」Peculiar Name/
URI/http//www.marumaru.co.jp/carele/carnavi//URI
/Peculiar Name
/主語
修飾語/高性能接続語/ながら/接続語
/修飾語
修飾語/普及価格/修飾語
接続語/を実現した/接続語
修飾語/DVDカ一ナビゲ一シヨンシステムPeculiar Name//Peculiar Name
/修飾語
修飾語/2モデル/修飾語
接続語/の/接続語
主語/合計4モデル/主語
接続語/を/接続語
修飾語/4月20日よりTime/
From/
DATE/2002-04-20/DATE
/From
/Time
/修飾語
述語/発売しますAct//Act
/述語
接続語/ので/接続語
/補語
述語/お知らせします。
Act//Act
/述語
/文章
([表2]譯文文章/
主語/○○株式會社Position/
緯度/+35.676666/緯度
經度/+139.766666/經度
/Position
Peculiar Name/
名稱/○○株式會社注假名/まるまるかぶしきがいしや/注假名
Name/MARUMARU CORPORATION/Name
/名稱
負責人/
URI/
Http//www.marumaru.co.jp/keireki/pdf/2001/p6.pdf/URI
/負責人
組織/
URI/
Http//www.marumaru.co.jp/keireki/pdf/2001/p4.pdf
/URI
/組織
地址/
郵政編碼/100-1234/郵政編碼
大範圍地方自治體/東京都/大範圍地方自治體
地方自治體/千代田區/地方自治體
街道名/丸の內二丁目/街道名
門牌號/2-3/門牌號
/地址
通訊處/
URI/Http//www.marumaru.co.jp/URI
TEL/03-3218-****/TEL
FAX/03-3218-****/FAX
/通訊處
/Peculiar Name
/主語
連接詞/は、/連接詞
補語/
主語/[Aシリ一ズ]Peculiar Name/
URI/http//www.marumaru.co.jp/carele/carnavi//URI
/Peculiar Name
/主語
修飾語/汽車導向產業Peculiar Name//Peculiar Name
修飾語/初Times/1/Times
/修飾語
連接詞/で/連接詞
修飾語/Java(登錄商標)TM應用Peauliar Name/
URL/http//www.sun.co.jp/software/java//URL
/Peculiar Name
/修飾語
連接詞/に對応した/連接詞
/修飾語
修飾語/DVDカ一ナビゲ一シヨンシステムPeculiar Name//Peculiar Name
/修飾語
修飾語/2モデル/修飾語
連接詞/と、/連接詞
主語/[Bシリ一ズ]Peculiar Name/
URI/http//www.mammaru.co.jp/carele/carnavi//URI
/Peculiar Name
/主語
修飾語/高性能連接詞/ながら/連接詞
/修飾語
修飾語/普及價格/修飾語
連接詞/を實現した/連接詞
修飾語/DVDカ一ナビゲ一シヨンシステムPeculiar Name//Peculiar Name
/修飾語
修飾語/2モデル/修飾語
連接詞/の/連接詞
主語/合計4モデル/主語
連接詞/を/連接詞
修飾語/4月20日よりTime/
From/
DATE/2002-04-20/DATE
/From
/Time
/修飾語
謂語/銷售Act//Act
/謂語
連接詞/ので/連接詞
/補語
謂語/お知りせします。
Act//Act
/謂語
/文章)通過這樣在要素性質處理單元15進行標記處理,生成對文章的有意義的詞彙將其意義或內容進行標記處理的標記文章。所謂有意義的單詞或詞組的標記,在上述表1及表2所示的例子中,是對「○○株式會社」附加了「位置」、「名稱」、「負責人」、「組織」、「地址」、「聯絡方式」等內容,對各內容附加了說明語句或進行了元(日文メタ)定義。另外,標記的對象是別的目標時,可以將各要素作為元定義的URI(Uniform Resource Identifier,統一資源標識)進行定義。
上述的輸入單元1如圖2所示,可以由將上述的預先發表原稿那樣的文本構成的普通文章輸入的文本文章輸入單元1a構成,文本文章輸入單元1a可以由例如鍵盤或外部存儲媒體等能夠生成普通文本文章的各種設備構成。另外,輸出單元3可以由例如顯示器裝置或印表機裝置等能夠使文章可視化的各種裝置構成。在這種情況下,輸出單元3也可以由圖3~圖5所示那樣的將標記文章向外部發送的例如由通信設備組成的外部通信輸出單元3a構成。
另外,輸入單元1可以如圖3所示,由從外部通信設備將上述的預先發表原稿那樣的普通文章輸入的外部通信輸入單元1b構成。另外,輸出單元3,可以由將標記文章向外部發送的例如通信設備組成的外部通信輸出單元3a構成。
另外,輸入單元1,可以如圖4所示,由將例如網際網路上使用的HTML(HyperText Markup Language,超文本標記言語)那樣的進行標記處理的文章輸入的外部通信輸入單元1c;以及解析來自該外部通信輸入單元1c的文章後除去標記、並生成普通文章的標記文章解析單元1d構成。另外,輸出單元3,可以由將標記文章向外部發送的例如通信設備組成的外部通信輸出單元3a構成。
再有,輸入單元1,可以如圖5所示,由將電子郵件那樣的結構化文章輸入的外部通信輸入單元1e;以及解析從該外部通信輸入單元1e輸入的文章結構、並一邊保持信頭部分與正文部分的關聯性一邊變換為普通文章的電子郵件結構解析單元1f構成。另外,輸出單元3,可以由將標記文章向外部發送的例如通信設備組成的外部通信輸出單元3a構成。
在電子郵件的信頭部分,包含表示協議類型(X-STMP-Result),發送日期(Date)、發送人(From)、收信人地址(To、CC、BCC)、標題(Subject)、郵件ID(Message-Id)、MIME類別(MIME-Version1.0)、郵件軟體類別(X-Mailer)、優先級(X-Priority)、信息優先級(X-MSMail-Priority)、正文類型(Content-Type)、正文格式(Content-Transfer-Encoding)等的數據。
正文部分是信息的本體,由普通文章構成。電子郵件結構解析單元1f,參照信頭部分所包含的正文類型(Content-Type),判斷正文部分是否是文本,在是文本時,照原樣作為普通文章輸出,在不是文本時,則刪除標記,變換為普通文章後輸出。另外,電子郵件結構解析單元1f,將發送日期(Date)、發信人(From)、收信人地址(To、CC、BCC)、標題(Subject)等信息存入在數據存儲單元14中形成的資料庫中。
現在考慮朋友(山田太郎)給我(川上花子)在2002年12月25日20時00分發送「明日の午後7時に、あなたの家に行く。(譯文明天晚上7點去你家。)」的信息的情況。在這種情況下,在信頭部分作為發信人記載了山田太郎的電子郵件地址,作為收信人地址記載了川上花子的電子郵件地址,作為發送日期記載了2002年12月25日20時00分。
該電子郵件若用圖5所示的外部通信輸入單元1e來接收,在用電子郵件結構解析單元1f變為普通文章後,經由普通文章輸入單元10輸入至形態要素解析單元12,則形態要素解析單元12一邊參照辭典存儲單元11中存儲的辭典,一邊進行形態要素解析,輸出以下用引號包圍所示的進行了記號分解的數據。
「/「/明日/の/午後/7/時/に/、/あなた/の/家/に/行く/。/」」將從該形態要素解析單元12輸出的進行了記號分解的數據送至文章結構解析單元13。文章結構解析單元13接受來自形態要素解析單元12的數據,一面參照辭典存儲單元11中存儲的辭典,一面進行文章結構解析,輸出下述表3所示的結構化文章。
文章構造/
主語//主語
補語/
修飾語/明日の午後7時に/修飾語
修飾語/あなたの家に/修飾語
/補語
述語/行く。/述語
/文章構造
([表3]譯文文章結構/
主語//主語
補語/
修飾語/明日の午□7□に/修飾語
修飾語/あなたの家に/修飾語
/補語
謂語/行く。/謂語
/文章結構)將在該文章結構解析單元13中生成的結構化文章送至要素性質處理單元15。要素性質處理單元15,將來自文章結構解析單元13的結構化文章輸入,一面參照數據存儲單元14中存儲的數據,一面進行附加標記的處理,生成下述表4所示那樣的對有意義的詞彙進行標記處理的標記文章。將在該要素性質處理單元15中生成的標記文章存儲在標記文章存儲單元16中。
文章/
主語/
Peculiar Name/
名稱/山田太郎ふりがな/やまだたろう/ふりがな
Name/YAMADA TARO/Name
/名稱
住所/
郵便番號/100-1234/郵便番號
広域地方自治體/東京都/広域地方自治體
地方自治體/千代田區/地方自治體
町名/丸の內二丁目/町名
住居表示/2-3/住居表示
/住所
連絡先/
URI/yamada [email protected]/URI
TEL/03-3218-****/TEL
FAX/03-3218-****/FAX
/連絡先
/Peculiar Name
/主語
補語/
修飾語/明日の午後7時にTime/
At/
DATE/2002-12-26T19:00Z/DATE
/At
/Time
/修飾語
修飾語/あなたの家にPeculiar Name/
名稱/川上花子ふりがな/かわかみはなこ/ふりがな
Name/KAWAKAMI HANAKO/Name
/名稱
住所/
郵便番號/669-5678/郵便番號
広域地方自治體/兵庫県/広域地方自治體
地方自治體/三田市/地方自治體
町名/三輪二丁目/町名
住居表示/3-33/住居表示
/住所
連絡先/
URI/kawano [email protected]/URI
TEL/079-559-****/TEL
FAX/079-559-****/FAX
/連絡先
/Peculiar Name
/修飾語
/補語
述語/行く。
Act//Act
/述語
/文章
([表4]譯文文章/
主語/
Peculiar Name/
名稱/山田太郎注假名/やまだたろう/注假名
Name/YAMADA TARO/Name
/名稱
地址/
郵政編碼/100-1234/郵政編碼
大範圍地方自治體/東京都/大範圍地方自治體
地方自治體/千代田區/地方自治體
街道名/丸の內二丁目/街道名
門牌號/2-3/門牌號
/地址
通訊處/
URI/yamada [email protected]/URI
TEL/03-3218-****/TEL
FAX/03-3218-****/FAX
/通訊處
/Peculiar Name
/主語
補語/
修飾語/明日の午□7□にTimes/
At/
DATE/2002-12-26T19:00Z/DATE
/At
/Time
/修飾語
修飾語/あなたの家に名稱/川上花子注假名/かわかみはなこ/注假名
Name/KAWAKAMI HANAKO/Name
/名稱
地址/
郵政編號/669-5678/郵政編號
大範圍地方自治體/兵庫縣/大範圍地方自治體
地方自治體/三田市/地方自治體
街道名/三輪二丁目/街道名
門牌號/3-33/門牌號
/地址
通訊處/
URI/kawano [email protected]/URI
TEL/079-559-****/TEL
FAX/079-559-****/FAX
/通訊處
/Peculiar Name
/修飾語
/補語
謂語/
Act// Act
/謂語
/文章)這樣電子郵件的信息對有意義的詞彙、將其意義或內容進行標記處理。所謂有意義的詞彙,在上述的例子中,是作為信息中沒有載明的主語附加「名稱」、「地址」、「通訊處」等數據,對各數據附加說明文或元定義。另外,在標記的對象是別的目標時,可以將各要素作為元定義的URI進行定義。
下面詳細說明構成上述標記處理單元2的一部分的要素性質處理單元15。
要素性質處理單元15,如圖6所示,由要素關係解析單元20、固有名要素處理單元21、時間要素處理單元22、位置要素處理單元23、行為要素處理單元24及數據採集單元25構成。
現在位置推定單元30、時刻處理單元31及上述的數據存儲單元14與數據採集單元25連接。數據採集單元25,從這些現在位置推定單元30、時刻處理單元31及數據存儲單元14取得數據,然後提供給固有名要素處理單元21、時間要素處理單元22、位置要素處理單元23及行為要素處理單元24進行處理。
現在位置推定單元30,推定文章作者及文章所表示的位置要素的現在位置,送至要素性質處理單元15的數據採集單元25。另外,時刻處理單元31,根據現在的日期時間計算與時刻要素(見後述)相對應的日期時間,送至要素性質處理單元15的數據採集單元25。
要素性質處理單元15,對於從文章結構解析單元13送來的文章結構解析完成的文章所包含的各詞彙,按照圖7的流程圖所示的順序進行處理。即,在要素性質處理單元15中,首先檢查從文章結構解析單元13送來的文章結構解析完成的文章所包含的詞彙是否是名詞要素(步驟ST10)。然後,若判斷為是名詞要素,則起動要素關係解析單元20,進行要素關係解析處理(步驟ST11)。
另外,在上述步驟ST10中,若判斷為不是名詞要素,則接下來檢查上述詞彙是否是動詞要素(步驟ST12)。然後,若判斷為是動詞要素,則起動要素關係解析單元20,進行要素關係解析處理(步驟ST11)。另外,若判斷為上述詞彙也不是動詞要素,則知道該詞彙不是意義要素,結束對該詞彙的處理,轉移至下一個詞彙的處理。接著,重複步驟ST10~ST12的處理,一直到對從文章結構解析單元13送來的文章結構解析完成的文章所包含的全部詞彙的處理結束為止。
要素關係解析單元20在上述的要素性質處理單元15中判斷為文章結構解析完成的文章所包含的詞彙是名詞要素或動詞要素時,還進一步判斷是位置要素、時間要素、固有名要素及動詞要素等意義要素的哪一個要素,然後進行與各意義要素相對應的處理。
具體來說,要素關係解析單元20按照圖8的流程圖所示的順序進行處理。即,在要素關係解析單元20中,首先檢查文章結構解析完成的文章所包含的詞彙是否是名詞要素(步驟ST20)。然後,若判斷為是名詞要素,則接下來檢查該名詞要素是否是位置要素(步驟ST21)。位置要素中包含文章作者的位置及文章所表示的位置。這裡,若判斷是位置要素,則將控制轉移至位置要素處理單元23,進行位置要素處理(步驟ST22)。然後,流程返回至上述的要素性質處理單元15的處理。
在上述步驟ST21中,若判斷為不是位置要素,則接下來檢查名詞要素是否是時間要素(步驟ST23)。在時間名要素中包含文件寫成的時間及文章的表示的時間。這裡,若判斷為是時間要素,則將控制轉移至時間要素處理單元22,進行時間要素處理(步驟ST24)。然後,流程返回至上述的要素性質處理單元15的處理。
在上述步驟ST23中,若判斷為不是時間要素,則接下來檢查名詞要素是否是固有名要素(步驟ST25)。因固有名要素中包含文章作者的固有名及文章所表示的固有名。這裡,若判斷為是固有名要素,則將控制轉移至固有名要素處理單元21,進行固有名要素處理(步驟ST26)。然後,流程返回至上述的要素性質處理單元15的處理。在步驟ST25中,在判斷為不是固有名要素時,流程也返回至上述的要素性質處理單元15的處理。
在上述步驟ST20中,若判斷為文章結構解析完成的文章所包含的詞彙不是名詞要素,則接下來檢查該詞彙是否是動詞要素(步驟ST27)。然後,若判斷為是動詞要素,則將控制轉移至行為要素處理單元24,進行行為要素處理(步驟ST28)。然後,流程返回至上述的要素性質處理單元15的處理。在步驟ST27中,在判斷為不是動詞要素時,流程也返回至上述的要素性質處理單元15的處理。
固有名要素處理單元21對固有名要素進行標記處理。具體來說,固有名要素處理單元21按照圖9的流程圖所示的順序進行處理。即,在固有名要素處理單元21中,首先採集固有名要素的標記要素數據(步驟ST30)。具體來說,固有名要素處理單元21,從數據存儲單元14中形成的資料庫,通過數據採集單元25,採集與該固有名要素相關的數據。
然後,進行賦予固有名要素標記(步驟ST31)。即,固有名要素處理單元21對固有名要素相對應附加用上述步驟ST30採集的數據。然後,進行內部數據與該文本的相關標記處理(步驟ST32)。具體來說,固有名要處理單元21將採集的數據作為標記收容在文章結構內。通過這樣,例如如表2所示,作為「○○株式會社」的標記,其中包括用標籤Peculiar Name包圍的帶標籤的「位置(Position)」、「名稱」、「負責人」、「組織」、「地址」、「通訊處」等。然後,流程返回至要素關係解析單元20的處理。
位置要素處理單元23對位置要素進行標記處理。具體來說,位置要素處理單元23,按照圖10的流程圖所示的順序進行處理。即,在位置要素處理單元23中,首先採集位置要素的標記要素數據(步驟ST40)。具體來說,位置要素處理單元23從現在位置推定單元30,通過數據採集單元25,收集與該位置要素相對應的現在位置,再從數據存儲單元14中形成的資料庫,通過數據採集單元25,採集與該採集的現在位置相關的數據。
然後,進行賦予位置要素標記(步驟ST41)。即,位置要素處理單元23與位置要素相對應附加用上述步驟ST40採集的數據。然後,進行內部數據與該文本的相關標記處理(步驟ST42)。具體來說,位置要素處理單元23將採集的數據作為標記放置在文本文章結構內。通過這樣,例如如表2所示,作為「○○株式會社」的標記,其中包括用標籤Position包圍的帶標籤的「經度」、「緯度」等數據。然後,流程返回至要素關係解析單元20的處理。
時間要素處理單元22對時間要素進行標記處理。具體來說,時間要素處理單元22按照圖11的流程所示的順序進行處理。即,在時間要素處理單元22中,首先進行時間要素的標記要素數據的採集(步驟ST50)。具體來說,時間要素處理單元22從時刻處理單元31,通過數據採集單元25,採集與該時間要素相對應的日期時間。
接著,進行賦予時間要素標記(步驟ST51)。即,時間要素處理單元22在表4所示的例子中,將在上述步驟ST50採集的日期時間與時間要素相對應。然後,進行內部數據與該文本的相關標記處理(步驟ST52)。具體來說,時間要素處理單元22將採集的日期時間作為標記收容在文本文章結構內。通過這樣,例如如表4所示,作為「明日の午□7時に(譯文明天晚上7點)」的標記,其中包括用標籤Time包圍的帶標籤的「2002-12-26T19:00Z」的數據。然後,流程返回至要素關係解析單元20的處理。
行為要素處理單元24對行為要素進行標記處理。具體來說,行為要素處理單元24按照圖12的流程圖所示的順序進行處理。即,在行為要素處理單元24中,首先進行行為要素的標記要素數據的採集(步驟ST60)。具體來說,行為要素處理單元24通過數據採集單元25,從數據存儲單元14中形成的資料庫,採集與該行為相關的數據。
接著,進行賦予行為要素標記(步驟ST61)。即,行為要素處理單元24,將在上述步驟ST60採集的數據與行為要素相對應。然後,進行內部數據與該文本的相關標記處理(步驟ST62)。具體來說,行為要素處理單元24將採集的數據作為標記收容在文本文章結構內。通過這樣,例如如表4所示,作為「行く(譯文去)」的標記,其中包括用標籤Act包圍的空要素。然後,流程返回至要素關係解析單元20的處理。
如上所述,根據本實施形態1有關的文章信息處理裝置,由於將各種各樣的文字信息或文章分解成詞彙(單詞或詞組),再根據詞類進行分類,並根據文章結構及信息設備終端中存儲的資料庫,對分類的詞彙施加帶意義或帶內容用的標記,通過這樣對文章所包含的詞彙自動附加意義或內容,因此對文章的收件人能夠消除單詞或詞組在意義上的模糊不清,能夠進行意義、內容的正確傳遞。其結果,能夠用文字信息順利地進行意向傳遞。
另外,進行標記處理的單詞或詞組的意義或內容不僅以文章來表現,還能夠表現聲音或圖像等的目標。因而,在各種各樣的文字信息及文章交換時,能夠順利進行意向傳遞。
另外,在上述的實施形態1中,文章信息處理裝置是作為在信息處理裝置上構成的裝置進行說明的,當然能夠由獨立的硬體來構成。
發明的效果如上所述,根據本發明,由於將文字信息或文章分解成詞彙,再根據詞類進行分類,並根據文章結構及存儲的數據,對分類的詞彙施加帶意義或帶內容用的標記,通過這樣對文章所包含的詞彙自動附加意義或內容,因此對文章的收件人能夠消除詞彙在意義上的模糊不清,能夠正確傳遞意義及內容。
權利要求
1.一種文章信息處理裝置,其特徵在於,具有將普通文章輸入的普通文章輸入單元、存儲形態要素解析及文章結構解析使用的辭典的辭典存儲單元、通過對從所述普通文章輸入單元輸入的普通文章用所述辭典存儲單元中存儲的辭典進行形態要素解析來分解為記號的形態要素解析單元、根據所述普通文章的文章結構對所述形態要素解析單元得到的記號的詞類進行解析並生成包含有意義的詞彙的結構化文章的文章結構解析單元、存儲對標記所使用的數據的數據存儲單元、對於在所述文章結構解析單元生成的結構化文章中所包含的有意義的詞彙讀出並附加所述數據存儲單元中與該有意義的詞彙相關存儲的數據而進行標記處理的要素性質處理單元、以及將在所述要素性質處理單元生成的標記文章進行輸出的標記文章輸出單元。
2.如權利要求1所述的文章信息處理裝置,其特徵在於,還具有生成普通文本文章後送至普通文章輸入單元的文本文章輸入單元。
3.如權利要求1所述的文章信息處理裝置,其特徵在於,還具有從外部利用通信將普通文章輸入後送至普通文章輸入單元的外部通信輸入單元。
4.如權利要求1所述的文章信息處理裝置,其特徵在於,還具有從外部利用通信將進行標記處理的文章輸入的外部通信輸入單元、以及將來自所述外部通信輸入單元的進行標記處理的文章通過解析除去標記後生成普通文章並送至普通文章輸入單元的標記文章解析單元。
5.如權利要求1所述的文章信息處理裝置,其特徵在於,還具有從外部利用通信將電子郵件輸入的外部通信輸入單元、以及將來自所述外部通信輸入單元的電子郵件的結構進行解析後生成普通文章並送至標記文章輸入單元的電子郵件結構解析單元。
6.如權利要求2至權利要求5中的任一項所述的文章信息處理裝置,其特徵在於,還具有將來自標記文章輸出單元的標記文章利用通信向外部送出的外部通信輸出單元。
7.如權利要求1所述的文章信息處理裝置,其特徵在於,要素性質處理單元,具有對在文章結構解析單元中所生成的結構化文章所包含的有意義的詞彙、使其與表示意義的內容的意義要素相關的要素關係解析單元。
8.如權利要求7所述的文章信息處理裝置,其特徵在於,還具有對表示固有名的固有名要素附加標記的固有名要素處理單元,要素關係解析單元在意義要素是固有名要素時,起動所述固有名要素處理單元。
9.如權利要求7所述的文章信息處理裝置,其特徵在於,還具有對表示時刻的時間要素附加標記的時間要素處理單元,要素關係解析單元在意義要素是時間要素時,起動所述時間要素處理單元。
10.如權利要求9所述的文章信息處理裝置,其特徵在於,還具有計算與時間要素對應的日期時間的時刻處理單元,時間要素處理單元將來自所述時刻處理單元的日期時間作為標記附加於所述時間要素。
11.如權利要求7所述的文章信息處理裝置,其特徵在於,還具有對表示位置的位置要素附加標記的位置要素處理單元,要素關係解析單元在意義要素是位置要素時,起動所述位置要素處理單元。
12.如權利要求11所述的文章信息處理裝置,其特徵在於,還具有推定與位置要素相對應的現在位置的現在位置推定單元,位置要素處理單元將來自所述現在位置推定單元的現在位置作為標記附加於所述位置要素。
13.如權利要求7所述的文章信息處理裝置,其特徵在於,還具有對表示行為的行為要素附加標記的行為要素處理單元,要素關係解析單元在意義要素是行為要素時,起動所述行為要素處理單元。
全文摘要
本發明提供能夠可靠傳遞文章的意義及內容的文章信息處理裝置。具有將從普通文章輸入單元(10)輸入的普通文章用辭典存儲單元中存儲的辭典進行形態要素解析來分解為記號的形態要素解析單元(12)、對該形態要素解析單元(12)得到的記號的詞類進行解析並生成包含有意義的詞彙的結構化文章的文章結構解析單元(13)、對於在該文章結構解析單元(13)中所生成的結構化文章中所包含的有意義的詞彙將與該詞彙相關存儲的數據附加於數據存儲單元(14)中來進行標記處理的要素性質處理單元(15)、以及將在要素性質處理單元(15)中所生成的標記文章輸出的標記文章輸出單元(17)。
文檔編號G06F17/28GK1604076SQ200410032449
公開日2005年4月6日 申請日期2004年4月9日 優先權日2003年4月10日
發明者三次達也 申請人:三菱電機株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀