一種輸入法及數據的生成方法
2023-04-25 00:40:26 3
專利名稱:一種輸入法及數據的生成方法
技術領域:
本發明屬計算機技術領域,具體地說它是一種輸入法和這種輸入法所使用的數據的生成方法。
背景技術:
最早的輸入法只採用了字庫,因此只能輸出單獨的漢字。後來經過改進增加了詞庫,因此而能輸出詞組。申請號為99115931. 4的我國發明專利申請公開說明書中介紹了一種漢字輸入中的語句提示及輸入方法,採用這種方法的輸入法首次包含有語句庫,通過記錄用戶輸出的內容並經過優化處理來生成較實用的語句庫,用戶因此可利用語句庫來進行語句輸出或進行字或詞組在重碼等情況下的智能處理。這種語句庫確實使輸入法的智能處理能力得到了很大的提高,但採用這種語句庫,在用戶輸入語句庫中包含有的內容時,智能處理能力就很高,但用戶輸入語句庫中沒有包含的內容時,智能處理能力就會非常低。並且由於受到用戶計算機計算能力及速度的限制,這種語句庫也不可能做的很大。
發明內容
本發明的目的是提供一種採用更貼近具體用戶的資料庫的輸入法及這種資料庫數據的一種生成方法,以使輸入法的智能處理能力及運用能力得到提升。本發明的目的可通過下述的方案來達到。一種輸入法,包含有一個常規輸入法模塊,還包含有其數據可被檢索或分析處理的文章庫,文章庫包含有一篇或多篇文章數據。這樣,輸入法就會利用包含有大量信息的文章來進行輸入過程中的智能處理分析。其一,文章中不僅包含有字、詞使用頻度的信息,而且還包含有字、詞的上下文、用詞風格等信息,因此可以為輸入法對重碼字詞的輸出提供更加智能的選擇分析數據。其二,文章中不僅包含有語句信息,而且還包含有語言風格、用語習慣等信息,因此可以為輸入法的語句輸出或語句提示提供更為廣泛、更加準確的檢索分析數據。其三,文章中還包含有文章格式、文章素材等信息,這些信息不僅可為輸入過程提供幫助,並且還可以為用戶的寫作等提供幫助,因此這可為輸入法的功能拓展奠定豐富的數據基礎。本發明所述的常規輸入法模塊是指,一個可在計算機中正常使用的常規的輸入法。其包括但不僅限於以鍵盤為輸入設備的拼音、五筆等編碼類的輸入法。其還包括但不僅限於以滑鼠、手寫筆、話筒等為輸入設備的各種輸入法。本發明所述的文章數據是指其數據內容可以是一篇完整文章的數據,還可以是一篇文章中的某一部分或多部分的數據,也可以是一篇文章或多篇同類文章經處理而得到的文章優化數據。所述的文章數據可以是一個存儲在計算機存儲設備上的一個計算機文件,也可以是某一個計算機文件中的一部分,還可以是計算機內存中的一個數據片段。所述的文章數據可存儲在用戶的計算機上,也可存儲在可供輸入法或用戶連接的伺服器上。所述的文章數據也可稱為文章數據片段或文章數據模塊。
本發明所述的文章庫可以是由一個或多個以計算機文件格式存在的文章數據的集合。本發明所述的文章庫也可以是一個或多個存儲在存儲設備上的計算機庫文件或庫目錄,在這種情況下,文章數據就被包含在這些計算機庫文件或庫目錄中。本發明所述的文章庫還可是計算機內存中的文章庫數據模塊,在這種情況下,某一個文章數據只是這個文章庫數據模塊中的一個文章數據片段。本發明所述的文章庫可以包含有常用文章生成的文章數據,如常用文章包括公文格式、法律文書格式、新聞文章格式等各種格式類的示例文章及某些常用的文章,但這不是必須的。我們知道,要形成一個大而全的輸入法詞組庫幾乎不可能,那麼要形成一個包含各種內容的文章庫則更是不可能。同時我們也知道,雖然漢字文化博大精深,但對某一個具體的人來說,由於他所處的位置、從事的工作、興趣愛好等情況,他所能經常使用的語言文字是有一定範圍的,並且這個範圍對絕大部分人來說並不太寬,只是漢字語言的很小一部分。 因此本發明的文章庫主要包含有針對具體用戶的情況生成的或定製的文章數據,這一類的文章數據與這一個使用輸入法的用戶有著密切的關聯,其數據內容體現了該用戶的語言習慣。因此,儘量把與用戶密切相關的文章生成的文章數據包含在本發明的文章庫中,這是提升輸入法智能處理能力的關鍵。本發明所述的文章庫可包含有取自用戶計算機上已有的文章內容而生成的文章數據。在用戶計算機上一般都保存有用戶編寫的文章,或用戶保存的文章,這些文章直接體現了用戶的語言習慣。把這些文章生成本發明的文章數據,會大大提升輸入法的智能處理能力和語句輸出能力。每一個用戶都有自己的特徵信息,其主要包括這一用戶所處的地域、所在的單位, 所從事的工作、所處的專業,寫作中所經常使用的特徵詞、詞組的使用頻度、所使用的網絡 IP等信息,特徵信息可包含這些信息其中的一種或多種但不僅限於這些信息。因此,本發明所述的文章庫還可包含有根據用戶的特徵信息從網絡上取得的文章內容而生成的文章數據。這樣,本發明可根據用戶所在的單位,可把其單位網站上的文章內容生成文章數據。本發明還可根據用戶所在的地域、所使用的網絡IP等信息,可把該地域中具有代表性的網站上的文章生成文章數據。地域中具有代表性的網站主要包括當地的市、縣、區、鄉政府網站, 當地的門戶網站,當地的新聞網站等,但不僅限於這些網站。本發明進一步還可根據用戶在寫作中所經常使用的特徵詞和高頻詞等信息,可通過網絡搜尋引擎搜索到網絡上的相關文章而生成文章數據。本發明的文章數據並不一定只能在用戶計算機上生成,也可由輸入法伺服器或其他伺服器來完成生成文章數據。特別是對於一些可歸類的文章數據,如某一個地域內的用戶群,某一個專業的用戶群,從事某一工作的用戶群等。伺服器可更專業地來進行文章數據的收集生成工作,並將生成的文章數據保存在伺服器上。因此,本發明所述的文章庫還可包含有根據用戶的特徵信息而從伺服器上下載的文章數據。當然採用用戶註冊方式的輸入法,可通過用戶註冊時來獲取用戶特徵信息,並根據特徵信息而為這一用戶生成專門的文章數據供其下載使用。一些常用文章生成的文章數據可隨輸入法直接安裝在用戶的計算機上,也可放在伺服器上供用戶使用時下載。本發明還可包含有文章數據索引庫,文章數據索引庫包含有文章數據索引信息。 從理論上講,文章庫包含的文章數據越多越好。但在實際使用中,由於受到計算機計算速度及存儲能力等因素的影響,作為輸入法並不能每次對文章庫中所有的文章數據都能進行檢索分析。而從用戶的角度上講,在用戶利用輸入法寫作或輸入一篇具體的文章時,輸入法只需要把文章庫中與用戶正在寫作或輸入的內容有關的文章數據進行檢索分析,就可達到很高的智能處理能力。為此,本發明給出了建立文章數據索引庫的方案。通過建立文章數據索引而組成文章數據索引庫,並在輸入過程中合理利用文章數據索引庫來對需要檢索分析的文章數據進行檢索分析,這樣就減少了每次操作的數據處理量,這也為輸入法建立大型的文章資料庫給出了可行的具體方案。本發明所述的文章數據索引信息主要是指文章數據的使用頻度索引、時間索引、 標題索引、詞組索引、語句索引特徵詞索引等索引信息,文章數據索引庫可以包含這些索引信息中的一種或多種,但不僅限於這些索引信息。本發明所述特徵詞是指能體現一篇文章特徵的詞組,主要包括文章標題中的詞組、專業詞組、使用頻度較高的詞組、輸入法詞庫中不包含的詞組等但不僅限於這些,特徵詞可以是其中的一種或多種。一種輸入法數據的生成方法,在計算機中有用戶數據收集模塊,用戶數據收集模塊根據用戶的特徵信息取得與用戶相關的網站或網頁連結地址,由與用戶相關的網站或網頁連結地址取得與用戶相關的網站或網頁頁面數據,由與用戶相關的網站或網頁頁面數據取得文章頁面數據連結地址,由文章頁面數據連結地址取得文章頁面數據,由文章頁面數據得到文章數據,將文章數據加入到輸入法的文章庫中。本發明所述的用戶數據收集模塊可以是包含在輸入法中一個模塊,也可以是一個獨立的模塊。當用戶數據收集模塊為一個獨立的模塊時,其可以是在用戶的計算機上,也可以是在伺服器上。當用戶數據收集模塊在伺服器上時,其直接在伺服器上完成文章數據的收集保存,當用戶輸入法需要時可從伺服器上下載所收集的文章數據而加入到輸入法文章庫中。本發明所述的與用戶相關的網站或網頁主要包括,用戶所在單位或上級單位的網站首頁,用戶所在地政府網站或上級政府網站的首頁,用戶自己確定的網站的首頁,根據用戶輸出的詞組所確定的關鍵詞並通過搜尋引擎得到的搜索結果網頁,根據用戶所從事的工作所確定的專業網站的引導網頁等,但不僅限於這些。本發明由於採用了包含有更為豐富的文章數據組成的文章庫及文章數據索引庫方案,使本發明的智能處理能力、語句輸出能力都得到了較大的提升。本發明還給出了文章庫的生成方法,使本發明文章數據來源廣泛、收集方便、貼近用戶、數據豐富的特點。本發明把輸入法的數據利用提升到了一個新的水平,為進一步開拓輸入的運用範圍奠定了堅實的基礎。由此,本發明的方案從而達到了本發明的目的。
具體實施例方式下面是本發明的實施例,通過實施例可進一步理解本發明。實施例1本實施例給出了本發明的一種輸入法,並詳細介紹了該輸入法在輸入過程中對文章資料庫的一種具體使用方法。在以鍵盤為輸入設備的計算機系統中有一個漢字拼音輸入法,在計算機硬碟中有一個文件目錄,在該文件目錄下保存有多個文章數據文件,這些文章數據文件構成了文章庫,在計算機硬碟中還有一個文章數據索引庫文件,在文章數據索引庫文件中包含有對應於文章數據的特徵詞索引信息。在漢字拼音輸入法被首次調用時,漢字拼音輸入法在內存中確定一塊固定大小的內存,根據文章數據索引庫中的索引信息,依次讀取排在文章數據索引庫前面的索引信息所對應的文章數據文件到這一塊固定大小的內存中,至到讀滿這塊內存或讀取完畢文章數據文件。在漢字拼音輸入法輸入過程中,根據輸出內容中所包含的詞組——輸出詞組,對文章數據索引庫進行檢索排序,將包含有輸出詞組的文章數據索引排序在文章數據索引庫的前面,排序後按照上面所述的讀取方法重新讀取文章數據文件到上面所述的固定大小的內存中。在漢字拼音輸入法使用過程中,可利用文章資料庫中讀入內存的文章數據來進行檢索或智能處理。這樣,由於只檢索或分析固定大小的內存數據,在漢字拼音輸入法的使用過程中就不會產生操作滯後的情況,並且由於根據輸出的內容來隨時對文章數據索引庫進行排序並重新讀入文章資料庫中的文章數據,使得文章庫中的與漢字拼音輸入法正在輸入的內容相關的文章數據始終是被讀入到了內存中而供檢索或分析利用。實施例2本實施例給出了本發明的一種文章數據的具體生成方法。在用戶計算機中有一個獨立的數據收集軟體模塊,數據收集軟體模塊保存有用戶在安裝或設置輸入法、或在設置數據收集模塊參數時輸入的用戶所在單位的網站地址和用戶所在地的政府網站地址;數據收集軟體模塊在用戶每次開啟計算機後自動運行,運行後檢測當天數據是否進行了數據收集操作,如已經進行了數據收集操作則停止本次運行,如沒有進行數據收集操作則進行如後的數據收集操作;數據收集軟體模塊取得用戶所在單位的網站地址,並通過網絡連接該網站首頁並取得首頁頁面數據,由首頁頁面數據取得一個文章頁面連結地址;檢測該文章頁面連結地址所連結的文章數據是否以前下載過及是否是新的文章,如下載過或不是新的文章則不處理,如沒有下載過並且是新的文章則下載該文章頁面數據,取掉不必要的頁面信息得到文章數據,把文章數據以文件格式保存在文章庫目錄中,提取文章數據中的特徵詞建立與該文章數據文件對應的索引並加入到文章數據索引庫中;再由首頁頁面數據取得下一個文章頁面連結地址並進行如上的對文章頁面連結地址相同的處理。這樣循環處理直到處理完畢首頁頁面數據中包含的所有的文章頁面連結地址。數據收集軟體模塊繼續取得用戶所在地的政府網站地址,並進行如上的對戶所在單位的網站地址相同的處理。這樣就生成了一個與用戶關係密切的文章資料庫,並且每天或在規定的時間段會自動向文章庫中增加新的文章數據。當然數據收集軟體模塊還可將長期沒有使用過的位於文章數據索引庫尾部的一部分文章數據索引所對應的文章數據文件刪除掉,這樣文章資料庫就會自動去除與用戶關係不大的文章數據使文章資料庫越來越精。
權利要求
1.一種輸入法,包含有一個常規輸入法模塊,本發明的特徵在於還包含有文章庫,文章庫包含有文章數據。
2.按照權利要求1所述的輸入法,其特徵在於所述的文章庫包含有取自用戶計算機上已有的文章內容而生成的文章數據。
3.按照權利要求1所述的輸入法,其特徵在於所述的文章庫包含有根據用戶的特徵信息而從網絡上取得的文章內容而生成的文章數據。
4.按照權利要求1所述的輸入法,其特徵在於所述的文章庫包含有根據用戶的特徵信息而從伺服器上下載的文章數據。
5.按照權利要求1、2、3或4所述的輸入法,其特徵在於還包含有文章數據索引庫,文章數據索引庫包含有文章數據索引信息。
6.按照權利要求5所述的輸入法,其特徵在於所述的文章數據索引信息為特徵詞索引 fn息ο
7.一種輸入法數據的生成方法,本發明的特徵是在計算機中有用戶數據收集模塊,用戶數據收集模塊根據用戶的特徵信息取得與用戶相關的網站或網頁連結地址,由與用戶相關的網站或網頁連結地址取得與用戶相關的網站或網頁頁面數據,由與用戶相關的網站或網頁頁面數據取得文章頁面數據連結地址,由文章頁面數據連結地址取得文章頁面數據, 由文章頁面數據取得文章數據,將文章數據加入到輸入法的文章庫中。
8.按照權利要求7所述的方法,其特徵在於所述的與用戶相關的網站或網頁連結地址是由用戶輸入的用戶所在單位或用戶所在地政府的網站地址。
全文摘要
本發明屬一種輸入法及數據的生成方法。它包含有由文章數據組成的文章庫,文章數據索引庫。由於採用了包含有更為豐富的文章數據組成的文章庫及文章數據索引庫方案,使本發明的智能處理能力、語句輸出能力都能得到較大的提升。本發明還給出了文章數據的生成方法,使本發明文章數據來源廣泛、收集方便、貼近用戶、數據豐富的特點。本發明把輸入法的數據利用提升到了一個新的水平,為進一步開拓輸入的運用範圍奠定了堅實的基礎。
文檔編號G06F3/023GK102375821SQ201010252418
公開日2012年3月14日 申請日期2010年8月4日 優先權日2010年8月4日
發明者陳虎 申請人:陳虎