文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置的製作方法
2023-06-19 06:58:26 3
專利名稱::文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置的製作方法
技術領域:
:本發明涉及文件壓縮
技術領域:
,特別是一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置。
背景技術:
:隨著計算機技術的不斷前進,各種類型的數據文件越來越龐大,因此,導致其存儲佔用越來越多的存儲空間,而傳輸的時候需要佔用越來越多的帶寬。因此,數據文件壓縮在計算機技術中顯得越來越重要。現在,針對數據文件的壓縮分為有損壓縮和無損壓縮兩種,我們常用的WinRAR、WinZip都是屬於無損壓縮,其基本原理都是一樣的,簡單地說也就是把文件中的重複數據用更簡潔的方法表示,也就是去除數據冗餘。現有的文本壓縮算法中,包括一類統計壓縮算法,如Huffman(哈夫曼)算法等,說明如下。Huffman算法是一種基於統計的壓縮方法。它的本質就是對文本文件中的字符進行重新編碼,對於使用頻率越高的字符,其編碼也越短。經過編碼後的文本文件,主要包含2個部分Huffman碼錶部分和壓縮內容部分。解壓縮的時候,先把Huffman碼錶取出來,然後對壓縮內容部分各個字符進行逐一解碼,形成源文件。由此可見,使用Huffman算法的關鍵是形成Huffman碼錶。這裡就要用到Huffman樹的數據結構。當把一棵Huffman樹生成後,碼錶也就生成了。下舉例說明,假定我們的原始文本為〃abcbbcccc"。Huffman樹的生成包括如下步驟步驟Al,掃描源文件,對字符頻率進行統計。對於樣例,統計結果是a出現1次,b出現3次,而c出現5次,記為如圖1所示的隊列,a:1b:3c:5。步驟A2,從上述隊列中取出頻率最低的2個節點,合併成一個頻率為2節點頻率之和的樹枝節點X,加入到原隊列中,加入後,繼續保持隊列按頻率升序排列;對於樣例,得到如圖2所示的隊列;步驟A3,重複步驟A2,直到隊列中只有一個節點。步驟A4,通過上述步驟得到圖3所示的Huffman樹,葉子節點為字符,而從樹根節點到葉子節點的路徑即為該字符的Huffman編碼。從一個節點導航到其左孩子,該段路徑為O,導航到右孩子,該段路徑為1。如圖3所示,可以知道a字符的編碼就是00,b字符的編碼為01,而c字符的編碼為1,Huffman碼錶生成後,原文本〃abcbbcccc〃就變成了0001101011111的位串,按每個字符佔用2個byte計算,大小由原來的18個字節(9*2),共144個bit,變成了13個bit,2個字節。達到了壓縮的目的。解壓縮過程如下所述,首先根據Huffman碼錶生成一棵Huffman樹,然後,根據Huffman樹,對壓縮內容進行解壓縮。比如如果壓縮內容為位串0001101011111,結合圖3所示,那麼從樹根節點起,因為第一個bit為O,先轉向左子樹,第二個bit為O,再轉向左子樹,到達葉子節點a,所以解碼出來的第一個字符就是a,每次解壓一個字符,都從根節點起,根據bit流,向左或向右轉,直到到達葉子節點,也就是解壓出來的字符,一直重複此過程,直到所有的字符都被解壓縮。然而發明人在實現本發明的過程中,發現現有技術至少存在如下缺點現有技術中,針對每一個文本壓縮文檔都必須包括兩部分,一部分是用於編碼的碼錶,另一部分為文本壓縮後的編碼序列,由於這二者是在一個壓縮文檔中,所以導致壓縮率不是很理想,因此有必要提出新的壓縮方案,以進一步提高文本壓縮算法的壓縮率。
發明內容本發明實施例的目的是提供一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置,以提高文本壓縮算法的壓縮率。為了實現上述目的,本發明實施例提供了一種文件壓縮裝置,包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據所述編碼表中記錄的所述標準字串與所述編碼標識之間的對應關係,利用所述標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。上述的文件壓縮裝置,其中,所述編碼標識以數字表示,且所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。上述的文件壓縮裝置,其中,還包括統計模塊,用於對所述組成語料庫的文本文件進行詞頻統計,得到所述標準字串在所述文本文件中出現的頻率。上述的文件壓縮裝置,其中,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述搜索欄位中記錄的文件標識所指示的文件包括所述搜索欄位對應的所述標準字串,所述文件壓縮裝置還包括修改模塊,用於將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索欄位中。為了實現上述目的,本發明實施例還提供了一種文件壓縮方法,其特徵在於,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;6根據預先保存的編碼表中記錄的所述標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識。上述的方法,其中,所述編碼標識以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。上述的方法,其中,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述搜索欄位中記錄的文件標識所指示的文件包括所述搜索欄位對應的所述標準字串,所述方法還包括將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索欄位中。為了實現上述目的,本發明實施例還提供了一種文件解壓縮裝置,其特徵在於,包括第三獲取模塊,用於獲取第一待解碼序列;第一解碼模塊,用於根據預先保存的編碼表中記錄的標準字串與編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。上述的裝置,其中,所述編碼標識與以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。上述的裝置,其中,還包括統計模塊,用於對所述組成語料庫的文本文件進行詞頻統計,得到所述標準字串在所述文本文件中出現的頻率。上述的裝置,其中,還包括第二解碼模塊,用於利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。為了實現上述目的,本發明實施例還提供了一種文件解壓縮方法,其特徵在於,包括獲取第一待解碼序列;根據預先保存的編碼表中記錄的標準字串與編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。上述的裝置,其中,所述編碼標識與以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。上述的裝置,其中,還包括利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。為了實現上述目的,本發明實施例還提供了一種壓縮文件搜索裝置,其特徵在於,包括第一保存模塊,用於預先保存一編碼表,所述編碼表記錄了標準字串與以數字表示的編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述文件標識所指示的文件包括所述搜索欄位對應的所述標準字串;第二獲取模塊,用於獲取用戶輸入的搜索字符串;第二分詞模塊,用於根據所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用於從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結果輸出模塊,用於將所述文件標識集合的交集作為搜索結果輸出。為了實現上述目的,本發明實施例還提供了一種壓縮文件搜索方法,包括獲取用戶輸入的搜索字符串;根據所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;從預先保存的編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;所述編碼表記錄了標準字串與以數字表示的編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識,且所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述文件標識所指示的文件包括所述搜索欄位對應的所述標準字串;將所述文件標識集合的交集作為搜索結果輸出。為了實現上述目的,本發明實施例還提供了一種文件壓縮傳輸方法,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發送到網絡存儲伺服器。上述的裝置,其中,在獲取待壓縮文件中的部分文本時,所述方法還包括重複獲取文本到發送編碼序列的步驟,直至所述待壓縮文件中的文本全部壓縮傳輸完畢。為了實現上述目的,本發明實施例還提供了一種文件壓縮傳輸裝置,包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據所述編碼表中記錄的所述標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用於將所述第一編碼序列發送到網絡存儲伺服器。本發明實施例具有以下的有益效果首先,本發明實施例中預先保存一個針對於所有文本壓縮的碼錶,所以每個壓縮文件中都不包括碼錶,因此,大大縮小了壓縮後的文本文件的數據量,提高了壓縮率;其次,本發明實施例中的碼錶是針對全局的,是基於一個大的語料庫得到的全局的字串的編碼標識,因此能夠提供更高的壓縮比;再次,相對於現有技術的壓縮後傳輸到網絡存儲伺服器的技術方案相比,由於可以預先在網絡存儲伺服器存儲相同的編碼表,所以壓縮後的編碼序列不包括編碼表,降低了網絡負擔,而且該編碼表對所有壓縮文本都適用,在網絡存儲的文本較多時,減少了存儲最後,由於使用預先得到的編碼表,所以在發送端可以將待壓縮文本分成多個部分分別處理,處理完一部分及時傳輸,降低了對臨時存儲的需求。圖1到圖3為Huffman算法的文本壓縮處理的過程示意圖;圖4為本發明實施例的文件壓縮裝置的結構示意圖;圖5為本發明實施例的文件壓縮方法的流程示意圖;圖6為本發明實施例的壓縮文件搜索方法的流程示意圖。具體實施例方式本發明實施例的方法及裝置中,預先保存一資料庫,該資料庫記錄了用於形成文本的字或詞的利用數字表示的編碼,在進行文本壓縮時,利用該資料庫進行編碼,提高壓縮比,同時,通過在編碼表中增加一搜索欄位,利用該編碼表即可進行搜索,節省了搜索的資源消耗。如圖1所示,本發明實施例的數據文件中的文件壓縮裝置包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數字表示,且每個所述標準字串具有唯一的所述編碼標識(也就是每個標準字串的編碼標識都是不同的,標準字串與編碼標識具有一一對應關係),所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述編碼表中的所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。由上面可以知道所述標準字串的編碼標識與其出現頻率相關,因此,本發明實施例的文件壓縮裝置還包括統計模塊,用於根據組成所述語料庫的所述文本文件進行詞頻統計,得到組成所述文本文件的所述標準字串在所述文本文件中出現的頻率;現有的分詞算法分為三大類基於字符串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法,在本發明的具體實施例中不進行具體限定。9上述表格中記錄的字串與編碼標識滿足如下的條件1、標碼標識具有唯一性;2、標準字串與標碼標識具有——對應關係;3、標準字串在組成語料庫的文本文件出現的次數越多,用於表示所述字串的編碼標識的數字越小。下面以具體的實例對本發明實施例進行詳細說明。假定利用多個文本文件進行詞頻統計後,編碼表中保存了如下表所示的對應關係,應當了解的是,在此僅僅是舉例說明,編碼標識並不代表實際的情形tableseeoriginaldocumentpage10假定此時獲取模塊得到的待編碼文本為"採用適當的文字",通過分詞模塊得到如下的待編碼字串採用、適當、的、文字。查找編碼表可以得到待編碼文本的編碼序列ID6ID4ID1ID2。本發明實施例相對於現有的基於統計的壓縮方法具有以下的有益效果本發明實施例中預先保存一個針對於所有文本壓縮的碼錶,所以每個壓縮文件中都不包括碼錶,因此,大大縮小了壓縮後的文本文件的數據量,提高了壓縮率;本發明實施例中的碼錶是針對全局的,是基於一個大的語料庫得到的全局的字串的編碼標識,因此能夠提供更高的壓縮比。同時,現有技術中,為了提供搜索服務,需要將壓縮的文本文件解壓縮後,才能提供搜索服務,本發明實施例中為了進一步提供搜索服務,該編碼表中,對應於每一個所述標準字串還設置有一搜索欄位,該搜索欄位用於記錄對應的標準字串出現在哪些文件中,因此,文件壓縮裝置還包括資料庫修改模塊,用於將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的搜索欄位中;該壓縮文件搜索裝置包括第二獲取模塊,用於獲取用戶輸入的搜索字符串;第二分詞模塊,用於根據所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用於從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結果輸出模塊,用於將所述文件標識提取模塊得到的所述文件標識集合的交集作為搜索結果輸出。通過上述的處理,利用本發明實施例的壓縮裝置,在提供搜索服務時,利用該編碼表即可進行搜索服務,而不用將壓縮文件進行解壓縮,節約了系統的資源。同時,可以知道,第一編碼模塊的輸出結果是一個數字序列,因此,為了進一步提高壓縮率,本發明實施例的文件壓縮裝置還包括第二壓縮模塊,用於利用預設數值壓縮編碼算法,分別對所述第一編碼模塊得到的編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。其中,該預設數值壓縮編碼算法可以是遊程定長編碼算法、遊程變長編碼算法等數值壓縮編碼算法。同時,由於本發明實施例中利用預先保存的編碼表,而不是利用待壓縮文件中的文本來獲取編碼標識,所以本發明實施例的文件壓縮裝置用於網絡傳輸時,可以對一個文本文件中的文本分成多個部分進行串行處理,而不用等待讀取整個文件,所以能夠節省處理時間。本發明實施例的數據文件中的文本壓縮方法,如圖5所示,包括步驟51,獲取待壓縮文件中的部分或全部文本,形成待編碼文本;步驟52,根據編碼表中的標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數字表示,且每個所述標準字串具有唯一的所述編碼標識,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述標準字串的編碼標識的數字越小;步驟53,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;步驟54,利用預設數值壓縮編碼算法,分別對所述第一編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。本發明實施例還提供了對圖5所示的壓縮方法得到的壓縮文件的搜索方法,如圖6所示,包括步驟61,獲取用戶輸入的搜索字符串;步驟62,根據標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;步驟63,從編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合.步驟64,將所述文件標識集合的交集作為搜索結果輸出。本發明實施例的文件解壓縮裝置包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了所述標準字串對應的編碼標識,所述編碼標識以數字表示,且每個所述標準字串具有唯一的所述編碼標識,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小;第三獲取模塊,用於獲取第一待解碼序列;第一解碼模塊,用於根據所述編碼表記錄的所述標準字串與所述編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述待解碼序列對應的文本。當然,如果在壓縮過程中對數字序列進行了壓縮,則本發明實施例的文件解壓縮裝置還包括第二解碼模塊,用於利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到第一待解碼序列;其處理過程包括如下步驟利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到第一待解碼序列;根據編碼表記錄的標準字串與編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本。本發明實施例還提供一種文件壓縮傳輸方法,包括獲取待壓縮文件中的全部文本或部分文本,形成待編碼文本;根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發送到網絡存儲伺服器。當獲取待壓縮文件中的部分文本時,當然還應該重複執行上述步驟,直至待壓縮文件中的全部文本處理完畢。對應的文件壓縮傳輸裝置包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據所述編碼表中記錄的所述標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用於將所述第一編碼序列發送到網絡存儲伺服器。相對於現有技術的壓縮後傳輸到網絡存儲伺服器的技術方案相比,由於可以預先在網絡存儲伺服器存儲相同的編碼表,所以壓縮後的編碼序列不包括編碼表,降低了網絡負擔,而且該編碼表對所有壓縮文本都適用,在網絡存儲的文本較多時,減少了存儲量。同時,由於使用預先得到的編碼表,所以在發送端可以將待壓縮文本分成多個部分分別處理,處理完一部分及時傳輸,降低了對臨時存儲的需求。以上所述僅是本發明的優選實施方式,應當指出,對於本
技術領域:
的普通技術人員來說,在不脫離本發明原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護範圍。權利要求一種文件壓縮裝置,其特徵在於,包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據所述編碼表中記錄的所述標準字串與所述編碼標識之間的對應關係,利用所述標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。2.根據權利要求1所述的文件壓縮裝置,其特徵在於,所述編碼標識以數字表示,且所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。3.根據權利要求2所述的文件壓縮裝置,其特徵在於,還包括統計模塊,用於對所述組成語料庫的文本文件進行詞頻統計,得到所述標準字串在所述文本文件中出現的頻率。4.根據權利要求1或2或3所述的文件壓縮裝置,其特徵在於,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述搜索欄位中記錄的文件標識所指示的文件包括所述搜索欄位對應的所述標準字串,所述文件壓縮裝置還包括修改模塊,用於將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索欄位中。5.根據權利要求1或2或3所述的文件壓縮裝置,其特徵在於,還包括第二壓縮模塊,用於利用預設數值壓縮編碼算法,分別對所述第一編碼模塊得到的編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。6.—種文件壓縮方法,其特徵在於,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據預先保存的編碼表中記錄的所述標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識。7.根據權利要求6所述的方法,其特徵在於,所述編碼標識以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。8.根據權利要求6或7所述的方法,其特徵在於,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述搜索欄位中記錄的文件標識所指示的文件包括所述搜索欄位對應的所述標準字串,所述方法還包括將所述待壓縮文件的文件標識添加到每個所述至少一個待編碼字串對應的所述搜索欄位中。9.根據權利要求6或7所述的方法,其特徵在於,還包括利用預設數值壓縮編碼算法,分別對所述第一編碼序列中的與所述至少一個待編碼字串對應的編碼標識進行壓縮編碼,得到與所述待編碼文本對應的第二編碼序列。10.—種文件解壓縮裝置,其特徵在於,包括第三獲取模塊,用於獲取第一待解碼序列;第一解碼模塊,用於根據預先保存的編碼表中記錄的標準字串與編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。11.根據權利要求io所述的文件解壓縮裝置,其特徵在於,所述編碼標識與以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。12.根據權利要求11所述的文件解壓縮裝置,其特徵在於,還包括統計模塊,用於對所述組成語料庫的文本文件進行詞頻統計,得到所述標準字串在所述文本文件中出現的頻率。13.根據權利要求10或11或12所述的文件解壓縮裝置,其特徵在於,還包括第二解碼模塊,用於利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。14.一種文件解壓縮方法,其特徵在於,包括獲取第一待解碼序列;根據預先保存的編碼表中記錄的標準字串與編碼標識的對應關係,利用所述標準字串代替所述第一待解碼序列中對應的編碼標識,得到與所述第一待解碼序列對應的文本,每個所述標準字串具有唯一的所述編碼標識。15.根據權利要求14所述的方法,其特徵在於,所述編碼標識與以數字表示,所述標準字串在組成語料庫的文本文件中出現的頻率越高,用於表示所述字串的編碼標識的數字越小。16.根據權利要求14或15所述的方法,其特徵在於,還包括利用預設數值解壓縮算法,對第二待解碼序列進行解壓縮,得到所述第一待解碼序列。17.—種壓縮文件搜索裝置,其特徵在於,包括第一保存模塊,用於預先保存一編碼表,所述編碼表記錄了標準字串與以數字表示的編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識,所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述文件標識所指示的文件包括所述搜索欄位對應的所述標準字串;第二獲取模塊,用於獲取用戶輸入的搜索字符串;第二分詞模塊,用於根據所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;文件標識提取模塊,用於從所述編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;搜索結果輸出模塊,用於將所述文件標識集合的交集作為搜索結果輸出。18.—種壓縮文件搜索方法,其特徵在於,包括獲取用戶輸入的搜索字符串;根據所述標準字串對所述搜索字符串進行分詞,得到至少一個待搜索字串;從預先保存的編碼表中分別獲取每個所述至少一個待搜索字串所對應的文件標識集合;所述編碼表記錄了標準字串與以數字表示的編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識,且所述編碼表中,對應於每一個所述標準字串設置有搜索欄位,所述搜索欄位用於記錄文件標識,所述文件標識所指示的文件包括所述搜索欄位對應的所述標準字串;將所述文件標識集合的交集作為搜索結果輸出。19.一種文件壓縮傳輸方法,其特徵在於,包括獲取待壓縮文件中的部分或全部文本,形成待編碼文本;根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;根據預先保存的編碼表中記錄的標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列,每個所述標準字串具有唯一的所述編碼標識;將所述第一編碼序列發送到網絡存儲伺服器。20.根據權利要求19所述的方法,其特徵在於,在獲取待壓縮文件中的部分文本時,所述方法還包括重複獲取文本到發送編碼序列的步驟,直至所述待壓縮文件中的文本全部壓縮傳輸完畢。21.—種文件壓縮傳輸裝置,其特徵在於,包括第一保存模塊,用於保存一編碼表,所述編碼表記錄了標準字串與編碼標識之間的對應關係,每個所述標準字串具有唯一的所述編碼標識;第一獲取模塊,用於獲取待壓縮文件中的部分或全部文本,形成待編碼文本;第一分詞模塊,用於根據所述標準字串對所述待編碼文本進行分詞,將所述待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據所述編碼表中記錄的所述標準字串與編碼標識之間的對應關係,利用所述標準字串的編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列;傳輸模塊,用於將所述第一編碼序列發送到網絡存儲伺服器。全文摘要本發明實施例提供一種文件壓縮、解壓縮方法、裝置及壓縮文件搜索方法、裝置,該文件壓縮裝置包括第一保存模塊,用於保存一編碼表,編碼表記錄了標準字串與編碼標識之間的對應關係,每個標準字串具有唯一的編碼標識;第一獲取模塊,用於獲取待壓縮文件中的¨分或全部文本,形成待編碼文本;第一分詞模塊,用於根據標準字串對待編碼文本進行分詞,將待編碼文本分解成至少一個待編碼字串;第一編碼模塊,用於根據編碼表中記錄的標準字串與編碼標識之間的對應關係,利用標準字串的所述編碼標識代替對應的所述至少一個待編碼字串,得到與所述待編碼文本對應的第一編碼序列。本發明提高了文本壓縮算法的壓縮率和檢索的方便性。文檔編號H04L29/06GK101783788SQ20091007679公開日2010年7月21日申請日期2009年1月21日優先權日2009年1月21日發明者範昂申請人:聯想(北京)有限公司