一種數據轉發的方法

2023-04-29 08:09:06 3

專利名稱：一種數據轉發的方法
技術領域：
本發明涉及數據傳輸技術，特別是涉及一種數據轉發的方法。
背景技術：
隨著計算機和網絡技術的迅速發展，不同的客戶端之間可以利用網絡進行交互，比如在線聊天等。為了加強對網絡信息的管理，不允許危害社會穩定的信息隨意在網絡上傳播，一般需要由轉發伺服器對用戶輸入的信息進行過濾或檢索，再根據檢索結果進行轉發或不轉發。
下面以客戶端A和客戶端B之間進行信息交互為例來說明數據轉發方法的基本思想客戶端A先將需要發送的數據發送給轉發伺服器；轉發伺服器採用某種詞語檢索技術對客戶端A的數據進行檢索，並判斷是否有敏感詞語，如果有，則進行相關處理；否則，將客戶端A的數據轉發給客戶端B。這裡，所述的相關處理的方法有很多，比如轉發伺服器將敏感詞語過濾以後，再將客戶端A的其它數據轉發給客戶端B；或者，轉發伺服器完全不轉發客戶端A的數據，而將其全部刪除。在現有技術中，轉發伺服器對敏感詞語的相關處理，可以根據實際情況來確定，此處不再贅述。
目前，客戶端之間交互的信息一般有中文和非中文，其中，中文一般可以由漢字構成詞語，而非中文則由字母構成詞語。利用構成一個詞語的原理，轉發伺服器的詞語檢索方法採用的方法一般為將所有的漢字或字母保存在類似於數組存儲方式的單元中，再將每一個單元中的漢字或字母能組成的所有詞語依次進行連結。當需要對某詞語進行檢索時，先在數組中查找與該詞語的第一字內容相同的單元，然後再查找與該單元連結的單元。當然，檢索的詞語可以是中文詞語，也可以如英文之類的非中文詞語，下面以檢索中文詞語為例來說明現有技術中檢索詞語的原理。
圖1顯示了現有技術中檢索詞語原理的示意圖。如圖1所示，由漢字構成的數組一共有3個單元，每一個單元分別保存了一個漢字的編碼。當給出需要檢索的詞語「風扇」時，首先在數組中查找「風」，然後再在與保存「風」的單元連結的單元中依次查找被檢索的詞語，直到正確查找到「風扇」這個詞語。
目前，隨著網絡和計算機的普及，越來越多的客戶可以通過網絡進行信息交互，轉發伺服器需要處理的信息量也不可避免地增大。而在現有技術中，根據詞語構成的特點，轉發伺服器需要檢索的數組非常大，檢索速度緩慢，導致轉發數據速度也非常緩慢，影響了用戶在線交互信息的實時性體驗效果。比如由於經常使用的中文漢字大致有2000多個，即由漢字構成的數組有2000多個單元。轉發伺服器需要先在有2000多個單元的數組中檢索詞語的第一個字，再到與該字連結的單元中逐一檢索詞語。如果轉發伺服器採用上述的檢索方法，則轉發數據的速度最多為80M/S，而實際的網絡信息量需要轉發伺服器可以達到100M/S以上的轉發速度。可見，現有技術已經不能滿足實際網絡信息流量的需求，影響用戶的在線體驗。
另外，如果用戶數據中有中文與拼音混合組成一個詞語時，現有技術還不能對其進行識別，無法對用戶數據進行安全性監控，防止不良信息的傳播。
由此可見，在現有技術中，還沒有一種可以對用戶數據進行有效監控，並且可以實現快速轉發的方法。

發明內容
有鑑於此，本發明的主要目的在於提供一種數據轉發的方法，該方法不但可以對用戶數據進行有效監控，並且可以實現快速轉發。為了達到上述目的，本發明提出的技術方案為一種數據轉發的方法，包括以下步驟a、轉發伺服器接收來自客戶端的數據；
b、轉發伺服器根據保存在自身緩衝區的詞語狀態樹對客戶端數據進行檢索，並根據檢索結果判斷是否允許轉發，如果允許，則將客戶端數據轉發出去。
較佳地，所述步驟b包括b1、轉發伺服器確定當前詞語的第一個字單元；b2、轉發伺服器根據詞語狀態樹，從當前詞語的第一個字單元開始進行詞語檢索，並在結束當前詞語檢索時獲得當前節點標記信息；b3、轉發伺服器根據當前節點標記信息中的詞語檢索狀態信息判斷當前詞語是否檢索成功，如果是，則根據標記信息中的詞語權值信息獲得當前詞語的詞語權值；否則，不作處理；b4、轉發伺服器判斷是否已經處理完緩衝區中所有的客戶端數據，如果是，則執行步驟b5；否則，執行步驟b1；b5、轉發伺服器將所有的詞語權值作為檢索結果，並根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去。
較佳地，當所述詞語狀態樹為非中文詞語狀態樹時，所述步驟b2包括S1、轉發伺服器將非中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；S2、轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；S3、轉發伺服器判斷當前字單元內容是否為詞語結束標記，如果是，則執行步驟S4；否則，執行步驟S2；S4、轉發伺服器獲得當前節點的標記信息，結束當前詞語檢索。
較佳地，所述步驟a之前進一步包括根據漢字的讀音規則將漢字進行分類，並為每一類漢字分配對應的讀音ID號，建立漢字與讀音ID號的對應關係。
較佳地，當所述詞語狀態樹為中文詞語狀態樹時，則所述步驟b2包括R1、轉發伺服器將中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；R2、轉發伺服器確定當前字單元對應的讀音ID號；R3、轉發伺服器再根據當前字單元對應的讀音ID號確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；R4、轉發伺服器判斷是否結束當前詞語檢索，如果是，則結束當前詞語檢索；否則，執行步驟R2。
較佳地，當所述當前字單元內容為中文漢字編碼時，則步驟R2所述確定當前字單元對應的讀音ID號的方法為轉發伺服器根據由漢字與讀音ID號對應關係建立的讀音轉換表獲得與當前字單元對應的讀音ID號。
較佳地，當所述當前字單元內容為中文拼音字母時，則步驟R2所述確定讀音ID號的方法為轉發伺服器將當前字單元作為拼音處理過程中當前詞語的第一個字單元，並開始進行拼音處理過程，獲得讀音ID號。
較佳地，所述拼音處理過程為X1、轉發伺服器將非中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；X2、轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；X3、轉發伺服器判斷當前字單元內容是否為中文拼音字母，如果是，則執行步驟X2；否則，執行步驟X4；X4、轉發伺服器獲得當前節點的標記信息，再根據標記信息獲得讀音ID號。
綜上所述，本發明提出一種數據轉發的方法，由於轉發伺服器根據詞語狀態樹進行詞語檢索，可以提高檢索速度，從而達到快速轉發用戶數據的目的。另外，由於本發明將中文和中文拼音統一轉換為讀音ID號，可以識別由中文和中文拼音組成的混合詞語，達到對用戶數據進行安全性監控，防止不良信息傳播的目的。

圖1是現有技術中詞語檢索原理示意圖；圖2是實現本發明方案的流程圖；圖3是實施例一的非中文詞語狀態樹示意圖；圖4是應用本發明方案的實施例一的流程圖；圖5是實施例二的中文詞語狀態樹示意圖；圖6是應用本發明方案的實施例二的流程圖。
具體實施例方式
為使本發明的目的、技術方案和優點更加清楚，下面將結合附圖及具體實施例對本發明作進一步地詳細描述。
本發明的基本思想是客戶端將數據發送給轉發伺服器，轉發伺服器根據詞語狀態樹對客戶端數據進行檢索，再根據檢索結果進行數據轉發。
圖2顯示了本發明方案的流程圖。如圖2所示，本發明實現數據轉發的方法包括以下步驟步驟201轉發伺服器接收來自客戶端的數據，並將客戶端數據保存於自身緩衝區。
步驟202轉發伺服器根據保存在自身緩衝區的詞語狀態樹對客戶端數據進行檢索，獲得檢索結果。
步驟203轉發伺服器根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去；否則，不作處理。
本發明中，詞語狀態樹包括兩種類型一種為中文詞語狀態樹，另一種非中文詞語狀態樹，可以對中文詞語、非中文詞語，以及中文和拼音混合的詞語進行檢索。其中，非中文詞語指的是類似於用英文字母組合而成的詞語，而中文詞語則是指由中文漢字構成的詞語。詞語的字單元為組成詞語的最小單位。在中文詞語中，一個字單元就是一個漢字；在非中文詞語中，一個字單元是一個字母。字單元內容則為漢字編碼或英文字母的ASCII碼。
本發明中，詞語狀態樹包括根節點在內的若干節點的一棵樹，每一個節點包括若干節點單元，每一個節點單元不但包括節點單元內容，還包括可以指向後繼節點的信息，如指針。另外，每一個節點有自身的標記信息，包括詞語檢索狀態信息和詞語權值信息。其中，詞語檢索狀態信息可以表示從根節點到當前節點的前一個節點的路徑中，節點單元所組成的詞語的檢索情況，可以是表示該詞語是否為敏感詞語的信息，也可以是詞語對應的其它信息，如讀音ID號或漢字編碼等。這裡所述的敏感詞語為在實際應用中不允許傳播的詞語，由標記信息中的詞語權值信息來表示詞語的敏感程度。在實際應用中，敏感詞語可以由應用本發明方案的用戶自行定義，相應的詞語敏感程度，即詞語權值信息也可以自行定義。
本發明中，在轉發伺服器進行詞語檢索之前需要建立詞語狀態樹，建立詞語狀態樹的方法為先創建根節點，將根節點作為當前節點；讀取敏感詞語的字單元內容，根據字單元內容確定當前節點中被選中節點單元，再由被選中節點單元確定下一個節點，並判斷下一個節點是否存在，如果不存在，則創建一個新的節點，並作為被選中節點單元的下一個節點，然後將下一個節點作為當前節點，並按照此方法重複地讀取字單元和創建節點，直至讀取完詞語的所有字單元，然後將詞語檢索狀態信息和詞語權值信息填寫在當前節點的標記信息中。轉發伺服器可以按照上述方法將所有的敏感詞語建立為一個詞語狀態樹，並在進行檢索時將詞語狀態樹讀入自身緩衝區中。
實施例一圖3顯示了本實施例建立的非中文詞語狀態樹，可以用於檢索英文詞語。如圖3所示，本實施例中狀態樹的節點用數組來表示；每一個數組單元表示一個節點單元，即一個節點包括26個節點單元；每一個節點單元包括節點單元的內容和指向後繼節點的信息，即英文字母的ASCII碼和後繼指針。本實施例中，節點標記信息中詞語檢索狀態信息的內容為「1」或「0」，表示從根節點到當前節點的前一個節點的路徑中節點單元所組成詞語是否為敏感詞語。節點標記信息中詞語權值信息為英文詞語的敏感程度，可以由應用本發明方案的用戶自行設置。
圖4顯示了應用本發明方案的實施例一的流程圖。如圖4所示，本實施例實現數據轉發方法的流程包括以下步驟步驟401轉發伺服器接收來自客戶端的數據，並將客戶端數據保存於自身緩衝區。
步驟402轉發伺服器確定當前詞語的第一個字單元。
本實施例中，當轉發伺服器第一次進行詞語檢索時，緩衝區中第一個英文字母就是當前詞語檢索的第一個字單元。由於英文詞語一般用空格作為詞語結束標記，所以當轉發伺服器判斷字單元內容為空格時，就可以結束本次詞語的檢索，重新將緩衝區中下一個英文單詞作為當前詞語，並將該詞語的第一個字母作為當前詞語檢索的第一個字單元，並依此類推。
步驟403轉發伺服器將英文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元。
步驟404轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元。
本實施例中，由於檢索的是英文詞語，緩衝區中詞語的字單元內容和英文詞語狀態樹中節點的節點單元內容均為英文字母的ASCII碼，可以根據ASCII碼來確定被選中節點單元。
步驟405轉發伺服器判斷當前字單元內容是否為詞語結束標記，如果是，則執行步驟406；否則，執行步驟404。
本實施例中，可以將英文詞語之間的空格作為詞語結束標記，在實際應用中，也可以用其它的符號作為詞語結束標記。
步驟406轉發伺服器獲得當前節點的標記信息，結束當前詞語檢索。
步驟407轉發伺服器根據當前節點標記信息中的詞語檢索狀態信息判斷當前詞語是否檢索成功，如果是，則根據標記信息中的詞語權值信息獲得並記錄當前詞語的詞語權值；否則，不作處理。
本實施例中，節點的標記信息中的詞語檢索狀態信息表示從根節點到當前節點的上一個節點中所有被選中節點單元構成的詞語是否為一個敏感詞語，可以用「1」表示該詞語為敏感詞語，用「0」表示該詞語不為敏感詞語。這些被選中節點單元正是從根節點到當前節點的上一個節點路徑上的節點單元。另外，在實際應用中，詞語檢索狀態信息的內容和詞語權值都可以由應用本發明方案的用戶設置，只要能夠表示詞語是否為一個敏感詞語和表示詞語的敏感程度即可。
步驟408轉發伺服器判斷是否已經處理完緩衝區中所有的客戶端數據，如果是，則執行步驟409；否則，執行步驟402。
本實施例中，步驟402至步驟408為一個循環過程，其執行的次數與轉發伺服器緩衝區中詞語的個數相關。
步驟409轉發伺服器將所有的詞語權值作為檢索結果，並根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去；否則，不作處理。
本實施例中，轉發伺服器將所有檢索到的詞語權值先記錄下來，作為檢索結果。在檢索完緩衝區的所有詞語之後，將獲得的所有詞語權值進行求和運算，並將其結果與事先設置的閾值進行比較，如果權值之和大於閾值，則判定為不允許轉發；否則，將緩衝區中的客戶端數據轉發出去。也就是說，如果詞語權值之和大於閾值，轉發伺服器將認為該客戶端的數據中的敏感詞語過多，其信息不適宜在網絡上傳播。
當然，在實際應用中，也可以根據詞語在網絡上傳播範圍來設置其權值。比如如果某客戶端是在公共聊天室進行傳播信息，其敏感詞語的權值一般比較大；而如果該客戶端是在私人聊天室傳播信息，其敏感詞語的權值一般比較小。總之，本發明中詞語權值的大小可以根據實際情況靈活設定，此處不再贅述。
實施例二如圖5所示，本實施例中建立了可以檢索中文詞語的狀態樹，其建立方法與實施例一中的英文詞語狀態樹基本相同，其區別在於本實施例中節點包括399個節點單元，節點單元的內容為漢字的讀音ID號；節點標記信息的詞語檢索狀態信息表示從根節點開始到當前節點的上一個節點的路徑中，節點單元構成詞語的漢字編碼。
本實施例中，根據中文漢字讀音的規則，先將漢字根據讀音規則進行分類，再對每一類漢字指定編號，所述的編號就是漢字的讀音ID號，從而建立漢字與讀音1D號之間的對應關係。例如漢字「殺」和「沙」的讀音相同，其拼音都為「sha」，可以將「sha」的編碼設置為2，即漢字「殺」和「沙」的讀音ID號均為2。同樣道理，其它漢字的讀音也可以按照這樣的規則進行編碼，得到漢字與其讀音的轉換表。本實施例中，讀音轉換表可以如表一所示。在實際應用中，讀音轉換表也可以用其它編碼規則或編碼形式，只要能夠將相同讀音的漢字轉換為相同的讀音ID號即可。

表一另外，本實施例還建立了一個非中文狀態樹，用於檢索拼音並獲得拼音的讀音ID號。本實施例中的用於檢索拼音的非中文狀態樹與實施例一中非中文詞語狀態樹的建立方法相同，其區別在於本實施例中的非中文狀態樹節點標記信息中的詞語檢索狀態信息為拼音對應的讀音ID號，而不是表示該詞語是否為敏感詞語的「1」或「0」信息。
圖6顯示了應用本發明方案的實施例二的流程圖。如圖6所示，本實施例實現數據轉發的方法包括以下步驟
步驟601轉發伺服器接收來自客戶端的數據，並將客戶端數據保存於自身緩衝區。
步驟602轉發伺服器確定當前詞語的第一個字單元。
步驟603轉發伺服器將中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元。
步驟604轉發伺服器根據當前字單元內容獲得對應的讀音ID號。
本實施例中，如果字單元內容為漢字編碼，轉發伺服器在檢索詞語時可以根據表一將其轉換為對應的讀音ID號。而如果字單元內容為拼音字母，則轉發伺服器將當前字單元作為拼音處理過程中當前詞語的第一個字單元，並開始進行拼音處理過程，獲得讀音ID號。
本實施例中，拼音處理過程與檢索英文等非中文詞語類似，其過程為X1、轉發伺服器將非中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；X2、轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；X3、轉發伺服器判斷當前字單元內容是否為中文拼音字母，如果是，則執行步驟X2；否則，執行步驟X4；X4、轉發伺服器獲得當前節點的標記信息，再根據標記信息獲得讀音ID號。
比如轉發伺服器的緩衝區中存在「沙tan」一詞，當處理「沙」字時，可以先根據表一將「沙」轉換為讀音ID號，即「347」，中文狀態樹可以很容易確定根節點中節點單元內容為「347」的節點。當處理「t」時，轉發伺服器發現該字單元為拼音，則立即轉到拼音處理過程。在拼音處理過程中，轉發伺服器將「t」作為要處理的第一個字單元內容，將非中文狀態樹的根節點作為當前節點，並且按照處理非中文詞語的方式進行詞語檢索。當處理完「tan」這幾個拼音字母以後，轉發伺服器可以在非中文詞語狀態樹的當前節點的標記信息中的詞語檢索狀態信息中獲得「tan」對應的讀音ID號「379」，再退出拼音處理過程並返回。然後，轉發伺服器根據「tan」的讀音ID號在中文詞語狀態樹繼續檢索。
步驟605轉發伺服器再根據當前字單元對應的讀音ID號確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元。
步驟606轉發伺服器判斷是否結束當前詞語檢索，如果是，則結束當前詞語檢索，並執行步驟607；否則，執行步驟604。
本實施例中，由於中文詞語之間沒有詞語結束標記，結束當前詞語檢索一般分為兩種情況一種是當前詞語被成功檢索；另外一種是無法繼續匹配詞語。
對於第一種情況，轉發伺服器每次將當前詞語中的一個字單元與中文詞語狀態樹的某個節點單元匹配時，都要查詢節點的標記信息，根據標記信息判斷是否結束當前詞語檢索。例如假設緩衝區中的數據為「我們玩沙灘排球贏了」，「沙灘」為敏感詞語。當轉發伺服器已經執行到當前詞語的第一個字單元為「沙」字時，首先從根節點開始進行匹配，並根據當前節點的標記信息判斷出不應該結束當前詞語檢索，於是將「灘」作為當前字單元繼續匹配，並再次根據當前節點的標記信息判斷出應該結束當前詞語檢索。也就是說，每次考察一個字單元時，都將從當前節點的標記信息來判斷是否應該結束當前詞語檢索。
另外一種結束當前詞語檢索的情況是當無法繼續進行匹配時，轉發伺服器就結束當前詞語的檢索。比如轉發伺服器已經匹配到狀態樹的葉子節點時，不管是否檢索到敏感詞語都應該結束當前詞語的檢索。
步驟607轉發伺服器根據當前節點標記信息中的詞語檢索狀態信息判斷當前詞語是否檢索成功，如果是，則根據標記信息中的詞語權值信息獲得當前詞語的詞語權值；否則，不作處理。
在本實施例中，由於轉發伺服器是根據讀音ID號來進行詞語檢索的，可能存在同音的詞語，所以當緩衝區中當前詞語與狀態樹匹配成功時，可以再根據當前節點標記信息中詞語檢索狀態信息的漢字編碼來判斷當前詞語是否為敏感詞語，即將緩衝區中當前詞語的漢字編碼與當前節點標記信息中詞語檢索狀態信息進行比較，如果相同，則表示檢索成功，並結束當前詞語檢索。比如當前詞語為「沙灘」，並且已經從中文詞語狀態樹檢索到讀音ID號相同的詞語，此時應該將「沙灘」的漢字編碼與當前節點詞語檢索狀態信息進行比較，如果詞語檢索狀態信息為「沙壇」的漢字編碼，則判斷為檢索失敗。
步驟608轉發伺服器判斷是否已經處理完緩衝區中所有的客戶端數據，如果是，則執行步驟609；否則，執行步驟602。
本實施例中，步驟602至步驟608為一個大循環。如果某詞語檢索成功時，步驟602則將緩衝區該詞語的下一個字單元作為當前詞語的第一個字單元繼續進行檢索。如果某詞語檢索失敗，則將緩衝區該詞語的第二個字單元作為當前詞語的第一個字單元繼續進行檢索。比如仍然以「我們玩沙灘排球贏了」為例，如果「沙灘」被成功檢索，則「排」將作為當前詞語的第一個字單元開始新一輪的檢索。如果「沙灘」被檢索失敗，則「灘」將作為當前詞語的第一個字單元開始新一輪的檢索。
步驟609轉發伺服器將所有的詞語權值作為檢索結果，並根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去；否則，不作處理。
與實施例一相同，本實施例也可以為敏感詞語設置詞語權值，當權值之和大於預先設置的閾值時，則不轉發。
本實施例中，如果預先設置的閾值為0.5，敏感詞語為「沙灘」和「我們」，其中，「沙灘」的詞語權值為0.2，「我們」的詞語權值為「0.1」。當轉發伺服器處理完自身緩衝區的客戶端數據「我們玩沙灘排球贏了」以後，檢索出兩個敏感詞語，並計算得到詞語權值之和為0.3，小於預先設置的閾值，則判斷為允許轉發，並將「我們玩沙灘排球贏了」轉發出去。
在實際應用中，詞語狀態樹一般可以直接保存在緩衝區中，可以更加快速、有效地檢索客戶端用戶數據，從而達到有效監控並且快速轉發客戶端數據的目的。至於轉發伺服器如何轉發數據則可以根據具體的網絡數據傳輸的協議確定，不是本發明的重點，此處不再詳細敘述。
另外，在實際應用中，本發明方案也可以應用於其它需要進行詞語檢索的場所，如信息檢索等。
綜上所述，以上僅為本發明的較佳實施例而已，並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。
權利要求
1.一種數據轉發的方法，其特徵在於，該方法包括以下步驟a、轉發伺服器接收來自客戶端的數據；b、轉發伺服器根據保存在自身緩衝區的詞語狀態樹對客戶端數據進行檢索，並根據檢索結果判斷是否允許轉發，如果允許，則將客戶端數據轉發出去。
2.根據權利要求1所述的方法，其特徵在於，所述步驟b包括b1、轉發伺服器確定當前詞語的第一個字單元；b2、轉發伺服器根據詞語狀態樹，從當前詞語的第一個字單元開始進行詞語檢索，並在結束當前詞語檢索時獲得當前節點標記信息；b3、轉發伺服器根據當前節點標記信息中的詞語檢索狀態信息判斷當前詞語是否檢索成功，如果是，則根據標記信息中的詞語權值信息獲得當前詞語的詞語權值；否則，不作處理；b4、轉發伺服器判斷是否已經處理完緩衝區中所有的客戶端數據，如果是，則執行步驟b5；否則，執行步驟b1；b5、轉發伺服器將所有的詞語權值作為檢索結果，並根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去。
3.根據權利要求2所述的方法，其特徵在於，當所述詞語狀態樹為非中文詞語狀態樹時，所述步驟b2包括S1、轉發伺服器將非中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；S2、轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；S3、轉發伺服器判斷當前字單元內容是否為詞語結束標記，如果是，則執行步驟S4；否則，執行步驟S2；S4、轉發伺服器獲得當前節點的標記信息，結束當前詞語檢索。
4.根據權利要求2所述的方法，其特徵在於，所述步驟a之前進一步包括根據漢字的讀音規則將漢字進行分類，並為每一類漢字分配對應的讀音ID號，建立漢字與讀音ID號的對應關係。
5.根據權利要求4所述的方法，其特徵在於，當所述詞語狀態樹為中文詞語狀態樹時，則所述步驟b2包括R1、轉發伺服器將中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；R2、轉發伺服器確定當前字單元對應的讀音ID號；R3、轉發伺服器再根據當前字單元對應的讀音ID號確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；R4、轉發伺服器判斷是否結束當前詞語檢索，如果是，則結束當前詞語檢索；否則，執行步驟R2。
6.根據權利要求5所述的方法，其特徵在於，當所述當前字單元內容為中文漢字編碼時，則步驟R2所述確定當前字單元對應的讀音ID號的方法為轉發伺服器根據由漢字與讀音ID號對應關係建立的讀音轉換表獲得與當前字單元對應的讀音ID號。
7.根據權利要求5所述的方法，其特徵在於，當所述當前字單元內容為中文拼音字母時，則步驟R2所述確定讀音ID號的方法為轉發伺服器將當前字單元作為拼音處理過程中當前詞語的第一個字單元，並開始進行拼音處理過程，獲得讀音ID號。
8.根據權利要求7所述的方法，其特徵在於，所述拼音處理過程為X1、轉發伺服器將非中文詞語狀態樹的根節點作為當前節點，將當前詞語的第一個字單元作為當前字單元；X2、轉發伺服器根據當前字單元內容確定當前節點中被選中節點單元，再將被選中節點單元的後繼節點作為當前節點，將當前詞語的下一個字單元作為當前字單元；X3、轉發伺服器判斷當前字單元內容是否為中文拼音字母，如果是，則執行步驟X2；否則，執行步驟X4；X4、轉發伺服器獲得當前節點的標記信息，再根據標記信息獲得讀音ID號。
全文摘要
本發明提供一種數據轉發的方法，其關鍵在於利用本發明提供的詞語狀態樹進行詞語檢索。當客戶端向轉發伺服器發送數據時，轉發伺服器先將客戶端數據保存在緩衝區中；轉發伺服器再根據事先保存在自身緩衝區的詞語狀態樹對客戶端數據進行檢索，並根據檢索結果判斷是否允許轉發，如果允許，則將自身緩衝區中的客戶端數據轉發出去。應用本發明方案，轉發伺服器根據詞語狀態樹進行詞語檢索，可以提高檢索速度，從而達到快速轉發用戶數據的目的。另外，由於本發明將中文和中文拼音的統一轉換為讀音ID號，可以識別由中文和中文拼音組成的混合詞語，達到對用戶數據進行安全性監控，防止不良信息傳播的目的。
文檔編號H04L12/54GK101047606SQ20061006651
公開日2007年10月3日申請日期2006年3月28日優先權日2006年3月28日
發明者吳雙申請人:騰訊科技(深圳)有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種數據轉發的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法