基於郵件信息判定郵件語種的方法
2023-05-20 14:53:56
基於郵件信息判定郵件語種的方法
【專利摘要】本發明公開了基於郵件信息判定郵件語種的方法,包括:分析郵件中所包含的所有類型特徵,提取歸屬每類特徵的關鍵字;將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配;確定每類特徵的關鍵字所對應的所有語種,並計算每個語種所對應的關鍵字在該特徵所有關鍵字中比重,將該比重作為每個語種的分項權重值;對所有類型的特徵中相同語種的分項權重值進行求和,得出每個語種的最終權重值;對每個語種的最終權重值進行判定,確定最終唯一語種。本發明通過對郵件的翻譯語種進行自動識別,使郵件歸類和郵件翻譯任務分發的過程實現自動化,提高了郵件流轉效率。
【專利說明】基於郵件信息判定郵件語種的方法
【技術領域】
[0001]本發明屬於計算機【技術領域】,尤其涉及基於郵件信息判定郵件語種的方法。
【背景技術】
[0002]外貿企業有80%的業務溝通都是通過郵件來完成的。外語郵件溝通,尤其是英文以外的外語,對於中小型外貿企業的業主和初中級外貿員來說都是巨大的障礙。
[0003]目前的郵件的翻譯系統是人為對翻譯內容進行判定翻譯的語種,這種判定方法,使對翻譯訂單的吞吐能力弱,從而降低了整個翻譯系統的翻譯訂單的分配效率,特別是當系統內多語翻譯郵件訂單需求達到一定規模時,純人工判定郵件語種、翻譯任務分發導致的效率低下問題尤其嚴重。
【發明內容】
[0004]有鑑於此,本發明的目的是提出基於郵件信息判定郵件語種的方法,以解決現有技術中翻譯訂單的吞吐能力弱的問題。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護範圍。其唯一目的是用簡單的形式呈現一些概念,以此作為後面的詳細說明的序言。
[0005]本發明公開了基於郵件信息判定郵件語種的方法,包括:
[0006]分析郵件中所包含的所有類型特徵,提取歸屬每類特徵的關鍵字;
[0007]將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配,確定每類特徵的關鍵字所對應的所有語種,及每個語種在該特徵中的分項權重值;
[0008]對所有類型的特徵中相同語種的分項權重值進行求和,得出每個語種的最終權重值;
[0009]對每個語種的最終權重值進行判定,確定最終唯一語種。
[0010]優選地,所述映射表包括:語種映射表和郵件歷史行為映射表;
[0011]所述語種映射表中至少包括以下之一類型的特徵項:字符集、郵件地址、郵件地址域和時區;
[0012]其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區對應著地理信息及該地理信息所對應的所有語種;
[0013]所述郵件歷史行為映射表中至少包括以下之一類型的特徵項:郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域;
[0014]其中,所述郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域對應著地理信息及該地理信息所對應的所有語種。
[0015]優選地,所述郵件特徵的類型包括:主題字符集、正文字符集、日期、經過的中轉伺服器地址、接收地址、發送地址、接收地址域和發送地址域;
[0016]其中,所述主題字符集的數據、所述正文字符集的數據、日期信息、經過的中轉伺服器地址、接收地址、發送地址、接收地址域和發送地址域作為所述郵件的關鍵字。
[0017]優選地,所述將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配,確定每類特徵的關鍵字所對應的所有語種及每個語種在該特徵中的分項權重值的過程包括:
[0018]提取郵件的主題字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到主題字符集的數據所對應的所有語種,計算每個語種對應的數據在所述主題字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為在該特徵中每個語種的分項權重值;
[0019]提取郵件的正文字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到正文字符集的數據所對應的所有語種,計算每個語種對應的數據在所述正文字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為該特徵中每個語種的分項權
重值;
[0020]提取郵件的發送地址域,與語種映射表中的所述郵件地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0021]提取郵件的經過的中轉伺服器地址,與語種映射表中的所述郵件地址的特徵項進行對照,得到經過的中轉伺服器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0022]提取郵件的日期數據,將其轉換為時區數據,與語種映射表中的所述時區的特徵項進行對照,得到時區的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0023]對所述提取郵件的主題字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特徵中每個語種的分項權重值;
[0024]對所述提取郵件的正文字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特徵中每個語種的分項權重值。
[0025]優選地,其特徵在於,還包括:
[0026]提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特徵項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0027]提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特徵項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0028]提取郵件的發送地址,與郵件歷史行為表中所述發送地址的特徵項進行對照,得到發送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;[0029]提取郵件的發送地址域,與郵件歷史行為表中所述發送地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值。
[0030]優選地,所述對每個語種的最終權重值進行判定的過程包括:
[0031]將每個所述語種的最終權重值分別減去設定的有效語種閥值;
[0032]得出結果大於0,則將該語種定為有效語種;
[0033]否則,將該語種定為無效語種。
[0034]優選地,其特徵在於,還包括:
[0035]將所有的有效語種按照其最終權重值從大到小排列,對前兩個進行求差;
[0036]得出結果的絕對值大於設定的權重差閥值,則判斷該最大的最終權重值的語種為最終唯一語種;
[0037]否則,所述有效語種為疑是語種,進行人工判定,確定最終唯一語種。
[0038]優選地,當所述語種全為無效語種時,進行人工判定,確定最終唯一語種。
[0039]優選地,還包括:
[0040]當對所述語種的最終權重值進行判定的次數達到一定次數後,計算判定中人工判定在所有判定中的佔有率,將所述人工判定的佔有率與設定的微調閥值進行比較;
[0041]所述人工判定的佔有率小於設定的微調閥值,則保持語種映射表不變;
[0042]否則,將所有人工判定的語種進行統計,根據統計結果對語種映射表中的相應的語種的特徵項進行調節。
[0043]優選地,當只存在一個所述有效語種時,將該語種確定為最終唯一語種。
[0044]本發明中的基於郵件信息判定郵件語種的方法,具有以下優點:
[0045]1、將郵件語種識別、郵件歸類的過程實現自動化;
[0046]2、使翻譯訂單的吞吐能力得到了大大加強,從而提高了整個翻譯過程的效率。
[0047]為了上述以及相關的目的,一個或多個實施例包括後面將詳細說明並在權利要求中特別指出的特徵。下面的說明以及附圖詳細說明某些示例性方面,並且其指示的僅僅是各個實施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特徵將隨著下面的詳細說明結合附圖考慮而變得明顯,所公開的實施例是要包括所有這些方面以及它們的等同。
[0048]說明書附圖
[0049]此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
[0050]圖1示出了實施例1的流程圖;
[0051 ] 圖2示出了實施例2的流程圖。
【具體實施方式】
[0052]下面將參考附圖並結合實施例,來詳細說明本發明。
[0053]如圖1所示,本發明公開了基於郵件信息判定郵件語種的方法,包括:
[0054]S11、分析郵件中所包含的所有類型特徵,提取歸屬每類特徵的關鍵字;
[0055]S12、將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配,確定每類特徵的關鍵字所對應的所有語種,及每個語種在該特徵中的分項權重值;
[0056]S13、對所有類型的特徵中相同語種的分項權重值進行求和,得出每個語種的最終權重值;
[0057]S14、對每個語種的最終權重值進行判定,確定最終唯一語種。
[0058]優選地,所述映射表包括:語種映射表和郵件歷史行為映射表;
[0059]所述語種映射表中至少包括以下之一類型的特徵項:字符集、郵件地址、郵件地址域和時區;
[0060]其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區對應著地理信息及該地理信息所對應的所有語種;
[0061]所述郵件歷史行為映射表中至少包括以下之一類型的特徵項:郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域;
[0062]其中,所述郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域對應著地理信息及該地理信息所對應的所有語種。
[0063]優選地,如圖2所示,本發明還提供一個優選的實施例;
[0064]S21、解析郵件中的所有類型的特徵信息,得到郵件內容信息和郵件行為信息;
[0065]郵件內容信息中包括如下類型的特徵:
[0066]主題字符集的數據、正文字符集的數據、日期信息、郵件發送地址域、經過的中轉伺服器地址;
[0067]其中,主題即郵件的標題,正文即郵件的正文內容;郵件的標題和正文內容包含有字符集信息;上述的主題字符集數據和正文字符集數據即為郵件的標題和正文內容包含有字符集信息。
[0068]郵件行為信息中包括如下類型的特徵:
[0069]郵件的接收地址、郵件的發送地址、郵件的接收地址域和郵件的發送地址域;
[0070]其中,所述主題字符集的數據、所述正文字符集的數據、日期信息、經過的中轉伺服器地址、接收地址、發送地址、接收地址域和發送地址域作為所述郵件的關鍵字。
[0071]S22、對郵件的內容信息中的每類特徵與語種映射表中相應類型的特徵進行一一匹配,包括:
[0072]主題字符集分析:
[0073]提取郵件的主題字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到主題字符集的數據所對應的所有語種,計算每個語種對應的數據在所述主題字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為在該特徵中每個語種的分項權重值;
[0074]正文字符集分析:
[0075]提取郵件的正文字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到正文字符集的數據所對應的所有語種,計算每個語種對應的數據在所述正文字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為在該特徵中每個語種的分項權重值;
[0076]發件人地址域分析:
[0077]提取郵件的發送地址域,與語種映射表中的所述郵件地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;;
[0078]經過中轉地址分析:
[0079]提取郵件的發送地址域,與語種映射表中的所述郵件地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0080]時區信息分析:
[0081]提取郵件的經過的中轉伺服器地址,與語種映射表中的所述郵件地址的特徵項進行對照,得到經過的中轉伺服器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0082]主題內容分析:
[0083]對所述提取郵件的主題字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在在所有分詞中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0084]正文內容分析:
[0085]對所述提取郵件的正文字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在在所有分詞中的比重,將該比重作為在該特徵中每個語種的分項權重值。
[0086]S23、對郵件的內容信息中的每類特徵與語種歷史行為映射表中相應類型的特徵進行一一匹配,包括:
[0087]郵件地址歷史接收語種分析:
[0088]提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特徵項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0089]郵件地址歷史發送語種分析:
[0090]提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特徵項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0091]郵件地址域歷史接收語種分析:
[0092]提取郵件的發送地址,與郵件歷史行為表中所述發送地址的特徵項進行對照,得到發送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值;
[0093]郵件地址域歷史發送語種分析:
[0094]提取郵件的發送地址域,與郵件歷史行為表中所述發送地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值。
[0095]S24、對所有類型的特徵的所有語種中的相同語種的分項權重值進行求和,得到每個語種的最終權重值;
[0096]S25、將每個語種的最終權重值減去設定的有效語種閥值,得出的結果與O進行比較;
[0097]得出的結果大於0,則進入步驟S26 ;
[0098]否則,進入步驟S27;
[0099]S26,將該語種判定為有效語種,並統計有效語種的數量;
[0100]當有效語種的數量大於I個的情況下,進入步驟S28 ;
[0101]當有效語種的數量為I個的情況下,直接將該有效語種判定為最終唯一語種;
[0102]S27,將該語種判定為無效語種,並統計無效語種的數量;
[0103]判定的語種全為無效語種的情況下,進入步驟32 ;
[0104]S28、將所有的有效語種按其最終權重值從大到小排列,取前兩個有效語種,並對前兩個有效語種的權重值進行求差;
[0105]S29、將得到的差值的絕對值減去設定的權重差閥值,得出的結果大於0,進入步驟S30 ;
[0106]否則,進入步驟S31;
[0107]S30、確定該最終權重值最大的有效語種為最終唯一語種;
[0108]S31、將所有有效語種判定為疑是語種,進入步驟32 ;
[0109]S32、進行人工判定,確定最終唯一語種。
[0110]S33、當對所述語種的最終權重值進行判定的次數達到一定數值後,對其中人工判定次數的佔比進行計算,得出人工判定在所有判定中的佔有率,將其與設定的微調閥值進行比較;
[0111]其中,該佔有率為人工判定次數與所有判定次數之比;
[0112]當所述人工判定的佔有率小於設定的微調閥值,則保持語種映射表不變;
[0113]否則,將所有人工判定的語種進行統計,統計結果對語種映射表中的相應的語種權重值進行調節,用於增強判定的準確性,提高系統的自學能力。
[0114]例如:設定微調閥值為15% ;
[0115]經過10000次語種判定,其中9000次系統自動判定成功,1000次人工手動判定成功;
[0116]則該人工判定佔有率為10% ;
[0117]即該人工判定佔有率小於微調閥值,表示自動判定程度已經很高,不需要調整;
[0118]反之,當人工判定佔有率大於微調閥值,表示自動判定程度不高,需要調整
[0119]顯然,本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本發明不限制於任何特定的硬體和軟體結合。
[0120]以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.基於郵件信息判定郵件語種的方法,其特徵在於,包括: 分析郵件中所包含的所有類型特徵,提取歸屬每類特徵的關鍵字; 將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配,確定每類特徵的關鍵字所對應的所有語種,及每個語種在該特徵中的分項權重值; 對所有類型的特徵中相同語種的分項權重值進行求和,得出每個語種的最終權重值; 對每個語種的最終權重值進行判定,確定最終唯一語種。
2.根據權利要求1所述的方法,其特徵在於,所述映射表包括:語種映射表和郵件歷史行為映射表; 所述語種映射表中至少包括以下之一類型的特徵項:字符集、郵件地址、郵件地址域和時區; 其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區對應著地理信息及該地理信息所對應的所有語種; 所述郵件歷史行為映射表中至少包括以下之一類型的特徵項:郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域; 其中,所述郵件接收地址、郵件發送地址、郵件接收地址域和郵件發送地址域對應著地理信息及該地理信息所對應的所有語種。
3.根據權利要求2所述的方法,其特徵在於,所述郵件特徵的類型包括:主題字符集、正文字符集、日期、經過的中轉伺服器地址、接收地址、發送地址、接收地址域和發送地址域; 其中,所述主題字符集的數據、所述正文字符集的數據、日期信息、經過的中轉伺服器地址、接收地址、發送地址、接收地址域和發送地址域作為所述郵件的關鍵字。
4.根據權利要求3所述的方法,其特徵在於,所述將所述提取的每類特徵的關鍵字與映射表中相應的特徵項分別進行匹配,確定每類特徵的關鍵字所對應的所有語種及每個語種在該特徵中的分項權重值的過程包括: 提取郵件的主題字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到主題字符集的數據所對應的所有語種,計算每個語種對應的數據在所述主題字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為在該特徵中每個語種的分項權重值; 提取郵件的正文字符集的數據,與語種映射表中所述字符集的特徵項進行對照,得到正文字符集的數據所對應的所有語種,計算每個語種對應的數據在所述正文字符集的數據中的比重,將對應相同語種的數據的比重累加,其和作為該特徵中每個語種的分項權重值; 提取郵件的發送地址域,與語種映射表中的所述郵件地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 提取郵件的經過的中轉伺服器地址,與語種映射表中的所述郵件地址的特徵項進行對照,得到經過的中轉伺服器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 提取郵件的日期數據,將其轉換為時區數據,與語種映射表中的所述時區的特徵項進行對照,得到時區的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 對所述提取郵件的主題字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特徵中每個語種的分項權重值; 對所述提取郵件的正文字符集的數據進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特徵項進行對照,得到每個分詞所對應的語種,計算每個不重複的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特徵中每個語種的分項權重值。
5.根據權利要求4所述的方法,其特徵在於,還包括: 提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特徵項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特徵項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 提取郵件的發送地址,與郵件歷史行為表中所述發送地址的特徵項進行對照,得到發送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值; 提取郵件的發送地址域,與 郵件歷史行為表中所述發送地址域的特徵項進行對照,得到發送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特徵中每個語種的分項權重值。
6.根據權利要求1所述的方法,其特徵在於,所述對每個語種的最終權重值進行判定的過程包括: 將每個所述語種的最終權重值分別減去設定的有效語種閥值; 得出結果大於O,則將該語種定為有效語種; 否則,將該語種定為無效語種。
7.根據權利要求6所述的方法,其特徵在於,還包括: 將所有的有效語種按照其最終權重值從大到小排列,對前兩個進行求差; 得出結果的絕對值大於設定的權重差閥值,則判斷該最大的最終權重值的語種為最終唯一語種; 否則,所述有效語種為疑是語種,進行人工判定,確定最終唯一語種。
8.根據權利要求7所述的方法,其特徵在於,當所述語種全為無效語種時,進行人工判定,確定最終唯一語種。
9.根據權利要求8所述的方法,其特徵在於,還包括: 當對所述語種的最終權重值進行判定的次數達到一定次數後,計算判定中人工判定在所有判定中的佔有率,將所述人工判定的佔有率與設定的微調閥值進行比較; 所述人工判定的佔有率小於設定的微調閥值,則保持語種映射表不變;否則,將所有人工判定的語種進行統計,根據統計結果對語種映射表中的相應的語種的特徵項進行調節。
10.根據權利要求6所述的方法,其特徵在於,當只存在一個所述有效語種時,將該語種確定為最終唯一語種。
【文檔編號】G06F17/27GK103473219SQ201310407258
【公開日】2013年12月25日 申請日期:2013年9月9日 優先權日:2013年9月9日
【發明者】江潮 申請人:武漢傳神信息技術有限公司