基於聚類的郵件分類方法和系統的製作方法

2023-09-18 15:27:50 1

基於聚類的郵件分類方法和系統的製作方法
【專利摘要】本發明公開了一種基於聚類的郵件分類方法和系統，該郵件分類方法包括：對待分類郵件集合中的每個郵件進行分詞，得到每個郵件的詞語集合；確定出每個郵件的詞語特徵向量；將所有郵件的詞語特徵向量組成詞語特徵向量集合後，對於每個詞語特徵向量，創建一個包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；根據詞語特徵向量之間的相似度，對向量簇進行至少一次聚類合併，對聚類合併後的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。本發明的技術方案中，根據聚類成向量簇的詞語特徵向量對郵件進行分類，不必事先需要多種種類的樣本郵件，就可以實現按照郵件內容進行多種類的郵件分類。
【專利說明】基於聚類的郵件分類方法和系統
【技術領域】
[0001]本發明涉及網際網路領域，尤其涉及一種基於聚類的郵件分類方法和系統。
【背景技術】
[0002]隨著社會信息化程度的提高，使用郵件的用戶越來越多，用戶經常會收到大量的郵件，這些郵件通常是各種種類的郵件，比如，商訊、訂單、社交、培訓、招聘和投資理財等種類的郵件。
[0003]目前的郵件系統進行郵件分類的方法著重於將郵件劃分成垃圾郵件或非垃圾郵件，通常採用基於郵件內容的分類方法。具體地，在多樣本郵件構成的訓練集中，對已分類為垃圾郵件或非垃圾郵件的樣本郵件的內容進行處理，根據處理後的樣本郵件的內容，利用各種機器學習算法，例如貝葉斯(Bayes)算法、支持向量機(Suppot Vector Machine,SVM)算法等，訓練出分類模型，再根據該分類模型將未分類的郵件劃分成垃圾郵件或非垃圾郵件。
[0004]然而，本發明的發明人發現，現有技術的郵件分類方法已經無法滿足用戶對郵件的分類需求:用戶為便於對接收到的郵件進行查詢，通常希望郵件系統具備多種類的郵件分類的功能，可以將收到的郵件分成商訊、社交、培訓、招聘、和投資理財等種類的郵件；因此，有必要提供一種對郵件進行多種類分類的方法。

【發明內容】

[0005]針對上述現有技術存在的缺陷，本發明提供了一種基於聚類的郵件分類方法和系統，可以將郵件按照郵件內容進行多種類的郵件分類。
[0006]根據本發明的一個方面，提供了一種基於聚類的郵件分類方法，包括:
[0007]對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；
[0008]對於所述待分類郵件集合中的每個郵件，根據該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；
[0009]將所述待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，對於所述詞語特徵向量集合中的每個詞語特徵向量，創建一個包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；
[0010]根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇後，對於當前的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
[0011]較佳地，所述根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇，具體包括:
[0012]計算所述詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度；[0013]對於所述詞語特徵向量集合中的每個詞語特徵向量，將該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；
[0014]對得到的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括如下步驟:
[0015]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；將確定出的簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；
[0016]在一次聚類合併後，若判斷當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
[0017]根據本發明的另一個方面，還提供了一種基於聚類的郵件分類方法，包括:
[0018]對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；
[0019]對於所述待分類郵件集合中的每個郵件，根據該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；
[0020]將所述待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，將所述詞語特徵向量集合劃分為設定數目的子集；
[0021]對於每個劃分的子集，針對該子集中的每個詞語特徵向量，創建一個該子集的包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；並根據該子集中的詞語特徵向量之間的相似度，對該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值；
[0022]將各子集的向量簇合併為設定簇數目的向量簇後，得到所述詞語特徵向量集合的向量簇；對於所述詞語特徵向量集合的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
[0023]較佳地，所述根據該子集中的詞語特徵向量之間的相似度，對該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值具體包括:
[0024]計算該子集中任意兩個詞語特徵向量之間的相似度；
[0025]對於該子集中的每個詞語特徵向量，將該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；
[0026]對該子集的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括如下步驟:
[0027]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；將確定出的簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；
[0028]在一次聚類合併後，若判斷該子集的當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到該子集的數目達到設定的簇數目閾值的向量簇。
[0029]較佳地，所述將各子集的向量簇合併為設定簇數目的向量簇具體包括:
[0030]將所述各子集的向量簇作為所述詞語特徵向量集合的向量簇後，對於所述詞語特徵向量集合的任意兩個向量簇，計算兩個簇中心之間的相似度；
[0031]清空所述優先級隊列後，對於所述詞語特徵向量集合的每個向量簇的簇中心，將該簇中心與其它向量簇的簇中心之間的相似度進行排序，得到該簇中心的相似度排序結果；將該相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該相似度排序結果中刪除；
[0032]針對所述詞語特徵向量集合中每個向量簇,創建一個包含該向量簇的簇中心的中心簇，並將該向量簇的簇中心作為代表該中心簇的簇中心；
[0033]對得到的中心簇進行至少一次聚類合併，在一次中心簇的聚類合併過程中，包括如下步驟:
[0034]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個簇中心；將確定出的兩個簇中心所分別代表的中心簇合併為一個中心簇後，確定合併後的中心簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個簇中心包含於同一個中心簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個簇中心；對於確定出的合併後的中心簇的簇中心，將該簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該簇中心的當前的相似度排序結果中刪除；
[0035]在一次中心簇的聚類合併後，判斷所述詞語特徵向量集合的當前的中心簇的數目是否大於所述設定簇數目，若是，則繼續進行下一次中心簇的聚類合併；否則，中心簇的聚類合併結束，得到數目達到設定簇數目的中心簇後，對於得到的每個中心簇，將該中心簇中所包含的向量簇的簇中心所代表的向量簇合併為同一個向量簇。
[0036]根據本發明的另一個方面，還提供了一種基於聚類的郵件分類系統，包括:
[0037]郵件內容分詞模塊，用於對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；
[0038]特徵向量確定模塊，用於對於所述待分類郵件集合中的每個郵件，根據所述郵件內容分詞模塊確定出的該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；
[0039]向量簇創建模塊，用於將所述特徵向量確定模塊確定出的待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，對於所述詞語特徵向量集合中的每個詞語特徵向量，創建一個包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；
[0040]向量簇聚類模塊，用於根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對所述向量簇創建模塊得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇；
[0041]郵件分類模塊，用於對於所述向量簇聚類模塊得到的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
[0042]較佳地，所述向量簇聚類模塊包括:
[0043]相似度計算單元，用於計算所述詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度；
[0044]相似度排序單元，用於對於所述詞語特徵向量集合中的每個詞語特徵向量，將所述相似度計算單元計算得到的該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度的相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；
[0045]聚類單元，用於對所述向量簇創建模塊得到的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括:
[0046]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；從所述相似度排序單元得到的所述簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；
[0047]在一次聚類合併後，若判斷當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
[0048]根據本發明的另一個方面，還提供了一種基於聚類的郵件分類系統，包括:
[0049]郵件內容分詞模塊，用於對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；
[0050]特徵向量確定模塊，用於對於所述待分類郵件集合中的每個郵件，根據所述郵件內容分詞模塊確定出的該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；
[0051]子集劃分模塊，用於將所述特徵向量確定模塊確定出的待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，將所述詞語特徵向量集合劃分為設定數目的子集；
[0052]向量簇創建模塊，用於對於所述子集劃分模塊得到的每個劃分的子集，針對該子集中的每個詞語特徵向量，創建一個該子集的包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；
[0053]第一向量簇聚類模塊，用於對於所述子集劃分模塊得到的每個劃分的子集，根據該子集中的詞語特徵向量之間的相似度，對所述向量簇創建模塊得到的該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值；
[0054]第二向量簇聚類模塊，用於將所述第一向量簇聚類模塊得到的各子集的向量簇合併為設定簇數目的向量簇後，得到所述詞語特徵向量集合的向量簇；
[0055]郵件分類模塊，用於對於所述第二向量簇聚類模塊得到的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
[0056]較佳地，所述第一向量簇聚類模塊包括:
[0057]向量相似度計算單元，用於計算該子集中任意兩個詞語特徵向量之間的相似度；
[0058]向量相似度排序單元，用於對於該子集中的每個詞語特徵向量，將所述向量相似度計算單元得到的該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；
[0059]向量簇聚類單元，用於對所述向量簇創建模塊得到的該子集的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括:
[0060]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；從所述向量相似度排序單元得到的所述簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；
[0061]在一次聚類合併後，若判斷該子集的當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
[0062]較佳地，所述第二向量簇聚類模塊包括:
[0063]向量簇組成單元，用於將所述第一向量簇聚類模塊得到的各子集的向量簇組成詞語特徵向量集合的向量簇；
[0064]簇中心相似度計算單元，用於根據所述向量簇組成單元得到的詞語特徵向量集合的向量簇，對於所述詞語特徵向量集合的任意兩個向量簇，計算兩個簇中心之間的相似度；
[0065]簇中心相似度排序單元，用於清空所述優先級隊列後，對於所述詞語特徵向量集合的每個向量簇的簇中心，將所述簇中心相似度計算單元得到的該簇中心與其它向量簇的簇中心之間的相似度進行排序，得到該簇中心的相似度排序結果；將該相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該相似度排序結果中刪除；
[0066]中心簇創建單元,用於針對所述向量簇組成單元得到的詞語特徵向量集合中每個向量簇，創建一個包含該向量簇的簇中心的中心簇，並將該向量簇的簇中心作為代表該中心簇的簇中心；
[0067]中心簇聚類單元，用於對所述中心簇創建單元得到的中心簇進行至少一次聚類合併，在一次中心簇的聚類合併過程中，包括:
[0068]確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個簇中心；將確定出的兩個簇中心所分別代表的中心簇合併為同一個中心簇後，確定合併後的中心簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個簇中心包含於同一個中心簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個簇中心；對於確定出的合併後的中心簇的簇中心，從所述簇中心相似度排序單元得到的該簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該簇中心的當前的相似度排序結果中刪除；
[0069]在一次中心簇的聚類合併後，判斷所述詞語特徵向量集合的當前的中心簇的數目是否大於所述設定簇數目，若是，則繼續進行下一次中心簇的聚類合併；否則，中心簇的聚類合併結束，得到數目達到設定簇數目的中心簇後，發送簇合併指令；
[0070]向量簇合併單元，用於在接收到所述中心簇聚類單元發送的簇合併指令後，對於所述中心簇聚類單元得到的每個中心簇，將該中心簇中所包含的向量簇的簇中心所代表的向量簇合併為同一個向量簇。
[0071]本發明的技術方案中，根據郵件的詞語特徵向量之間的相似度，對詞語特徵向量進行聚類，根據聚類後的詞語特徵向量對郵件進行分類；從而不必事先需要多種種類的樣本郵件，也可以實現按照郵件內容進行多種類的郵件分類。
[0072]進一步，通過將詞語特徵向量集合劃分成設定數目的子集，並行地對每個子集中的向量簇進行聚類合併，以提高聚類合併的效率，之後再將各子集的向量簇組成詞語特徵向量集合的向量簇後，對得到的向量簇進行聚類合併，從而整體上提高了對詞語特徵向量集合的向量簇進行聚類合併的效率，提高了郵件分類的效率。
【專利附圖】

【附圖說明】
[0073]圖1為本發明實施一的基於聚類的郵件分類的方法流程圖；
[0074]圖2a為本發明實施例一的對詞語特徵向量集合的向量簇進行聚類合併的流程圖；
[0075]圖2b為本發明實施例一的基於聚類的郵件分類系統結構框架示意圖；
[0076]圖2c為本發明實施例一的向量簇聚類模塊的內部結構示意圖；
[0077]圖3為本發明實施例二的基於聚類的郵件分類的方法流程圖；
[0078]圖4為本發明實施例二的對子集的向量簇進行聚類合併的流程圖；
[0079]圖5a為本發明實施例二的根據各子集向量簇得到詞語特徵向量集合的向量簇的流程圖；
[0080]圖5b為本發明實施例二的基於聚類的郵件分類系統結構框架示意圖；
[0081]圖5c為本發明實施例二的第一向量簇聚類模塊的內部結構示意圖；
[0082]圖5d為本發明實施例二的第二向量簇聚類模塊的內部結構示意圖。【具體實施方式】
[0083]為使本發明的目的、技術方案及優點更加清楚明白，以下參照附圖並舉出優選實施例，對本發明進一步詳細說明。然而，需要說明的是，說明書中列出的許多細節僅僅是為了使讀者對本發明的一個或多個方面有一個透徹的理解，即便沒有這些特定的細節也可以實現本發明的這些方面。
[0084]本申請使用的「模塊」、「系統」等術語旨在包括與計算機相關的實體，例如但不限於硬體、固件、軟硬體組合、軟體或者執行中的軟體。例如，模塊可以是，但並不僅限於:處理器上運行的進程、處理器、對象、可執行程序、執行的線程、程序和/或計算機。舉例來說，計算設備上運行的應用程式和此計算設備都可以是模塊。一個或多個模塊可以位於執行中的一個進程和/或線程內，一個模塊也可以位於一臺計算機上和/或分布於兩臺或更多臺計算機之間。
[0085]本發明的發明人對現有的郵件分類的方法進行分析，發現現有的郵件分類方法需要基於大量的已知種類的樣本郵件，該方法應用在僅對郵件進行垃圾，或非垃圾分類時，則只需要兩種種類的樣本郵件:垃圾樣本郵件和非垃圾樣本郵件；但是,如果將該方法應用於對郵件進行多種類劃分的場景下，則需要多種種類的樣本郵件，例如，需要大量的商訊、社交、培訓、招聘、和投資理財等種類的樣本郵件；這使得現有的郵件分類方法應用於對郵件進行多種類劃分的場景中的可行性很低。
[0086]由此，本發明的發明人考慮到採用一種不需要樣本郵件來進行郵件種類劃分的方法:通過分析郵件的詞語特徵向量之間的相似度，將相似度大的詞語特徵向量聚類到一個向量簇；從而聚類後得到的各向量簇，可以作為郵件種類劃分的依據。
[0087]下面結合附圖詳細說明本發明的技術方案。本發明的技術方案提供了兩個實施例；其中，實施例一的技術方案中，通過對整個詞語特徵向量集合中的詞語特徵向量進行聚類得到多個向量簇後，將每個向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件；實施例二的技術方案中，通過將詞語特徵向量集合劃分成設定數目的子集，對每個子集中的詞語特徵向量進行聚類，將各子集的向量簇合併為設定簇數目的向量簇後，將每個向量簇中包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
[0088]實施例一
[0089]本發明的實施例一提供的一種基於聚類的郵件分類的方法，具體流程如圖1所示，具體步驟可以包括:
[0090]SlOl:對於待分類郵件集合中的每個郵件，得到該郵件的詞語集合，根據得到的各郵件的詞語集合確定出待分類郵件集合的詞語集合。
[0091]具體地，針對待分類郵件集合中的每個郵件，應用統計模型(例如隱馬爾科夫模型)對該郵件的郵件內容進行分詞，得到該郵件的分詞結果；去除該郵件的分詞結果中的停用詞和生僻字，得到該郵件的詞語集合。將待分類郵件集合中的每個郵件的詞語集合合併成同一個詞語集合後，去除掉該同一個詞語集合中因重複而冗餘的詞語，得到該待分類郵件集合的詞語集合。待分類郵件集合包含了符合設定條件的郵件，例如，可以將設定時間段內用戶收到的郵件組成待分類郵件集合；或者在用戶收到的郵件達到設定數量時，將這些郵件組成待分類郵件集合。[0092]S102:對於待分類郵件集合中的每個郵件，根據該郵件的詞語集合，及待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量。
[0093]具體地，對於待分類郵件集合中的每個郵件，將待分類郵件集合的詞語集合中的詞語總數作為該郵件的詞語特徵向量的維數，並將待分類郵件集合的詞語集合中的各詞語，分別對應到該郵件的詞語特徵向量的各向量元素；對於該郵件的詞語特徵向量中的每個向量元素，該向量元素值的確定方法如下:若該向量元素所對應的待分類郵件集合的詞語集合中的詞語包含在該郵件的詞語集合中，則該向量元素值設置為I ;否則該向量元素值設置為O。
[0094]例如，待分類郵件集合中的一個郵件的詞語特徵向量具體表徵為D=Iid1,…Cli, , dN]，其中Cli的取值為I或者0，取I表示待分類郵件集合的詞語集合中第i個詞語包含在當前郵件的詞語集合中，取O表示待分類郵件集合的詞語集合中第i個詞語不包含在當前郵件的詞語集合中；其中，i為I~N的自然數，N為待分類郵件集合的詞語集合的詞語總數。
[0095]S103:將待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合。
[0096]S104:對於詞語特徵向量集合中的每個詞語特徵向量，創建一個包含該詞語特徵向量的簇(本文中稱為向量簇)，並將該詞語特徵向量作為代表該向量簇的簇中心。
[0097]具體地，對於詞語特徵向量集合中的每個詞語特徵向量，創建一個僅以該詞語特徵向量為簇元素的向量簇，並將該詞語特徵向量作為該向量簇的簇中心，即該詞語特徵向量可以代表該向量簇。
[0098]S105:根據詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇。
[0099]對詞語特徵向量集合的向量簇進行聚類合併的具體方法將在後續進行詳細介紹。
[0100]S106:對於詞語特徵向量集合的當前的每個向量簇,將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一種類郵件。
[0101]具體地，在上述步驟S105中得到數目達到設定的簇數目閾值的向量簇後，對於每個得到的向量簇，將該向量簇中所包含的詞語特徵向量劃分為同一種類的詞語特徵向量；將待分類郵件集合中與該同一種類的詞語特徵向量相對應的郵件劃分為同一種類郵件。從而完成對待分類郵件集合的郵件分類，得到劃分為各種類的郵件。
[0102]為了進一步提高分類後郵件的各種類之間的區分度，增強郵件分類效果，本發明實施例的技術方案還提供了分類標籤，用戶可以為分類後郵件的每個種類定義分類標籤。分類標籤可以包括:電子商訊、非電子商訊、社交、投稿、招聘、投資訂閱、旅行、訂單和垃圾郵件等。
[0103]下面詳細介紹上述步驟S105中，根據詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇的具體流程，如圖2a所示，具體包括如下步驟:
[0104]S201:計算出詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度。
[0105]具體地，計算出詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度。其中，計算出任意兩個詞語特徵向量之間的相似度有多種方法。
[0106]例如，根據兩個詞語特徵向量之間夾角，來計算兩個詞語特徵向量之間的相似度，具體根據如下公式I計算兩個詞語特徵向量之間的相似度:
【權利要求】
1.一種基於聚類的郵件分類方法，其特徵在於，包括: 對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；對於所述待分類郵件集合中的每個郵件，根據該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；將所述待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，對於所述詞語特徵向量集合中的每個詞語特徵向量，創建一個包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇後，對於當前的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
2.如權利要求1所述的方法，其特徵在於，所述根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇，具體包括: 計算所述詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度；對於所述詞語特徵向量集合中的每個詞語特徵向量，將該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；對得到的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括如下步驟:確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；將確定出的簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；在一次聚類合併後，若判斷當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
3.一種基於聚類的郵件分類方法，其特徵在於，包括: 對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；對於所述待分類郵件集合中的每個郵件，根據該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；將所述待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，將所述詞語特徵向量集合劃分為設定數目的子集；對於每個劃分的子集，針對該子集中的每個詞語特徵向量，創建一個該子集的包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；並根據該子集中的詞語特徵向量之間的相似度，對該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值；將各子集的向量簇合併為設定簇數目的向量簇後，得到所述詞語特徵向量集合的向量簇；對於所述詞語特徵向量集合的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
4.如權利要求3所述的方法，其特徵在於，所述根據該子集中的詞語特徵向量之間的相似度，對該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值具體包括: 計算該子集中任意兩個詞語特徵向量之間的相似度；對於該子集中的每個詞語特徵向量，將該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；對該子集的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括如下步驟:確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；將確定出的簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；在一次聚類合併後，若判斷該子集的當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到該子集的數目達到設定的簇數目閾值的向量簇。
5.如權利要求4所述的方法，其特徵在於，所述將各子集的向量簇合併為設定簇數目的向量簇具體包括: 將所述各子集的向量簇作為所述詞語特徵向量集合的向量簇後，對於所述詞語特徵向量集合的任意兩個向量簇，計算兩個簇中心之間的相似度；清空所述優先級隊列後，對於所述詞語特徵向量集合的每個向量簇的簇中心，將該簇中心與其它向量簇的簇中心之間的相似度進行排序，得到該簇中心的相似度排序結果；將該相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該相似度排序結果中刪除；針對所述詞語特徵向量集合中每個向量簇，創建一個包含該向量簇的簇中心的中心簇，並將該向量簇的簇中心作為代表該中心簇的簇中心；對得到的中心簇進行至少一次聚類合併，在一次中心簇的聚類合併過程中，包括如下步驟: 確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個簇中心；將確定出的兩個簇中心所分別代表的中心簇合併為一個中心簇後，確定合併後的中心簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個簇中心包含於同一個中心簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個簇中心；對於確定出的合併後的中心簇的簇中心，將該簇中心的當前的相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該簇中心的當前的相似度排序結果中刪除；在一次中心簇的聚類合併後，判斷所述詞語特徵向量集合的當前的中心簇的數目是否大於所述設定簇數目，若是，則繼續進行下一次中心簇的聚類合併；否則，中心簇的聚類合併結束，得到數目達到設定簇數目的中心簇後，對於得到的每個中心簇，將該中心簇中所包含的向量簇的簇中心所代表的向量簇合併為同一個向量簇。
6.一種基於聚類的郵件分類系統，其特徵在於，包括: 郵件內容分詞模塊，用於對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；特徵向量確定模塊，用於對於所述待分類郵件集合中的每個郵件，根據所述郵件內容分詞模塊確定出的該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；向量簇創建模塊，用於將所述特徵向量確定模塊確定出的待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，對於所述詞語特徵向量集合中的每個詞語特徵向量，創建一個包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；向量簇聚類模塊，用於根據所述詞語特徵向量集合中的詞語特徵向量之間的相似度，對所述向量簇創建模塊得到的向量簇進行至少一次聚類合併，得到數目達到設定的簇數目閾值的向量簇；郵件分類模塊，用於對於所述向量簇聚類模塊得到的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
7.如權利要求6所述的系統，其特徵在於，所述向量簇聚類模塊包括: 相似度計算單元，用於計算所述詞語特徵向量集合中任意兩個詞語特徵向量之間的相似度；相似度排序單元，用於對於所述詞語特徵向量集合中的每個詞語特徵向量，將所述相似度計算單元計算得到的該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度的相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；聚類單元，用於對所述向量簇創建模塊得到的向量簇進行至少一次聚類合併，在一次聚類合併過程中,包括: 確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；從所述相似度排序單元得到的所述簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；在一次聚類合併後，若判斷當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
8.一種基於聚類的郵件分類系統，其特徵在於，包括: 郵件內容分詞模塊，用於對待分類郵件集合中的每個郵件，將該郵件的郵件內容進行分詞，得到該郵件的詞語集合；根據得到的各郵件的詞語集合確定出所述待分類郵件集合的詞語集合；特徵向量確定模塊，用於對於所述待分類郵件集合中的每個郵件，根據所述郵件內容分詞模塊確定出的該郵件的詞語集合以及所述待分類郵件集合的詞語集合，確定出該郵件的詞語特徵向量；子集劃分模塊，用於將所述特徵向量確定模塊確定出的待分類郵件集合中的所有郵件的詞語特徵向量組成詞語特徵向量集合後，將所述詞語特徵向量集合劃分為設定數目的子集; 向量簇創建模塊，用於對於所述子集劃分模塊得到的每個劃分的子集，針對該子集中的每個詞語特徵向量，創建一個該子集的包含該詞語特徵向量的向量簇，並將該詞語特徵向量作為代表該向量簇的簇中心；第一向量簇聚類模塊，用於對於所述子集劃分模塊得到的每個劃分的子集，根據該子集中的詞語特徵向量之間的相似度，對所述向量簇創建模塊得到的該子集的向量簇進行至少一次聚類合併，使得該子集中的向量簇的數目達到設定的簇數目閾值；第二向量簇聚類模塊，用於將所述第一向量簇聚類模塊得到的各子集的向量簇合併為設定簇數目的向量簇後，得到所述詞語特徵向量集合的向量簇；郵件分類模塊，用於對於所述第二向量簇聚類模塊得到的每個向量簇，將該向量簇中所包含的詞語特徵向量所對應的郵件劃分為同一類郵件。
9.如權利要求8所述的系統，其特徵在於，所述第一向量簇聚類模塊包括: 向量相似度計算單元，用於計算該子集中任意兩個詞語特徵向量之間的相似度；向量相似度排序單元，用於對於該子集中的每個詞語特徵向量，將所述向量相似度計算單元得到的該詞語特徵向量與其它詞語特徵向量之間的相似度進行排序，得到該詞語特徵向量的相似度排序結果；將所述相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個詞語特徵向量放入到優先級隊列後，將該最大相似度從所述相似度排序結果中刪除；向量簇聚類單元，用於對所述向量簇創建模塊得到的該子集的向量簇進行至少一次聚類合併，在一次聚類合併過程中，包括: 確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個詞語特徵向量；將確定出的兩個詞語特徵向量所分別代表的向量簇合併為同一個向量簇後，確定合併後的向量簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個詞語特徵向量包含於同一個向量簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個詞語特徵向量；從所述向量相似度排序單元得到的所述簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個詞語特徵向量放入到所述優先級隊列後，將該最大相似度從該簇中心的相似度排序結果中刪除；在一次聚類合併後，若判斷該子集的當前的向量簇的數目大於設定的簇數目閾值，則繼續進行下一次聚類合併，否則，聚類合併結束，得到數目達到設定的簇數目閾值的向量簇。
10.如權利要求8所述的系統，其特徵在於，所述第二向量簇聚類模塊包括: 向量簇組成單元，用於將所述第一向量簇聚類模塊得到的各子集的向量簇組成詞語特徵向量集合的向量簇；簇中心相似度計算單元，用於根據所述向量簇組成單元得到的詞語特徵向量集合的向量簇，對於所述詞語特徵向量集合的任意兩個向量簇，計算兩個簇中心之間的相似度；簇中心相似度排序單元，用於清空所述優先級隊列後，對於所述詞語特徵向量集合的每個向量簇的簇中心，將所述簇中心相似度計算單元得到的該簇中心與其它向量簇的簇中心之間的相似度進行排序，得到該簇中心的相似度排序結果；將該相似度排序結果中的最大相似度，以及與該最大相似度相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該相似度排序結果中刪除；中心簇創建單元，用於針對所述向量簇組成單元得到的詞語特徵向量集合中每個向量簇，創建一個包含該向量簇的簇中心的中心簇，並將該向量簇的簇中心作為代表該中心簇的簇中心；中心簇聚類單元，用於對所述中心簇創建單元得到的中心簇進行至少一次聚類合併，在一次中心簇的聚類合併過程中，包括: 確定出所述優先級隊列中最大的相似度，以及與該相似度相關聯的兩個簇中心；將確定出的兩個簇中心所分別代表的中心簇合併為同一個中心簇後，確定合併後的中心簇的簇中心；針對所述優先級隊列中每個相似度，若判斷出與該相似度相關聯的兩個簇中心包含於同一個中心簇中，則從所述優先級隊列中刪除該相似度以及與其相關聯的兩個簇中心；對於確定出的合併後的中心簇的簇中心，從所述簇中心相似度排序單元得到的該簇中心的當前的相似度排序結果中確定出最大相似度，將確定出的最大相似度以及與其相關聯的兩個簇中心放入到所述優先級隊列後，將該最大相似度從該簇中心的當前的相似度排序結果中刪除；在一次中心簇的聚類合併後，判斷所述詞語特徵向量集合的當前的中心簇的數目是否大於所述設定簇數目，若是，則繼續進行下一次中心簇的聚類合併；否則，中心簇的聚類合併結束，得到數目達到設定簇數目的中心簇後，發送簇合併指令；向量簇合併單元，用於在接收到所述中心簇聚類單元發送的簇合併指令後，對於所述中心簇聚類單元得到的每個中心簇，將該中心簇中所包含的向量簇的簇中心所代表的向量簇合併為同一個向量簇。
【文檔編號】G06F17/30GK103488689SQ201310392393
【公開日】2014年1月1日申請日期:2013年9月2日優先權日:2013年9月2日
【發明者】陳玉焓申請人:新浪網技術(中國)有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於聚類的郵件分類方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法