新四季網

識別垃圾簡訊的方法、客戶端、雲端伺服器和系統與流程

2023-04-30 08:46:46 1


技術領域

本發明涉及網絡信息安全技術領域,具體涉及識別垃圾簡訊的方法、客戶端、雲端伺服器和系統。



背景技術:

隨著移動通信技術的發展、行動裝置的普及和簡訊資費的下降,簡訊成為移動終端之間進行信息傳遞的重要方法之一。用戶在享受簡訊通信帶來的便捷時,卻也遭受到一些廣告簡訊、詐騙簡訊等垃圾簡訊的騷擾,這些垃圾簡訊影響到用戶的簡訊使用體驗,給用戶的人身、信息、財產安全帶來隱患。因此,對垃圾簡訊的識別和攔截是亟待解決的問題。

現有技術中,對垃圾簡訊的識別往往通過將簡訊的內容直接上傳到伺服器,由伺服器對該簡訊的內容進行識別,將識別結果返回給移動終端,如果該簡訊為垃圾簡訊,則移動終端對該簡訊進行攔截或者對用戶進行提示。

該方案存在的問題是:1、簡訊的內容往往涉及到用戶的個人信息,在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器侵犯了用戶的個人隱私,對用戶的信息安全造成了損害。2、移動終端每次接收到簡訊時,將簡訊的內容上傳給伺服器,該過程往往耗費相當的網絡流量,且處理速度受到移動終端所處的網絡狀態的限制,不符合用戶需求。



技術實現要素:

鑑於上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種識別垃圾簡訊的方法、客戶端、雲端伺服器和系統。

依據本發明的一個方面,提供了一種識別垃圾簡訊的方法,該方法包括:

對移動終端中的簡訊接收事件進行檢測;

當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值;

將所述簡訊的內容對應的哈希值上傳到雲端伺服器,並接收所述雲端伺服器返回的識別信息;

根據所述識別信息確定所述簡訊是否為垃圾簡訊。

可選地,所述計算出所述簡訊的內容對應的哈希值包括:

對所述簡訊的內容進行分詞處理;

對分詞後的各個詞賦予不同的向量值,匯總計算得到所述簡訊的內容對應的simhash值。

可選地,該方法進一步包括:

當所述移動終端接收到簡訊時,先根據移動終端的本地規則判斷所述簡訊是否為白簡訊;

如果不是,則執行所述計算出所述簡訊的內容對應的哈希值,以及將所述簡訊的內容對應的哈希值上傳到雲端伺服器的後續處理;

如果是,則不再進行後續的處理。

可選地,所述先根據移動終端的本地規則判斷所述簡訊是否為白簡訊包括如下一種或多種判斷方法:

根據移動終端本地的電話號碼白名單判斷發送所述簡訊的源號碼是否在所述電話號碼白名單中,是則所述簡訊為白簡訊;

在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於垃圾簡訊的概率,匯總計算得到該簡訊是垃圾簡訊的概率,判斷該概率是否小於一個預設值,是則該簡訊為白簡訊;

在移動終端本地計算簡訊的內容對應的哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。

可選地,該方法進一步包括:

在第一次啟動時彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器;

如果用戶選擇了同意,則當所述移動終端接收到簡訊時,直接將所述簡訊的內容上傳到雲端伺服器進行識別;

如果用戶選擇了不同意,則當所述移動終端接收到簡訊時,執行所述計算出所述簡訊的內容對應的哈希值,以及將所述簡訊的內容對應的哈希值上傳到雲端伺服器的後續步驟。

可選地,該方法進一步包括:

當確定所述簡訊是垃圾簡訊時,對所述簡訊進行攔截處理。

依據本發明的另一個方面,提供了一種識別垃圾簡訊的方法,該方法包括:

接收客戶端側上傳的簡訊的內容對應的哈希值;

將所述簡訊的內容對應的哈希值與哈希值庫進行匹配;其中,所述哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息;

將從哈希值庫中匹配到的哈希值對應的識別信息返回給所述客戶端。

可選地,所述簡訊的內容對應的哈希值為所述簡訊的內容對應的simhash值。

可選地,該方法進一步包括:

接收用戶舉報的簡訊內容;

對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。

依據本發明的又一個方面,提供了一種識別垃圾簡訊的客戶端,該客戶端包括:

接收處理單元,適於對移動終端中的簡訊接收事件進行檢測;當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值並發送至識別交互單元;

所述識別交互單元,適於將所述簡訊的內容對應的哈希值上傳到雲端伺服器,並接收所述雲端伺服器返回的識別信息;根據所述識別信息確定所述簡訊是否為垃圾簡訊。

可選地,所述接收處理單元,適於對所述簡訊的內容進行分詞處理;對分詞後的各個詞賦予不同的向量值,匯總計算得到所述簡訊的內容對應的simhash值。

可選地,所述接收處理單元,進一步適於當所述移動終端接收到簡訊時,先根據移動終端的本地規則判斷所述簡訊是否為白簡訊;如果不是,則計算出所述簡訊的內容對應的哈希值並發送至所述識別交互單元;如果是,則不再進行後續處理。

可選地,所述接收處理單元,適於根據如下一種或多種判斷方法判斷所述簡訊是否為白簡訊:

根據移動終端本地的電話號碼白名單判斷發送所述簡訊的源號碼是否在所述電話號碼白名單中,是則所述簡訊為白簡訊;

在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於垃圾簡訊的概率,匯總計算得到該簡訊是垃圾簡訊的概率,判斷該概率是否小於一個預設值,是則該簡訊為白簡訊;

在移動終端本地計算簡訊的內容對應的哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。

可選地,該客戶端進一步包括:

初始配置單元,適於在第一次啟動時彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器;

所述接收處理單元,適於在用戶選擇了同意後,當所述移動終端接收到簡訊時,直接將所述簡訊的內容發送給所述識別交互單元;以及適於在用戶選擇了不同意後,當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值並發送給所述識別交互單元;

所述識別交互單元,適於當接收到所述簡訊的內容時,直接將所述簡訊的內容上傳到雲端伺服器進行識別;以及適於當接收到所述簡訊的內容對應哈希值時,執行所述將所述簡訊的內容對應哈希值上傳到雲端伺服器的後續步驟。

可選地,該客戶端進一步包括:

攔截處理單元,適於當確定所述簡訊是垃圾簡訊時,對所述簡訊進行攔截處理。

依據本發明的再一個方面,提供了一種識別垃圾簡訊的雲端伺服器,該雲端伺服器包括:

接收單元,適於接收客戶端側上傳的簡訊的內容對應的哈希值;

識別單元,適於將所述簡訊的內容對應的哈希值與哈希值庫進行匹配;其中,所述哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息;

反饋單元,適於將從哈希值庫中匹配到的哈希值對應的識別信息返回給所述客戶端。

可選地,所述簡訊的內容對應的哈希值為所述簡訊的內容對應的simhash值。

可選地,所述接收單元,進一步適於接收用戶舉報的簡訊內容;

所述識別單元,進一步適於對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。

依據本發明的又一個方面,提供了一種識別垃圾簡訊的系統,其中,該系統包括如上任一項所述的識別垃圾簡訊的客戶端以及如上任一項所述的識別垃圾簡訊的雲端伺服器。

由上述可知,本發明提供的技術方案在以簡訊的內容對應哈希值為識別對象的基礎上進行移動終端本地與雲端伺服器的交互,實現了對垃圾簡訊的識別。該方案在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題,且經過本地的計算處理後減輕了客戶端與雲端伺服器的交互負擔以及雲端伺服器的處理壓力,提高了識別效率,符合用戶需求。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1示出了根據本發明一個實施例的一種識別垃圾簡訊的方法的流程圖;

圖2示出了根據本發明另一個實施例的一種識別垃圾簡訊的方法的流程圖;

圖3示出了根據本發明一個實施例的一種識別垃圾簡訊的客戶端的示意圖;

圖4示出了根據本發明另一個實施例的一種識別垃圾簡訊的客戶端的示意圖;

圖5示出了根據本發明一個實施例的一種識別垃圾簡訊的雲端伺服器的示意圖;

圖6示出了根據本發明一個實施例的一種識別垃圾簡訊的系統的示意圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。

圖1示出了根據本發明一個實施例的一種識別垃圾簡訊的方法的流程圖。如圖1所示,該方法包括:

步驟S110,對移動終端中的簡訊接收事件進行檢測。

步驟S120,當移動終端接收到簡訊時,計算出該簡訊的內容對應哈希值。

步驟S130,將簡訊的內容對應的哈希值上傳到雲端伺服器,並接收雲端伺服器返回的識別信息。

步驟S140,根據識別信息確定簡訊是否為垃圾簡訊。

可見,圖1所示的方法從客戶端的角度描述了以簡訊的內容對應的哈希值為識別對象,客戶端與雲端伺服器進行交互的過程,實現了對垃圾簡訊的識別。該方法在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題;且經過本地的計算處理後減輕了客戶端與雲端伺服器的交互負擔以及雲端伺服器的處理壓力,提高了識別效率,符合用戶需求。

在本發明的一個實施例中,圖1所示的方法進一步包括:

步驟S150,當確定所述簡訊是垃圾簡訊時,對所述簡訊進行攔截處理。這裡的攔截處理具體可以包括:直接刪除垃圾簡訊;或者將垃圾短息轉移到指定的文件夾中,等待用戶的處理;或者對用戶進行垃圾簡訊的提示。

在本發明的一個實施例中,步驟S120中所述的計算出該簡訊的內容對應的哈希值是指:根據一定的傳統哈希算法,將該簡訊的內容映射為固定長度的數值,該數值稱為哈希值,該哈希值是該簡訊的內容的唯一且極其緊湊的數值表示形式。

本實施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,此類傳統哈希算法都有如下一個基本特徵:在輸入域中很少出現散列衝突,即對於可能差距只有一個字節的文本也會映射出兩個完全不同的哈希值。

例如,兩條詐騙簡訊的內容分別為:「恭喜你中了五萬元大獎」和「恭喜你中了一萬元大獎」,由傳統哈希算法計算出這兩條簡訊的內容對應哈希值分別為286和523。可以看到,兩條詐騙手段非常相似的簡訊所計算出的哈希值完全不同,可能導致後續處理中雲端伺服器的識別壓力過大。

因此,為了去除小範圍差異的簡訊的內容對應哈希值之間的偏差,減輕後續處理中雲端伺服器的識別壓力,在本發明的另一個實施例中,步驟S120中所述的計算出該簡訊的內容對應哈希值是指:計算出該簡訊的內容對應的simhash值。具體過程如下:

步驟S121,對簡訊的內容進行分詞處理。

步驟S122,對分詞後的各個詞賦予不同的向量值,匯總計算得到簡訊的內容對應的simhash值。

下面以表1和表2為例對本發明的方案進行詳細說明。

表1

表2

表1示出了根據本發明一個具體的實施例計算簡訊的內容對應的simhash值的過程。如表1所示,在本實施例中,移動終端接收到的簡訊是:「本公司代開普通發票,本公司不代開增值稅專用發票和專業發票。」

首先,初始化simhash值對應的向量形式:A=Ao={0,0,0,0,0,0}。

接著,對該簡訊的內容進行分詞處理:本公司/代開/普通/發票/,本公司/不/代開/增值稅/專用/發票/和/專業/發票;得到分詞後的各個詞是:本公司,代開,不,增值稅,專用,發票,普通,和,專業。

根據一定的傳統哈希算法,分別計算出各個詞對應的6位哈希值:本公司:100110,代開:110000,不:101111,增值稅:110001,專用:010110,發票:101011,普通:110100,和:110110,專業:001001。

再計算各個詞的詞頻作為對應的向量值,代表各個詞在簡訊內容中的權重:本公司:2,代開:2,不:1,增值稅:1,專用:1,發票:3,普通:1,和:1,專業:1。

構成一個向量B:{本公司/100110/2,代開/110000/2,不/101111/1,增值稅/110001/1,專用/010110/1,發票/101011/3,普通/110100/1,和/110110/1,專業/001001/1}。

依次對向量B中的各個詞做處理,處理方式如下:對於各個詞,如果其哈希值的第i位上是「1」,則對向量A的第i維加上該詞的詞頻;如果其哈希值的第i位上是「0」,則對向量A的第i維減去該詞的詞頻。例如,對於本公司/100110/2,向量A變為{2,-2,-2,2,2,-2};對於代開/110000/2,向量A變為{2,2,-2,-2,-2,-2};以此類推,得到各個詞對應的向量A,如表1中所示。

將各個詞對應的向量A進行匯總求和,得到向量Atotal={9,-1,-3,1,5,1},如果該向量的第i維為不為負數,則令simhash值對應向量的第i維為「1」;如果該向量的第i維為負數,則令simhash值對應向量的第i維為「0」;據此得到最終simhash值對應向量Afinal={1,0,0,1,1,1}。

因此,簡訊「本公司代開普通發票,本公司不代開增值稅專用發票和專業發票。」的simhash值為100111。

表2示出了根據本發明另一個具體的實施例計算簡訊的內容對應的simhash值的過程。如表2所示,在本實施例中,移動終端接收到的簡訊是:「本公司代開普通發票,本公司不代開專用發票和專業發票。」其simhash值的計算過程同理於表1,在此不再贅述。可以看到,表2中示出了匯總求和後得到向量Atotal={8,-2,-2,0,6,0},得到最終simhash值對應向量Afinal={1,0,0,1,1,1}。因此,簡訊「本公司代開普通發票,本公司不代開專用發票和專業發票。」的simhash值為100111,與簡訊本公司代開普通發票,本公司不代開增值稅專用發票和專業發票。」的simhash值相同。

由上述可知,simhash值的計算過程中,在保持各個詞權重的基礎上,逐漸忽略各個詞的哈希值的具體大小,而是將其匯總求和後以值的正負來區分各個詞,而往往相似的簡訊內容會以其相似的文本結構得到符號相同的求和向量Atotal,因此,相似的簡訊會具有相同的simhash值,克服了傳統哈希算法的散列問題。

在本發明的其他實施例中,可以通過其他方式對分詞後的各個詞賦予向量值。

在本發明的一個實施例中,為了進一步提高垃圾簡訊的識別效率,圖1所示的方法進一步包括:當移動終端接收到簡訊時,先根據移動終端的本地規則判斷該簡訊是否為白簡訊;如果不是,則執行前文所述的計算出該簡訊的內容對應哈希值,以及將該簡訊的內容對應的哈希值上傳到雲端伺服器的後續處理;如果是,則確定該簡訊不是垃圾簡訊,不再進行後續的處理。

具體地,根據移動終端的本地規則判斷簡訊是否為白簡訊的方法包括:

方案1,根據移動終端本地的電話號碼白名單判斷發送該簡訊的源號碼是否在電話號碼白名單中,是則該簡訊為白簡訊。其中,該電話號碼白名單是由移動終端設本地設置的,或者,是由雲端伺服器下發到移動終端本地的。進一步地,雲端伺服器可以每隔一定時間對移動終端本地的電話號碼白名單進行更新。

方案2,在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於白簡訊的概率,匯總計算得到該簡訊是白簡訊的概率,判斷該概率是否大於一個預設值,是則該簡訊為白簡訊。

具體地,針對分詞後的每個詞,可在預先訓練的貝葉斯模型中查找與該詞匹配的特徵詞,並獲取該特徵詞的正向權重值和負向權重值,正向權重值作為該詞屬於白簡訊的概率,負向權重值作為該詞不屬於白簡訊的概率;根據分詞後的各個詞的屬於白簡訊的概率匯總計算得到簡訊是白簡訊的概率,根據分詞後的各個詞的不屬於白簡訊的概率匯總計算得到簡訊不是白簡訊的概率,如果該簡訊是白簡訊的概率較大且超過預設值時,則該簡訊為白簡訊。其中,匯總計算方法包括各個詞的概率的權重值的加和或加權乘積,本實施例不做限定。

方案3,在移動終端本地依據上文中所述的方法計算簡訊的內容對應的哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。其中,該哈希值白名單是由移動終端本地設置的,或者,是由雲端伺服器下發到移動終端本地的,進一步地,雲端伺服器可以每隔一定時間對移動終端本地的哈希值白名單進行更新。其中,本方案中所述的哈希值為傳統哈希值或simhash值,由於傳統哈希值白名單中記錄了較多的哈希值,適合容量較大的移動終端。

在進行垃圾簡訊識別的過程中,用戶的意願是選擇識別方法的重要依據之一,因此,在本發明的一個實施例中,圖1所示的方法進一步包括:當用戶在移動終端第一次啟動用於進行垃圾簡訊識別的客戶端時,彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器;如果用戶選擇了同意,則當移動終端接收到簡訊時,直接將該簡訊的內容上傳到雲端伺服器進行識別;如果用戶選擇了不同意,則當移動終端接收到簡訊時,執行前文所述的計算出該簡訊的內容對應哈希值,以及將該簡訊的內容對應的哈希值上傳到雲端伺服器的後續步驟。本實施例從用戶的意願出發,從根本上解決了現有技術中存在的侵犯用戶個人隱私、危害用戶信息安全的問題。

圖2示出了根據本發明另一個實施例的一種識別垃圾簡訊的方法的流程圖。如圖2所示,該方法包括:

步驟S210,接收客戶端側上傳的簡訊的內容對應的哈希值。

步驟S220,將該簡訊的內容對應的哈希值與哈希值庫進行匹配。

在本步驟中,哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息。在本發明的一個實施例中,該哈希值庫是雲端伺服器根據歷史識別記錄所設置的,雲端伺服器每次進行垃圾簡訊的識別後,無論選取何種識別方法,均將所識別的簡訊的內容、關鍵詞或哈希值等特徵與識別信息對應記錄下來,取其中的哈希值與識別信息的對應記錄,建立哈希值庫。

步驟S230,將從哈希值庫中匹配到的哈希值對應的識別信息返回給客戶端。

可見,圖2所示的方法描述了雲端伺服器接收到客戶端發來的簡訊的內容對應哈希值後,對該哈希值進行識別並將識別信息返回給客戶端的過程。該方法在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題;且經過本地的計算處理後減輕了雲端伺服器的處理壓力以及雲端伺服器與客戶端的交互負擔,提高了識別效率,符合用戶需求。

在本發明的一個實施例中,雲端伺服器所接收到的簡訊的內容對應的哈希值為該簡訊的內容對應的simhash值,與之對應地,雲端伺服器的哈希值庫具體為simhash值庫。

在本發明的一個實施例中,圖2所示的方法進一步包括:

步驟S240,接收用戶舉報的簡訊內容。

步驟S250,對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到哈希值庫中。

本步驟中,由雲端伺服器計算簡訊的內容對應simhash值,其過程與上文中所述的客戶端計算simhash的過程類似,在此不再贅述。

圖3示出了根據本發明一個實施例的一種識別垃圾簡訊的客戶端的示意圖。如圖3所示,該識別垃圾簡訊的客戶端300包括:

接收處理單元310,適於對移動終端中的簡訊接收事件進行檢測;當所述移動終端接收到簡訊時,計算出該簡訊的內容對應哈希值並發送至識別交互單元320;

識別交互單元320,適於將該簡訊的內容對應的哈希值上傳到雲端伺服器,並接收雲端伺服器返回的識別信息;根據該識別信息確定簡訊是否為垃圾簡訊。

可見,圖3所示的客戶端通過各單元的相互配合,完成了以簡訊的內容對應哈希值為識別對象,與雲端伺服器進行交互的過程,實現了對垃圾簡訊的識別。該方案在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題;且經過本地的計算處理後減輕了客戶端與雲端伺服器的交互負擔以及雲端伺服器的處理壓力,提高了識別效率,符合用戶需求。

在本發明的一個實施例中,接收處理單元310適於根據一定的傳統哈希算法,計算出簡訊的內容對應的哈希值。本實施例所述的哈希算法包括:HAVAL、MD2、MD4、MD5或SHA1等,由上文可知,此類傳統哈希算法都有如下一個基本特徵:在輸入域中很少出現散列衝突,即對於可能差距只有一個字節的文本也會映射出兩個完全不同的哈希值。

因此,為了去除小範圍差異的簡訊的內容對應哈希值之間的偏差,減輕後續處理中雲端伺服器的識別壓力,在本發明的另一個實施例中,接收處理單元310,適於對簡訊的內容進行分詞處理;對分詞後的各個詞賦予不同的向量值,匯總計算得到該簡訊的內容對應的simhash值。其中,接收處理單元310計算簡訊的內容對應的simhash值的一個具體實施例如表1所示,上文中已詳細描述,在此不再贅述。

在本發明的一個實施例中,為了進一步提高垃圾簡訊的識別效率,圖3所示客戶端的接收處理單元310,進一步適於當移動終端接收到簡訊時,先根據移動終端的本地規則判斷該簡訊是否為白簡訊;如果不是,則計算出所述簡訊的內容對應的哈希值並發送至所述識別交互單元;如果是,則不再進行後續處理。

具體地,接收處理單元310根據移動終端的本地規則判斷簡訊是否為白簡訊的方案包括:

方案1,接收處理單元310根據移動終端本地的電話號碼白名單判斷發送該簡訊的源號碼是否在電話號碼白名單中,是則該簡訊為白簡訊。其中,該電話號碼白名單是由移動終端設本地設置的,或者,是由雲端伺服器下發到移動終端本地的。進一步地,雲端伺服器可以每隔一定時間對移動終端本地的電話號碼白名單進行更新。

方案2,接收處理單元310在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於白簡訊的概率,匯總計算得到該簡訊是白簡訊的概率,判斷該概率是否大於一個預設值,是則該簡訊為白簡訊。本方案的具體實施過程在上文中已詳細說明,在此不再贅述。

方案3,接收處理單元310在移動終端本地依據上文中所述的方法計算簡訊的內容對應哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。其中,該哈希值白名單是由移動終端本地設置的,或者,是由雲端伺服器下發到移動終端本地的,進一步地,雲端伺服器可以每隔一定時間對移動終端本地的哈希值白名單進行更新。其中,本方案中所述的哈希值為傳統哈希值或simhash值,由於傳統哈希值白名單中記錄了較多的哈希值,適合容量較大的移動終端。

圖4示出了根據本發明另一個實施例的一種識別垃圾簡訊的客戶端的示意圖。如圖4所示,本實施例的識別垃圾簡訊的客戶端400在進行垃圾簡訊識別的過程中,以用戶的意願作為選擇識別方法的重要依據之一,該識別垃圾簡訊的客戶端400包括:

初始配置單元410,適於在第一次啟動時彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器。

接收處理單元420,適於在用戶選擇了同意後,當移動終端接收到簡訊時,直接將該簡訊的內容發送給識別交互單元430;以及適於在用戶選擇了不同意後,當移動終端接收到簡訊時,計算出該簡訊的內容對應哈希值並發送給識別交互單元430。

識別交互單元430,適於當接收到簡訊的內容時,直接將該述簡訊的內容上傳到雲端伺服器進行識別;當接收到簡訊的內容對應哈希值時,將該簡訊的內容對應哈希值上傳到雲端伺服器;以及適於接收雲端伺服器返回的識別信息;根據該識別信息確定簡訊是否為垃圾簡訊。

攔截處理單元440,適於當確定簡訊是垃圾簡訊時,對該簡訊進行攔截處理。

這裡的攔截處理具體可以包括:直接刪除垃圾簡訊;或者將垃圾短息轉移到指定的文件夾中,等待用戶的處理;或者對用戶進行垃圾簡訊的提示。

由上述可知。圖4所示的客戶端400從用戶的意願出發,從根本上解決了現有技術中存在的侵犯用戶個人隱私、危害用戶信息安全的問題。

圖5示出了根據本發明一個實施例的一種識別垃圾簡訊的雲端伺服器的示意圖。如圖5所示,該識別垃圾簡訊的雲端伺服器500包括:

接收單元510,適於接收客戶端側上傳的簡訊的內容對應的哈希值。

識別單元520,適於將該簡訊的內容對應的哈希值與哈希值庫進行匹配。

在本單元中,哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息。在本發明的一個實施例中,該哈希值庫是雲端伺服器500根據歷史識別記錄所設置的,雲端伺服器500每次進行垃圾簡訊的識別後,無論選取何種識別方法,均將所識別的簡訊的內容、關鍵詞或哈希值等特徵與識別信息對應記錄下來,取其中的哈希值與識別信息的對應記錄,建立哈希值庫。

反饋單元530,適於將從哈希值庫中匹配到的哈希值對應的識別信息返回給客戶端。

可見,圖5所示的方案說明了接收單元510接收到客戶端發來的簡訊的內容對應哈希值後,識別單元520對該哈希值進行識別,反饋單元530再將識別信息返回給客戶端的過程。該方案在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題;且經過本地的計算處理後減輕了雲端伺服器的處理壓力以及雲端伺服器與客戶端的交互負擔,提高了識別效率,符合用戶需求。

在本發明的一個實施例中,接收單元510所接收到的簡訊的內容對應的哈希值為該簡訊的內容對應的simhash值,與之對應地,雲端伺服器的哈希值庫具體為simhash值庫。

在本發明的一個實施例中,接收單元510,進一步適於接收用戶舉報的簡訊內容;識別單元520,進一步適於對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。其中,識別單元520計算簡訊的內容對應simhash值,其過程與上文中所述的客戶端計算simhash的過程類似,在此不再贅述。

圖6示出了根據本發明一個實施例的一種識別垃圾簡訊的系統的示意圖。如圖6所示,該識別垃圾簡訊的系統600包括識別垃圾簡訊的客戶端610以及識別垃圾簡訊的雲端伺服器620。其中識別垃圾簡訊的客戶端610可以是上文中的識別垃圾簡訊的客戶端300或識別垃圾簡訊的客戶端400,識別垃圾簡訊的雲端伺服器620可以是上文中的識別垃圾簡訊的雲端伺服器500。

綜上所述,本發明提供的技術方案在以簡訊的內容對應哈希值為識別對象的基礎上進行移動終端本地與雲端伺服器的交互,實現了對垃圾簡訊的識別。該方案在保證垃圾簡訊識別有效性的基礎上,避免了在未經用戶同意的情況下將簡訊的內容直接上傳到伺服器所導致的侵犯用戶個人隱私的問題,且經過本地的計算處理後減輕了客戶端與雲端伺服器的交互負擔以及雲端伺服器的處理壓力,提高了識別效率,符合用戶需求。

需要說明的是:

在此提供的算法和顯示不與任何特定計算機、虛擬裝置或者其它設備固有相關。各種通用裝置也可以與基於在此的示教一起使用。根據上面的描述,構造這類裝置所要求的結構是顯而易見的。此外,本發明也不針對任何特定程式語言。應當明白,可以利用各種程式語言實現在此描述的本發明的內容,並且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。

在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,並未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開並幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特徵有時被一起分組到單個實施例、圖、或者對其的描述中。然而,並不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特徵更多的特徵。更確切地說,如下面的權利要求書所反映的那樣,發明方面在於少於前面公開的單個實施例的所有特徵。因此,遵循具體實施方式的權利要求書由此明確地併入該具體實施方式,其中每個權利要求本身都作為本發明的單獨實施例。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變並且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特徵和/或過程或者單元中的至少一些是相互排斥之外,可以採用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特徵以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特徵可以由提供相同、等同或相似目的的替代特徵來代替。

此外,本領域的技術人員能夠理解,儘管在此所述的一些實施例包括其它實施例中所包括的某些特徵而不是其它特徵,但是不同實施例的特徵的組合意味著處於本發明的範圍之內並且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發明的各個部件實施例可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數位訊號處理器(DSP)來實現根據本發明實施例的一種識別垃圾簡訊的客戶端、雲端伺服器和系統中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程序(例如,電腦程式和電腦程式產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從網際網路網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,並且本領域技術人員在不脫離所附權利要求的範圍的情況下可設計出替換實施例。在權利要求中,不應將位於括號之間的任何參考符號構造成對權利要求的限制。單詞「包含」不排除存在未列在權利要求中的元件或步驟。位於元件之前的單詞「一」或「一個」不排除存在多個這樣的元件。本發明可以藉助於包括有若干不同元件的硬體以及藉助於適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬體項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。

本發明公開了A1、一種識別垃圾簡訊的方法,其中,該方法包括:

對移動終端中的簡訊接收事件進行檢測;

當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值;

將所述簡訊的內容對應的哈希值上傳到雲端伺服器,並接收所述雲端伺服器返回的識別信息;

根據所述識別信息確定所述簡訊是否為垃圾簡訊。

A2、如A1所述的方法,其中,所述計算出所述簡訊的內容對應的哈希值包括:

對所述簡訊的內容進行分詞處理;

對分詞後的各個詞賦予不同的向量值,匯總計算得到所述簡訊的內容對應的simhash值。

A3、如A1或A2所述的方法,其中,該方法進一步包括:

當所述移動終端接收到簡訊時,先根據移動終端的本地規則判斷所述簡訊是否為白簡訊;

如果不是,則執行所述計算出所述簡訊的內容對應的哈希值,以及將所述簡訊的內容對應的哈希值上傳到雲端伺服器的後續處理;

如果是,則不再進行後續的處理。

A4、如A3所述的方法,其中,所述先根據移動終端的本地規則判斷所述簡訊是否為白簡訊包括如下一種或多種判斷方法:

根據移動終端本地的電話號碼白名單判斷發送所述簡訊的源號碼是否在所述電話號碼白名單中,是則所述簡訊為白簡訊;

在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於垃圾簡訊的概率,匯總計算得到該簡訊是垃圾簡訊的概率,判斷該概率是否小於一個預設值,是則該簡訊為白簡訊;

在移動終端本地計算簡訊的內容對應的哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。

A5、如A1或A2所述的方法,其中,該方法進一步包括:

在第一次啟動時彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器;

如果用戶選擇了同意,則當所述移動終端接收到簡訊時,直接將所述簡訊的內容上傳到雲端伺服器進行識別;

如果用戶選擇了不同意,則當所述移動終端接收到簡訊時,執行所述計算出所述簡訊的內容對應的哈希值,以及將所述簡訊的內容對應的哈希值上傳到雲端伺服器的步驟。

A6、如A1或A2所述的方法,其中,該方法進一步包括:

當確定所述簡訊是垃圾簡訊時,對所述簡訊進行攔截處理。

本發明還公開了B7、一種識別垃圾簡訊的方法,其中,該方法包括:

接收客戶端側上傳的簡訊的內容對應的哈希值;

將所述簡訊的內容對應的哈希值與哈希值庫進行匹配;其中,所述哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息;

將從哈希值庫中匹配到的哈希值對應的識別信息返回給所述客戶端。

B8、如B7所述的方法,其中,所述簡訊的內容對應的哈希值為所述簡訊的內容對應的simhash值。

B9、如B7或B8所述的方法,其中,該方法進一步包括:

接收用戶舉報的簡訊內容;

對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。

本發明還公開了C10、一種識別垃圾簡訊的客戶端,其中,該客戶端包括:

接收處理單元,適於對移動終端中的簡訊接收事件進行檢測;當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值並發送至識別交互單元;

所述識別交互單元,適於將所述簡訊的內容對應的哈希值上傳到雲端伺服器,並接收所述雲端伺服器返回的識別信息;根據所述識別信息確定所述簡訊是否為垃圾簡訊。

C11、如C10所述的客戶端,其中,

所述接收處理單元,適於對所述簡訊的內容進行分詞處理;對分詞後的各個詞賦予不同的向量值,匯總計算得到所述簡訊的內容對應的simhash值。

C12、如C10或C11所述的客戶端,其中,

所述接收處理單元,進一步適於當所述移動終端接收到簡訊時,先根據移動終端的本地規則判斷所述簡訊是否為白簡訊;如果不是,則計算出所述簡訊的內容對應的哈希值並發送至所述識別交互單元;如果是,則不再進行後續處理。

C13、如C12所述的客戶端,其中,

所述接收處理單元,適於根據如下一種或多種判斷方法判斷所述簡訊是否為白簡訊:

根據移動終端本地的電話號碼白名單判斷發送所述簡訊的源號碼是否在所述電話號碼白名單中,是則所述簡訊為白簡訊;

在移動終端本地對簡訊的內容進行分詞處理,利用貝葉斯算法計算分詞後的各個詞屬於垃圾簡訊的概率,匯總計算得到該簡訊是垃圾簡訊的概率,判斷該概率是否小於一個預設值,是則該簡訊為白簡訊;

在移動終端本地計算簡訊的內容對應的哈希值,再根據移動終端本地的哈希值白名單判斷該簡訊的內容對應的哈希值是否在哈希值白名單中,是則該簡訊為白簡訊。

C14、如C10或C11所述的客戶端,其中,該客戶端進一步包括:

初始配置單元,適於在第一次啟動時彈出聲明協議,在該聲明協議中詢問用戶是否同意直接將簡訊內容上傳到雲端伺服器;

所述接收處理單元,適於在用戶選擇了同意後,當所述移動終端接收到簡訊時,直接將所述簡訊的內容發送給所述識別交互單元;以及適於在用戶選擇了不同意後,當所述移動終端接收到簡訊時,計算出所述簡訊的內容對應的哈希值並發送給所述識別交互單元;

所述識別交互單元,適於當接收到所述簡訊的內容時,直接將所述簡訊的內容上傳到雲端伺服器進行識別;以及適於當接收到所述簡訊的內容對應哈希值時,執行所述將所述簡訊的內容對應哈希值上傳到雲端伺服器的後續步驟。

C15、如C10或C11所述的客戶端,其中,該客戶端進一步包括:

攔截處理單元,適於當確定所述簡訊是垃圾簡訊時,對所述簡訊進行攔截處理。

本發明還公開了D16、一種識別垃圾簡訊的雲端伺服器,其中,該雲端伺服器包括:

接收單元,適於接收客戶端側上傳的簡訊的內容對應的哈希值;

識別單元,適於將所述簡訊的內容對應的哈希值與哈希值庫進行匹配;其中,所述哈希值庫中對應保存有不同簡訊內容對應的哈希值以及已判斷為黑或白的識別信息;

反饋單元,適於將從哈希值庫中匹配到的哈希值對應的識別信息返回給所述客戶端。

D17、如D16所述的雲端伺服器,其中,所述簡訊的內容對應的哈希值為所述簡訊的內容對應的simhash值。

D18、如D16或D17所述的雲端伺服器,其中,

所述接收單元,進一步適於接收用戶舉報的簡訊內容;

所述識別單元,進一步適於對用戶舉報的各簡訊內容進行黑或白的識別,並生成對應的simhash值,將simhash值和對應的識別信息保存到所述哈希值庫中。

本發明還公開了E19、一種識別垃圾簡訊的系統,其中,該系統包括如C10-C15中任一項所述的識別垃圾簡訊的客戶端以及如D16-D18中任一項所述的識別垃圾簡訊的雲端伺服器。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀