語音郵件和傳真過濾的製作方法
2023-07-29 03:44:41 1
專利名稱:語音郵件和傳真過濾的製作方法
語音郵件和傳真過濾
背景
網際網路已經產生了許多新的通信介質,這些通信介質繼續變得更為流行並
廣泛傳播。這些新的介質包括但不限於電子郵件(email)和文本消息,它們可 以由經兩臺或多臺計算機或可連接網絡的基於處理器的設備組成的網絡傳播。 電子郵件允許文本消息單獨或者結合圖形和可任選附件一起的電子通信。文本 或即時消息是更為簡單的用以傳送短文本消息的通信機制。這些電子通信介質 之所以流行是因為它們提供了比傳統電話呼叫侵入感更少的便宜、便捷且點對 點的通信。它們還有許多其他優點,例如電子郵件很容易進行一對多通信,尤 其是不需要同步參與者並且其內容可以被設計得更為簡單。不盡如人意的是, 這些介質具有會威脅其便捷可靠使用的兩大敵手,即兜售信息(spam)和病毒。
兜售信息是相對於傳統垃圾郵件的電子垃圾郵件。類似於垃圾郵件,兜售 信息是大批發送的主動提供的消息。兜售信息通常本質上是商業性的。例如, 直銷者、公司和個人會利用兜售信息為產品、快速致富方案以及捐贈請求等做 廣告。由於兜售信息的本性,即它是多餘的純佔空間的消息,因而兜售信息是 會給電子通信介質用戶帶來不便的討厭的東西。不但用戶必需花時間從泛濫的 不希望有的通信中進行分揀,而且這些兜售信息還因為要複製這些消息而佔據 了大量的資源(例如,存儲空間、網絡帶寬)成本(通過服務提供商傳遞)。 此外,大量的兜售信息還具有拒絕服務攻擊的效果,因為真正的郵件在海量的 其他消息中丟失了。
除了兜售信息,電子通信系統也易受病毒或諸如蠕蟲和木馬的其他類型的 惡意代碼的影響。舉例來說,諸如電子郵件的消息可以包括病毒作為附件。計 算機一旦執行,例如一旦打開該附件,就會受到病毒感染。病毒於是會毀壞硬 件、軟體和/或文件。之後病毒能夠經由電子郵件發送並傳播至其他計算機。蠕 蟲的破壞性與病毒類似,但是它可以在沒有幫助的情況下複製自身並傳送至其 他計算機。例如,蠕蟲可以位於用戶的地址簿並把它自己發送給每個列出的收件人。木馬(Trojan或Trojan horse)有些許不同,因為它利用欺騙引誘用戶打 開或執行代碼,並且不像病毒那樣感染文件也不像蠕蟲那樣自我複製。相反地, 木馬作為合法的軟體片段出現,在被打開時能夠刪除或破壞文件並且會打開後 門,利用該後門就能夠訪問個人或保密信息和/或劫持電腦。
已經開發並利用各種系統和技術來對抗兜售信息和惡意代碼。更具體地, 對電子郵件和文本消息進行多次過濾以檢測兜售信息和/或惡意代碼。一旦被標 識,就會採取行動,諸如尤其可以是重定向至指定位置(例如,兜售信息文件 夾、隔離區等)和/或刪除等。
概述
以下呈現了簡化概述,以提供對權利要求主題的某些方面的基本理解。本 概述不是廣範的縱覽。它並非意在標識關鍵/重要元素,亦非意欲描繪權利要求 主題的範圍。這一概述的唯一目的是以一種簡化的形式來介紹一些概念,作為 稍後呈現的更為詳細的描述的前序。
為過濾語音、傳真和類似的通信提供本發明的簡要描述。特別地,可以執 行過濾或代理來尤其檢測主動提供的大量通信和/或兜售信息和/或惡意代碼, 諸如病毒、蠕蟲和木馬。
根據本發明的一個方面,可以利用現有的電子郵件流水線及關聯過程來實 現對語音和傳真通信的過濾。這些通信可以被轉換成具體形式的電子郵件或 SMTP消息以便使這些消息適用於標準分析工具。更具體地,可以對語音和傳 真消息進行分析並且將其內容的至少一部分作為預覽與其他指定類型的 MIME數據一起在電子郵件正文中提供。隨後就可以利用常規電子郵件過濾器 對這些電子郵件進行處理。
根據本發明的另一方面,可以利用針對語音消息的固有或插入的言語至文 本算法或機制來生成預覽。類似地,可以針對諸如傳真的掃描文檔利用固有或 插入的字符識別技術。
根據本發明的再一個方面,可以將語音、傳真或其他通信作為附件添加至 電子郵件。特定的濾波器隨後能夠分析整個消息,而不僅是分析生成的預覽。 此外,這些過濾器能夠提供檢測兜售信息感興趣的附加信息,諸如語音的音調
5或音量。
根據本發明的一個具體方面,分支交換組件可以將電話呼叫轉發給轉換組 件,該轉換組件應答該呼叫並生成電子郵件消息。所生成的消息隨後被傳送至 消息伺服器(例如,SMTP伺服器、電子郵件伺服器),該伺服器對生成的消 息應用一種或多種濾波以檢測特別是兜售信息和/或惡意代碼。
為實現上述及相關目的,在此結合下列說明和附圖描述所要求保護的主題 的特定示例性的方面。這些方面表示了可以實踐發明主題的各種方式,它們均 落在所要求保護的主題的範圍之內。結合附圖閱讀下面的詳細描述則本發明的 其他優點和新穎特徵將變得很清楚。
附圖簡述
圖1是便於對兜售信息和/或惡意代碼的檢測的系統的框圖。 圖2是一個示例性檢測組件的框圖。 圖3是語音/傳真過濾系統的框圖。
圖4是語音/傳真消息系統的框圖。 圖5是一個示例性轉換組件的框圖。 圖6是消息過濾系統的框圖。 圖7是一個轉換組件的框圖。 圖8是消息過濾系統的框圖。
圖9a-b描繪了可以結合語音或傳真通信發送給收件人的示例性消息內容。
圖IO是通信預處理方法的流程圖。
圖11是消息預處理方法的流程圖。
圖12是與音頻或視頻通信相關聯的合成方法的流程圖。
圖B是與傳真通信相關聯的合成方法的流程圖。
圖14是消息伺服器方法的流程圖。
圖15是客戶端應用程式方法的流程圖。
圖16是例示了用於本發明各方面的合適操作環境的示意性框圖。 圖17是示例計算環境的示意性框圖。詳細描述
現在參考附圖描述本發明的各個方面,其中始終用相同的附圖標記來指代 相同的或相應的元素。然而應該了解,附圖以及與其相關的詳細描述並非旨在 把所要求保護的主題局限於所揭示的特定形式。相反,其意圖是覆蓋落在權利 要求書的精神和範圍之內的所有修改、等效和替換的方案。
在本應用中使用的術語"組件"和"系統"用於表示計算機相關的實體, 它可以是硬體、硬體和軟體的結合、軟體、或者執行中的軟體。例如,組件可 以是但不限於是,在處理器上運行的進程、處理器、對象、實例、可執行(程 序)、執行的線程、程序和/或計算機。作為例示,運行在計算機上的應用程式 和計算機本身都可以是計算機組件。一個或多個組件可以駐留在進程和/或執行
的線程中,而組件可以位於一個計算機內和/或分布在兩個或更多的計算機之 間。
在此使用詞語"示例性的"意指用作例子、實例或例示。在此被描述為"示 例性的"的任何方面或設計並不一定被解釋為比其他方面或設計優先或有利。
根據將在下文中描述的本發明的一個或多個方面,可結合執行推斷和/或 概率判斷和/或基於統計的判斷來使用基於人工智慧的系統(例如,顯式和/或 隱式訓練的分類器)。在此處使用時,術語"推斷"或"推理"通常指的是經 由事件和/或數據捕獲的一組觀察結果來推出或推斷系統、環境、和/或用戶狀 態的過程。例如,推斷可用於標識特定的上下文或動作,或可生成狀態的概率 分布。推斷可以是概率性的——即,基於數據和事件的考慮計算感興趣的狀態 的概率分布。推斷也可以指用於從一組事件和/或數據合成更高級事件的技術。
這類推斷導致從一組觀察到的事件和/或儲存的事件數據構造新的事件或動作, 無論事件是否在相鄰時間上相關,也無論事件和數據是來自一個還是若干個事 件和數據源。可採用各種分類方案和/或系統(例如,支持矢量機、神經網絡、 專家系統、貝葉斯信任網絡、模糊邏輯、數據融合引擎等)來執行關於本發明 的自動化和/或推理的動作。
此外,本發明可以使用產生軟體、固件、硬體或其任意組合的標準編程和 /或工程技術實現為用於控制基於計算機以實現公開的本發明的方法、裝置或制 品。在此使用的術語"產品"意指包含可以從任何計算機可讀設備、載體或介質訪問的電腦程式。例如,計算機可讀介質可以包括但不限於磁存儲設備(例
如,硬碟、軟磁、磁帶等)、光碟(例如,光碟(CD)、數字通用盤(DVD)等)、
智慧卡和閃速存儲器設備(例如,卡、棒)。另外應該明白,載波可以被用於 承載計算機可讀電子數據,例如那些被用於傳送和接收電子郵件方面或被用於
訪問網絡如網際網路或區域網(LAN)的數據。當然,本領域的技術人員將會認 識到,在不背離所要求保護的主題的範圍或精神的前提下可以對這一配置進行 許多修改。
首先轉向圖1,公開了用以標識主動提供的大批消息和/或惡意代碼的語音 /傳真消息系統100。系統100包括採集組件110和檢測組件120。採集組件110 接收、檢索或以其他方式獲取或採集語音或傳真消息等。採集組件110通信耦 合至檢測組件120。因此,採集組件110可以將消息傳送給檢測組件120。作 為替換,檢測組件120可以從採集組件110檢索消息或者在獲得消息(例如, 實時,流傳送等)時對其進行操作。檢測組件120可以分析消息並且確定或標 識主動提供的大量消息或兜售信息和/或惡意代碼,惡意代碼包括但不限於病 毒、蠕蟲和木馬。檢測可以基於一種或多種規則或算法、優先選擇、模式匹配 和/或機器學習或人工智慧等來完成。例如,可以利用能夠檢查具體關鍵字或短 語的算法來檢測兜售信息。基於算法的結果,可以分配對應於該消息是兜售信 息的概率的得分。如果得分大於或等於一具體值(例如,預定義的),就可以 說已經檢測到兜售信息。如果得分小於該具體數值,則未找出兜售信息。 一旦 檢測到兜售信息,可以記錄各種特性來改善今後對消息的檢測機制。作為示例 而非限制,可以將起源電話號碼或其他標識符記入日誌,從而可以預期今後來 自這一號碼的消息更有可能是兜售信息或者包括惡意消息。也可以應用類似的 機制和方法來便於對惡意代碼的標識。
圖2根據本發明的一個方面更為詳盡地示出了檢測組件120。檢測組件120 包括分析組件122。分析組件122通信耦合至言語至文本組件123、言語組件 124、字符識別組件125和結構組件126。結果,該分析組件122可以利用從通 信耦合組件123、 124、 125和126中的一個或多個提供或接收的輸入來便於對 兜售信息和/或惡意代碼和其他事物的檢測。
言語至文本組件(在此也稱為STT組件)123識別口頭通信並將說出或錄下的字詞轉換成文本。因此,STT組件123能夠在語音消息被傳送時或從其記 錄版本基本實時地對其進行轉換。以此方式,分析組件122能夠仔細檢査STT 組件123生成的文本以檢測兜售信息或惡意代碼。
與STT組件123不同,言語組件124能夠單獨掃描音頻,而非從音頻生 成的文本,以便於對其中的具體關鍵字、短語和/或模式的標識。因此,分析組 件122能夠提供例如關鍵字給言語組件124,並且該組件能夠指出該音頻中是 否出現過這些關鍵字。另外,言語組件124還能夠鑑別可能會感興趣的附加特 性,包括但不限於音調和音量。
分析組件122還能夠利用字符識別組件125來幫助標識諸如傳真的電子通 信中的具體字詞。例如,識別組件125能夠利用標準和/或新穎的識別算法來創 建表示掃描文檔內容的結構化文檔。作為附加或者替換,結構組件126用於掃 描諸如傳真的文檔的結構,而不是經轉換的結構化文檔,以便於對兜售信息或 惡意代碼的檢測。
應該認識到分析組件122可以利用一個以上所述組件來便於檢測並提高 可靠性。作為示例而非限制,分析組件122可以接收來自STT組件123和言語 組件124兩者的數據以確定具體的字詞或短語是否在一語音消息中出現。類似 地,字符識別組件125和結構組件126可組合使用以幫助標識在諸如傳真的掃 描文檔中的兜售信息和/或惡意代碼。
圖3根據所要求保護的本發明的一個方面描繪了消息過濾系統300。過濾 系統300包括採集組件110和過濾器組件310。採集組件110接收、檢索或以 其他方式獲取或採集電子語音或傳真通信。採集組件IIO通信耦合至過濾器組 件310。過濾器組件310濾出、移除或以其他方式對已被確定為兜售信息或者 包括惡意代碼等的通信進行動作。在標識這些消息時執行的判定和動作可由算 法、規則和/或優先選擇來指導。過濾器組件310包括檢測組件120和動作組件 310。
如前參考圖1和2所述,檢測組件120用於至少部分地基於語音或傳真消 息的內容來標識可能是兜售信息或者含有惡意代碼的通信。例如,檢測組件120 可以通過單獨分析音頻和/或通過將音頻轉換為文本並仔細檢查該文本來分析 語音消息的關鍵字、短語或模式。類似地,檢測組件120能夠通過估計文檔的結構和/或例如利用字符識別機制和/或方法將文檔轉換成結構化文檔(例如, 包括標籤、元數據、XML等)來標識諸如傳真的掃描文檔內的具體關鍵字或
短語。檢測組件120通信耦合至動作組件312。
動作組件312從檢測組件120接收一消息是否是兜售信息或者包括惡意代 碼的指示。 一旦接收到這一指示,動作組件312就能夠例如基於一種或多種規 則和/或優先選擇來執行一些動作。舉例來說, 一旦接收到被標識為兜售信息的 消息,動作組件312就能夠將消息轉發至垃圾郵件箱或者簡單地刪除該消息。 類似地, 一旦接收到包括惡意代碼的消息,就可以刪除或隔離該消息從而不允 許該代碼完成其預想結果。作為附加或者替換,可以記錄消息源的電話號碼或 其他標識符。由動作組件312採取的動作可由用戶應用程式(例如,電子郵件 應用程式)執行,或者可由諸如SMTP (簡單郵件傳輸協議)伺服器的郵件服 務器更為敏感執行以減輕用戶應用程式的責任。類似地,檢測也可由用戶應用 程序或郵件伺服器執行。
還應認識到過濾器組件310不僅僅需要針對兜售信息和惡意代碼使用。另 外,過濾器組件310還可以表示某些用戶或管理員規則或優先選擇。過濾器組 件310隨後可用於至少基於消息的內容分組或組織具體類型的消息。於是,檢 測組件120可用於標識具體內容,而動作組件312可根據規則執行分組或組織 消息所要求的動作。
參見圖4,根據本發明一個方面公開了語音/傳真消息系統400。系統400 包括採集組件110和轉換組件410。採集組件110如前所述能夠接收、檢索或 以其他方式獲取或採集語音或傳真通信。採集組件110通信耦合至轉換組件 410。轉換組件410檢索、檢索或以其他方式獲取來自採集組件110的通信。 一旦接收或檢索到,轉換組件410就能夠將語音或傳真消息轉換成電子消息或 電子郵件。例如,語音通信可以被記錄並作為附件添加至電子郵件。此外,該 消息內容的至少一部分可以在電子郵件正文內提供。
轉而關注圖5,根據所要求保護的本發明的一個方面示出轉換組件410。 轉換組件410包括預覽組件510。預覽組件510使得語音或傳真消息內容的至 少一部分能夠在電子郵件正文內提供。預覽組件510包括言語至文本(STT)組 件123和字符識別組件125。 STT組件123能夠識別語音並利用標準和/或新穎算法將字詞轉換成文本。字符識別組件125能夠分析諸如傳真的掃描文檔,標
識並組織其中的字符。由組件123和125提供的功能可以在接收消息期間或之 後對所記錄或保存的版本實時執行。由STT組件123或字符識別組件125提供 的字詞和/或字符可以關聯於該消息由預覽組件510插入電子郵件正文。
轉換組件410還可以包括附件組件520。附件組件520能夠記錄和/或保存 所接收的語音或傳真消息。該消息的記錄或保存版本隨後可以作為附件添加至 電子郵件。轉換組件410通信耦合至預覽組件以便於在詳盡消息之前生成消息 預覽。
除了前述組件,轉換組件410還可以包括類型標識(identity)組件530。 標識組件530可在電子郵件內提供是否包括語音郵件消息或傳真消息的指示。 該指示尤其還可以在電子郵件正文中提供。為了幫助確定語音或傳真消息,標 識符組件通信耦合至預覽組件510和附件組件520。標識符組件520能夠例如 基於附件本身或者是利用STT組件123還是字符識別組件125生成預覽和/或 預覽本身來做出這一判定。
圖6示出了消息過濾系統600。過濾系統600包括採集組件110。如前所 述,採集組件110能夠接收、檢索或以其他方式獲取或採集語音或傳真消息。 採集組件110提供消息數據給通信耦合的轉換組件410。
轉換組件410將語音或傳真消息轉換成電子郵件消息。例如,語音或傳真 消息可以被記錄或保存並附加至電子郵件,尤其是在正文內提供的內容的至少 一部分。轉換組件410能夠通信耦合至一個或多個非固有的插入組件610,藉 此擴展轉換組件410的功能。例如,插入組件610能夠向轉換組件410提供言 語至文本功能。
過濾器組件320通信耦合至轉換組件410並能夠從中接收消息。過濾器組 件320能夠標識具體電子郵件並對其動作。例如,過濾器組件320針對具體關 鍵字掃描經轉換語音或傳真消息的文本,並且在找出關鍵字的情況下執行一些 動作。作為附加或者替換,過濾器組件320能夠掃描附件,尤其是包括音頻或 掃描文檔的附件。應該認識到過濾器組件320可以與轉換組件410相結合。
現轉向圖7,根據本發明的一個方面示出轉換組件410。轉換組件410包 括預覽組件510、附件組件520、類型標識符組件530和過濾器組件320。預覽組件510包括言語至文本(STT)組件512和字符識別組件514。預覽組件510 在一個場景中能夠與附件組件520交互,並且在電子郵件正文中提供其內容的 至少一部分。STT組件512能夠將言語轉換成文本。因此,STT組件512可用 於將語音消息轉換成文本字符。字符識別組件514能夠發現並捕捉文檔中的字 符。於是,字符識別組件514就可用於捕捉諸如傳真的掃描文檔的內容。附件 組件520從語音或傳真通信生成隨後作為附件添加至電子郵件的文件。類型標 識符組件530生成表示電子郵件消息類型的附加至電子郵件的標識符。例如, 標識符可以指示該電子郵件對應於捕捉語音或傳真消息的消息。轉換組件410 還可以包括過濾器組件320。
過濾器320通信耦合至附件組件520、預覽組件510和類型標識符組件 530。過濾器組件320能夠認出具體關鍵字、短語等以嘗試檢測包括但不限於 主動提供的大量消息和惡意代碼在內的具體消息內容。動作可由過濾器組件 320基於發現的內容來發起。過濾器組件320可以在經由附件組件520記錄期 間或其後分析語音消息。作為附加或替換,有預覽組件510生成的內容預覽可 由過濾器組件320分析以檢測消息和/或對其進行動作。過濾器組件320還可以 提供信息給類型標識符組件530以便於發現電子郵件消息的類型。
圖8示出了根據本發明一個方面的示例性消息過濾方法800。過濾系統800 包括分支交換組件810用於採集語音和/或傳真通信。分支交換組件810可以包 括傳統或者網際網路協議(IP)分支交換(IPBX)。此外,交換組件810可以是公 共的(例如,中心局交換服務)或私人的(PBX)。交換組件810能夠接收來 自常規電話系統的通信,或者通過電話協議、IP協議(例如,H.323、 SIP等) 或任何其他公共或私有協議經網際網路接收通信。 一旦接收通信,分支交換組件 810能夠將該通信路由至轉換組件820。作為示例,分支組件810能夠將無應 答的呼叫或者被配置為應答傳真的電話號碼轉發給組件410。
轉換組件410如前所述能夠將接收到的通信轉換成電子郵件。轉換組件 410能夠從分支交換組件810或經由藉此提供的連接接收通信。該通信可以在 隨後或者同時變換為SMTP (簡單郵件傳輸協議)消息。如上所述,語音或傳 真消息可以被記錄或保存,並作為附件提供。此外,該消息內容的至少一部分 例如可以用MIME (多用途網際網路郵件擴展協議)格式編碼在正文內。正文內還可以捕捉附加信息,包括但不限於消息類型(例如,語音、傳真)、呼叫電 話號碼、語音消息持續時間、語音消息發送者名、附件名和傳真頁數。此外, MIME消息可被轉換成能夠用消息分類的內部表示來存儲的內部表示。這一分 類隨後可由客戶端訪問軟體用來顯示經優化的UI。
另外,基於來自分支交換組件810和/或消息伺服器830的可用消息,轉 換組件410能夠例如利用HTML內容類型來合成可查看消息。作為示例而非 限制,提供了圖9a-c。本領域普通技術人員將會理解,隨後的示例性說明只是 向收件人提供信息的多種方式之一。此外,還可以藉此提供附加和/或替換內容。 圖9a示出了解析呼叫者id時的示例語音郵件消息內容。如圖所示,指示了在 一具體日期接收自發件人的語音消息。所附消息被保存為名為"425-555-7515" 的歷時15秒的WMA (Windows Media Audio,視窗媒體音頻)文件。此外, 還提供了有關該發件人的信息,包括他的職務、公司、工作號碼、移動號碼、 家庭號碼以及他的電子郵件和即時消息地址。圖9b提供了在解析呼叫者id時 示例的未接呼叫消息內容。在此呈現了類似的信息,但是沒有附加文件,這或 許是因為發件人決定不留消息。最後,圖9c描繪了解析呼叫者id時的示例傳 真消息內容。在此場景中,提供相同的信息,但卻是導向傳真消息。
轉換組件410是可擴展的。更具體地,轉換組件410能夠利用第三方和/ 或非固有功能,這例如可由插入組件610提供。作為示例而非限制,插入組件 610可以提供一種或多種算法以便於語音-文本翻譯或實現優化字符識別。在此 方法中,不是所有的功能都需要由轉換組件410單獨提供。此外,可以對轉換 組件410進行更新以使其能夠利用與電子郵件生成相關聯的最佳技術或機制。
還應該注意到,轉換組件410可便於在接收消息之前和/或之後檢査期望 收件人的郵箱限額。以此方式,組件410能夠確保所接受的消息被發送給預期 收件人,因為發件人期望這樣並且通常無法接收到指示該消息未被遞送的報 告。例如,系統820可能無法應答指示對郵箱限額已滿的收件人的呼叫。
所生成的電子郵件或SMTP消息可以從轉換組件410發送到消息伺服器 830 (同樣是在此定義的一個組件)。消息伺服器830尤其能夠處理要遞送給 預期收件人郵箱的消息,使得這些消息可由電子郵件應用程式(例如,查看器 /編輯器以及POP或IMAP客戶端)接收或檢索。因此,伺服器830尤其可對應於郵箱、SMTP和/或橋頭伺服器。還應認識到轉換組件410可以是與SMTP 伺服器通信的SMTP客戶端。除了將消息轉發給收件人的郵箱,消息伺服器 830還可過濾這些消息。過濾可以使用針對電子郵件的常規過濾器來進行,這 些過濾器包括兜售信息和惡意代碼過濾器或代理以及常規電子郵件規則或代 理。以此方式,就可利用常規消息遞送流水線來執行語音/傳真過濾,而無需建 立新的流水線。此外,消息伺服器830可以利用一個或多個特定代理832 (同 樣是作為在此定義術語的組件)來掃描音頻而非消息的文本預覽。這些音頻代 理832能夠尤其基於語音音調、音量和/或髒話檢查來進行過濾。類似地,特定 的傳真代理834 (同樣是作為在此定義術語的組件)可被用來掃描與經轉換結 構化文檔或預覽分開的電子郵件結構。還應注意到,這些代理832和834尤其 可以是由伺服器廠商或第三方廠商生成的插入程序或外接件。
應該注意到轉換組件410可以從一個以上的消息伺服器830中進行選擇。 組件410可以利用諸如循環(round-robin)法的算法在消息提交期間從伺服器 列表中選擇一伺服器。如果組件410未能連接至所選伺服器,它會注意該情況 並利用下一個伺服器。在預定時間段(例如,N秒)內將不會利用標記為停機 的伺服器。如果伺服器都不可用,呼叫將不被應答,或者會做出指示伺服器不 可用的提示。如果伺服器在應答呼叫並記錄消息之後停機,則轉換組件410以 及更具體地與其相關聯的假脫機程序就能夠確保一伺服器變為在線時遞送該 消息。
己經關於一些組件之間的交互作用描述了上述系統。應該明白,此類系統 和組件可以包括在此所指定的那些組件或子組件、所指定組件或子組件中的一 部分和/或另外的組件。子組件也可以被實現為在通信上被耦合到其他組件而不 是被包括在父組件中的組件。此外, 一個或多個組件和/或子組件可以結合成提 供總體功能的單個組件。諸組件也可以與出於簡要考慮在此未具體描述但本領 域的技術人員已知的一個或多個其他組件交互。
此外,應該明白以上公開的系統以及以下方法的不同部分可以包括或包含 基於人工智慧、機器學習或知識或規則的組件、子組件、進程、裝置、方法或 機制(例如,支持向量機、神經網絡、專家系統、貝葉斯信任網絡、模糊邏輯、 數據融合引擎、分類器等)。此類組件和其他組件可以自動化地執行特定機制或進程,由此使得系統和方法的諸部分變得更加自適應、高效及智能。作為示
例而非限制,過濾器組件810和/或代理832和834能夠利用這些機制或方法來 便於對消息內容的分析。組件810或代理832和834能夠基於當前的消息內容 以及先前的經驗或知識來推斷(作為在此定義的術語)消息包含兜售信息和/ 或惡意代碼。
考慮到以上描述的示例性系統,參考圖10-15的流程圖將可以更好地理解 依照所公開的主題實現的方法。儘管出於簡化解釋的目的,各方法被顯示和描 述為一系列的框,但應該理解和明白,所要求保護的主題不受框的順序所限, 因為一些框能夠以與在此所敘述和描述所不同的順序發生和/或與其他框同時 發生。而且,實現以下所描述的方法並非需要全部示例的框。
另外還應該明白,下文以及本說明書全文中所揭示的方法可以被存儲在產 品上,以便於把此類方法傳送和傳輸給計算機。在此使用的術語"產品"意指 包含可以從任何計算機可讀設備、載體或介質訪問的電腦程式。
轉向圖10,根據本發明一個方面描繪了預處理方法1000。在接受並處理 諸如語音消息的通信之前,可以執行若干動作。進行這一預處理是為了符合用 戶對在語音或傳真消息被發送並接收時,這些消息會到達預期收件人的期望。 不像電子郵件,這些方法通常不提供接收指示預期收件人未接收到該消息的報 告的手段。在參考數字1010處,檢測到一連接。例如,呼入的呼叫或通信轉 發自分支交換或其他採集組件。在1020,做出諸如橋頭的伺服器可否用來接受 該消息的判定。如果否,則在1022,可以應答該通信並提供告知伺服器不可用 的提示。本方法隨後可以終止。然而,還應注意到該通信可能是簡單地未被接 收。例如,可能會允許電話通信繼續響鈴而無應答。任一情況下,通信都未被 接收,因而就無法遞送給預期收件人。如果在1020伺服器可用,則方法在其 中標識預期收件人的1030繼續。例如,基於所撥電話號碼來查找或以其他方 式標識預期收件人。在參考數字1040,做出預期收件人的預期是否超出限額的 判定。限額可關聯於管理員對用戶能夠接收的消息數量限制的郵箱。如果郵箱 超出限額,則在1042,通信可被應答並且發出指示該郵箱已滿的消息。作為替 換,可以簡單地不應答通信。應該注意到在此情況下,不應答有一個好處,就 是諸如PBX或其他交換組件可以具有用以將該呼叫傳遞給另一終點的邏輯。如果郵箱沒有超出限額,則本方法能夠行進至1050,其中通信被應答並處理。 隨後,本方法終止。應該認識到當通信正被處理時,伺服器可以變為不可用。 在此情況下,所處理的通信可被放置在隊列中並在伺服器變得可用時被發送。 類似地,預期收件人的郵箱限額在處理期間也可以被填充。在此特定情況下, 可以超出限額並遞送消息。
圖11描繪了根據本發明一個方面的消息處理方法1100。在參考數字1110,
接收語音或傳真通信或消息。在1120,基於接收到的通信生成電子郵件或郵件 包。該電子郵件或郵件包隨後在1130被發送至消息伺服器等以便遞送至預期 收件人的郵箱。例如,可以利用SMTP做出這一傳輸。
圖12示出了與音頻或語音消息相關聯的合成方法1200。在1210,保存或 記錄語音通信。在數字1220,可以在記錄期間或之後分析語音通信內容。在 1230,生成該通信的預覽。預覽包括該音頻通信的至少一部分的文本。例如, 話音-文本機制和/或技術可用來將音頻轉換成文本以供預覽。在1230,生成消
息分組或電子郵件。所保存的音頻可以作為附件提供,而預覽則能夠形成電 子郵件正文的一部分。還應注意到還可以填充MIME報頭,諸如消息類型、呼 叫電話號碼、收件人電子郵件地址、語音消息持續時間、語音消息發件人名字、 主題和附件名(未接呼叫為空)。還應理解,考慮到個人會使用其他的電話、 計算機等,"發件人"MIME報頭與標準的"發自(from)"首部不同。還可 以指定是否期望適時提供未遞送報告,以及呼叫者是否將該消息標記為重要 等。還應注意到所合成的電子郵件可以對應於在呼叫者例如未能留下消息的情 況下的未接呼叫(例如,參見圖9b)。
圖13描繪了關聯於傳真消息處理通信的方法1300。在參考數字1310,保 存接收到的傳真或類似的掃描文檔。在1320,分析傳真內容。這一動作可以緊 隨保存之後或與其同時執行。在1330,創建捕捉了傳真內容的至少一部分的結 構化文檔或預覽。這可以對應於向文檔應用字符識別技術或機制。在1340,組 裝電子郵件或其他郵件包。更具體地,可以將保存的傳真作為附件添加,並且 可以將預覽加入電子郵件正文。還應該認識到設置MIME報頭,諸如消息類型 (這裡是傳真)、呼叫電話號碼以及傳真頁數等。
圖14示出了根據本發明一個方面的消息伺服器方法1100。在參考數字1410,接收針對語音和/或傳真消息的電子郵件消息。如前所述,電子郵件可以
包括作為附件的語音或傳真消息,以及在電子郵件正文中的預覽。在1420,對 電子郵件應用一個或多個惡意代碼過濾器。該過濾器可以包括那些分析所有電 子郵件的標準過濾器。更具體地,這些過濾器可捕捉在正文中提供的預覽內的 惡意代碼,諸如病毒、蠕蟲或木馬。然而,可以特別地對語音或傳真消息應用 附加濾波器。在1430,可對電子郵件應用一個或多個兜售信息過濾器。同樣地, 這些過濾器可以是應用於所有電子郵件的標準過濾器。在此場景中,可以基於 在正文中提供的預覽來檢測兜售信息。作為附加或者替換,可以特別地對語音 或傳真消息附件應用特定的過濾器。這些過濾器能夠啟用對檢測兜售信息感興 趣的附加特性的檢測,包括但不限於電子郵件的語音音調和音量以及傳真消息 的結構。
轉向圖15,提供了示出根據本發明一個方面的客戶端應用程式方法1500 的流程圖。在參考數字1510,接收語音/傳真電子郵件消息。這些消息可以是 例如利用POP或IMAP協議從消息伺服器中接收的。在1520,將指定類型的 格式應用於特定消息。例如,解釋MIME格式並根據其顯示消息。圖9a-9b提 供了用於語音和傳真消息的示例性顯示格式。在1530,指定規則是應用於各條 消息的用戶定義規則。例如,來自一具體發件人或電話號碼的消息可被移至選 定文件夾或觸發一警報。另外,應該認識到能被應用於常規電子郵件或與標準 電子郵件程序相關聯的任何其他動作也可針對語音/傳真消息而加以應用。
為給所揭示的主題的各方面提供上下文,圖16和17以及下列討論旨在提 供可以在其中實現所揭示主題的各方面的合適的計算環境的簡要、概括的描 述。儘管前面己經在運行在一個或多個計算機上的電腦程式的計算機可執行 指令的一般上下文中描述了本發明,然而本領域內的技術人員將認識到,本發 明也可以和其他程序模塊結合實現。 一般地,程序模塊包括執行特定任務和/ 或實現特定抽象數據類型的例程、程序、對象、數據結構等等。而且,本領域 內的技術人員將會理解,本發明的方法可以與其他計算機系統配置一起實施, 包括單處理器或多處理器計算機系統、小型計算設備、大型計算機以及個人計 算機、手持式計算設備(例如,個人數字助理(PDA)、電話、手錶等)、基 於微處理器的或可編程的消費性或工業電子產品等等。也可以在分布式計算環境中實踐所例示的方面,在分布式計算環境中,任務是由通過通信網絡連接的 遠程處理設備執行的。然而,聲明的本發明的一些方面,如果不是全部方面, 可以在獨立計算機上實施。在分布式計算環境中,程序模塊可被置於本地或遠 程的存儲器設備中。
參考圖16,為實現在此公開的各方面的示例性環境1610包括計算機1612
(例如,臺式計算機、膝上型計算機、伺服器、手持式計算機、可編程消費者
或工業電子產品等)。計算機1612包括處理器單元1614,系統存儲器1616, 以及系統總線1618。系統總線1618把包括但不限於系統存儲器1616的系統部 件連接到處理單元1614。處理單元1614可以是各種可用處理器中的任意一種。 雙微處理器和其它多處理器結構也可用作處理單元1614。
系統總線1618可以是幾種類型的總線結構中的任意一種,包括存儲器總 線或存儲器控制器,外圍總線或外部總線,和/或利用下述可用總線結構中的任 意一種的本地總線,包括但不限於,ll位總線,工業標準結構(ISA),微通 道結構(MCA),擴展工業標準結構(EISA),智能化驅動器電子接口 (IDE), VESA本地總線(VLB),外圍部件互連(PCI),通用串行總線(USB), 高級圖形埠 (AGP),個人計算機內存卡國際聯合會總線(PCMCIA),以 及小型計算機系統接口 (SCSI)。
系統存儲器1616包括易失性存儲器1620以及非易失性存儲器1622。基 本輸入/輸出系統(BIOS)包含諸如在啟動期間在計算機1612的元件之間傳送 信息的基本例程,其存儲在非易失性存儲器1622中。作為例子而不是限制, 非易失性存儲器1622可以包括只讀存儲器(ROM),可編程ROM (PROM), 電可編程ROM (EPROM),電可擦除ROM (EEPROM),或者快閃記憶體。易失 性存儲器1620包括用作外部高速緩存的隨機存取存儲器(RAM)。作為例子 而不是限制,RAM可以是很多形式,諸如同步RAM (SRAM),動態RAM (DRAM),同步DRAM (SDRAM),雙速SDRAM (DDR SDRAM),增 強型SDRAM (ESDRAM),同步連結DRAM (SLDRAM),以及直接存儲 器總線RAM (DRRAM)。
計算機1612還包括可移動/不可移動,易失性/非易失性計算機存儲介質。 例如,圖16示出了磁碟存儲器1624。磁碟存儲器1624包括但不限於諸如磁碟驅動器、軟盤驅動器、磁帶驅動器、Jaz驅動器、Zip驅動器、LS-100驅動器、 快閃記憶體卡、或者內存條之類的設備。此外,磁碟存儲器1624可以包括獨立的或 者與其它存儲介質結合的存儲介質,包括但不限於諸如加密盤ROM驅動器 (CD-ROM)、可記錄CD驅動器(CD-R驅動器)、可重寫CD驅動器(CD-RW 驅動器)或者數字視頻盤ROM驅動器(DVD-ROM)這樣的光碟驅動器。為 了便於把磁碟存儲裝置1624連接到系統總線1618,通常把可移動或不可移動 的接口用作諸如接口 1626。
應該明白,圖16描述了在合適的操作環境1610中描述的基礎計算機資源 和用戶之間起到中介作用的軟體。這些軟體包括作業系統1628。存儲在磁碟存 儲器1628上的作業系統1624,在運行時控制並分配計算機系統1612的資源。 系統應用程式1630通過存儲在系統內存1628或磁碟存儲器1632中的程序模 塊1634和程序數據1616,利用作業系統1624對資源進行管理。應該明白,本 發明可以用各種作業系統或作業系統的組合來實施。
用戶通過輸入裝置1636把命令或信息輸入到計算機1612中。輸入裝置 1636包括但不限於諸如光標、軌跡球、指示筆、觸摸板、鍵盤、麥克風、操縱 杆、遊戲手柄、衛星反射器、掃描儀、TV調諧卡、數位相機、數字攝像機、 網頁照相機等等。這些以及其它輸入裝置通過系統總線1614經由接口埠 1638連至處理單元1618。接口埠 1638包括,例如串行埠、並行埠、遊 戲埠、以及通用串行總線(USB)。輸出裝置1640利用和輸入裝置1636相 同類型的埠。因此,例如,USB埠可以用來向計算機1612提供輸入,以 及把來自計算機1612的信息輸出到輸出裝置1640。輸出適配器1642是用來舉 例說明存在某些輸出裝置1640,像顯示器(例如,平板、CRT等)、揚聲器、 以及印表機等需要專用適配器。輸出適配器1642包括,作為例子而不是限制, 視頻和聲頻卡,其在輸出裝置1640和系統總線1618之間提供了連接裝置。應 該注意到,其它裝置和/或系統提供了諸如遠程計算機1644這樣的輸入和輸出 能力。
計算機1612可以利用到諸如遠程計算機1644這樣的一個或多個遠程計算 機的邏輯連接在聯網的環境中操作。遠程計算機1644可以是個人計算機、服 務器、路由器、網絡PC、工作站、基於電器的微處理器,同等裝置或者其它普通網絡節點等,通常包括所描述的有關於計算機1612中的很多或者全部元
件。為了簡明,只舉例說明了遠程計算機1646的存儲器存儲設備1644。遠程 計算機1644經由網絡接口 1648被邏輯地連接到計算機1612然後經由通信連 接1650被物理連接。網絡接口 1648包括諸如區域網(LAN)和廣域網(WAN) 這樣的通信網絡。LAN技術包括光纖分布式數據接口 (FDDI)、銅線分布式 數據接口、乙太網/IEEE 802.3、令牌環/IEEE 802.3等。WAN技術包括但不限 於,點對點連結,像綜合業務數字網(ISDN)和其各種變形的線路交換網, 分組交換網,以及數字用戶專線(DSL)。
通信連接1650指的是把網絡接口 1648連接到總線1618的硬體/軟體。雖 然為了清楚地舉例說明,通信連接1650顯示在計算機1616的內部,但其也可 以在計算機1612的外部。連接到網絡接口 1648所需要的硬體/軟體包括(僅為 了舉例說明)內部和外部技術,諸如數據機包括常規電話級別的調製解調 器、電纜數據機以及DSL數據機、ISDN適配器、和乙太網卡或組件。
圖17是本發明可與其交互的示例計算環境1700的示意框圖。系統1700 包括一個或多個客戶端1710。(諸)客戶端1710可以是硬體和/或軟體(例如, 線程、進程、計算設備)。系統1700也包括一個或多個伺服器1730。因此, 系統1300可以對應於兩層客戶端伺服器模型或多層模型(例如,客戶端、中 間層伺服器、數據伺服器)以及其他模型。(諸)伺服器1730可以是硬體和/ 或軟體(例如,線程、進程、計算設備)。伺服器1730可以容納各線程以通 過例如利用本發明執行轉換。在客戶端1710和伺服器1730之間的一種可能的 通信能夠以在兩個或多個計算機進程之間傳輸的數據分組的形式進行。例如, 數據分組可對應於尤其與語音或傳真通信相關聯的電子郵件。
系統1700包括可以用來使(諸)客戶端1710 (例如,電子郵件應用程式) 和(諸)伺服器1730 (例如,消息、STMP、橋頭等)之間通信更容易的通信 框架1750。(諸)客戶端1710工作時被連接到一個或多個可以用來存儲(諸) 客戶端1710的本地信息的客戶端數據存儲1760。同樣地,(諸)伺服器1730 工作時被連接到一個或多個可以用來存儲(諸)伺服器1740的本地信息的服 務器存儲1730。
以上所已經描述的內容包括所要求保護的主題的各方面的例子。當然,出於描繪所要求保護的主題的目的而描述每一個可以想到的組件或方法的組合 是不可能的,但本領域內的普通技術人員應該認識到,所要求保護的主題的許 多進一步的組合和排列都是可能的。因此,所要求保護的主題被規定為包括所 有這些屬於所附權利要求書的精神和範圍內的改變、修改和變動。此外,在詳 細描述或權利要求書中用到的術語"包含"、"具有"的範圍內,此類術語被 規定為以類似於術語"包括"的方式包括在內,此處的"包括"作為過渡詞在 權利要求書中使用時做出解釋。
權利要求
1.一種計算機實現的過濾系統(100、300、400、600、800)包括下列計算機實現組件接收語音或傳真通信的採集組件(110),以及檢測主動提供的大量通信的檢測組件(120)。
2. 如權利要求1所述的系統,其特徵在於,還包括根據規則對檢測到的 主動提供的大量通信進行動作的動作組件(312)。
3. 如權利要求l所述的系統,其特徵在於,所述檢測組件(120)檢測與 所述通信相關聯的一個或多個病毒。
4. 如權利要求3所述的系統,其特徵在於,所述檢測組件(120)包括分 析來自一個或多個言語至文本組件(123)的數據的分析組件(122)、言語組 件(124)、字符識別組件(125)和結構組件(126)。
5. 如權利要求1所述的系統,其特徵在於,還包括生成將所述通信包括 為附件的電子郵件的轉換組件(410)。
6. 如權利要求5所述的系統,其特徵在於,所述轉換組件(410)包括在 所述電子郵件正文內以文本提供所述通信內容的一部分以便於對主動提供的 大量通信的檢測的預覽組件(510)。
7. 如權利要求5所述的系統,其特徵在於,所述轉換組件(410)包括將 所述消息的類型標識為語音和傳真中至少一種的類型標識符組件(530)。
8. 如權利要求5所述的系統,其特徵在於,所述轉換組件(410)與提供 功能給所述檢測組件(120)以便於對主動提供的大量通信的檢測的插入組件(610)交互。
9. 如權利要求1所述的系統,其特徵在於,所述通信是從分支交換(810) 接收的。
10. —種與語音和傳真消息交互的方法,包括下列計算機實現動作-接收語音或傳真消息的電子傳輸;以及生成包括作為附件的所述語音或傳真消息以及在正文中捕捉的所述消息 內容的至少一部分的電子郵件。生成所述電子郵件包括對 -種或多種,以捕捉所述消
11. 如權利要求IO所述的方法,其特徵在於,生成所述電子郵件包括捕捉MIME格式的內容。
12. 如權利要求10所述的方法,其特徵在於, 所述消息利用言語至文本和字符識別機制或方法的-息內容的至少一部分。
13. 如權利要求10所述的方法,其特徵在於,還包括將所述電子郵件提 供給郵件伺服器。
14. 如權利要求10所述的方法,其特徵在於,還包括利用插入組件來便 於電子郵件的生成。
15. 如權利要求10所述的方法,其特徵在於,接收所述電子傳輸包括接 收由分支交換轉發的呼叫。
16. 如權利要求10所述的方法,其特徵在於,還包括分析所述消息以判 定所述消息是否是兜售信息或包括病毒。
17. 如權利要求16所述的方法,其特徵在於,分析所述消息包括標識所 述電子郵件正文內的一個或多個關鍵字。
18. —種郵件伺服器方法,包括下列計算機可執行動作 接收包含作為附件的語音郵件或傳真消息以及包括了所述消息內容的至少一部分的正文的電子郵件;以及判定所述電子郵件是否是主動提供的大量通信。
19. 如權利要求18所述的方法,其特徵在於,判定所述消息是否是主動 提供的大量通信包括對所述電子郵件的正文和附件之一應用兜售信息過濾器。
20. 如權利要求19所述的方法,其特徵在於,還包括如果所述電子郵件 不是主動提供的大量通信,就將所述電子郵件轉發給收件人郵箱。
全文摘要
本發明涉及對語音、傳真和類似通信的過濾。對這些消息進行分析以判定它們是否是主動提供的大量通信(即,兜售信息)或包括惡意代碼。分析或過濾尤其可通過將消息變換到電子郵件內來實現。該電子郵件包括作為附件的該消息以及提供該消息內容的至少一部分的正文。隨後可對該電子郵件應用常規和新穎分析工具以掃描兜售信息和病毒等。
文檔編號G06Q10/00GK101310295SQ200680042787
公開日2008年11月19日 申請日期2006年10月30日 優先權日2005年11月18日
發明者C·N·迪德庫克, D·A·豪威爾, R·威廉士, S·R·曼達, S·桑德拉拉曼 申請人:微軟公司