新四季網

用於神經語言行為識別系統的感知聯想記憶的製作方法

2023-05-24 08:30:36 2


本文描述的實施例一般而言涉及數據分析系統,並且更具體而言涉及構建從一個或多個數據源獲得的輸入數據的神經語言模型。



背景技術:

許多當前可用的監控和監視系統(例如,視頻監控系統、scada系統等)被訓練成觀察具體活動並且在檢測到這些活動之後向管理員發出警報。

然而,這種基於規則的系統需要提前了解要觀察的動作和/或對象。這些活動可以被硬編碼到底層應用中,或者系統可以基於任何提供的定義或規則對自己進行訓練。換句話說,除非底層代碼包括對某些行為或規則的描述以用於為給定的觀察結果生成警報,否則系統不能識別這些行為。這種基於規則的方法是死板的。即,除非給定的行為符合預定義的規則,否則該行為的發生可能不會被監視系統檢測到。即使系統訓練自己來識別行為,系統也需要為要識別的行為提前定義規則。

此外,許多監控系統(例如,視頻監控系統)需要大量的計算資源,包括處理器能力、存儲和帶寬。例如,由於視頻數據的典型尺寸,典型的視頻監控系統每相機饋送需要大量的計算資源。考慮到資源的成本,這些系統難以擴展。



技術實現要素:

本文給出的一個實施例包括用於生成從一個或多個源獲得的輸入數據的神經語言模型的句法(syntax)的方法。該方法一般地包括接收從符號序列構建的詞典的單詞的流。符號從自輸入數據生成的標準化向量的有序流生成。評估在流中共現(co-curring)的單詞的組合的統計信息。統計信息包括單詞的組合共現的頻率。基於所評估的統計信息更新單詞的組合的模型。該模型識別統計相關的單詞。生成連接圖。連接圖中的每個節點表示流中的單詞之一。連接節點的邊表示流中的單詞之間的概率關係。基於連接圖來識別短語。

本文給出的另一個實施例包括存儲指令的計算機可讀存儲介質,當指令在處理器上執行時,執行生成從一個或多個源獲得的輸入數據的神經語言模型的句法的操作。該操作本身一般地包括接收從符號序列構建的詞典的單詞流。符號從自輸入數據生成的標準化向量的有序流生成。評估在流中共現的單詞的組合的統計信息。統計信息包括單詞的組合共現的頻率。基於所評估的統計信息更新單詞的組合的模型。該模型識別統計相關的單詞。生成連接圖。連接圖中的每個節點表示流中的單詞之一。連接節點的邊表示流中的單詞之間的概率關係。基於連接圖來識別短語。

本文給出的還有的另一個實施例包括具有處理器和存儲器的系統,存儲器存儲一個或多個應用程式,這一個或多個應用程式被配置為執行用於生成從一個或多個源獲得的輸入數據的神經語言學模型的句法的操作。該操作本身一般地包括接收從符號序列構建的詞典的單詞流。符號從自輸入數據生成的標準化向量的有序流生成。評估在流中共現的單詞的組合的統計信息。統計信息包括單詞的組合共現的頻率。基於所評估的統計信息更新單詞的組合的模型。該模型識別統計相關的單詞。生成連接圖。連接圖中的每個節點表示流中的單詞之一。連接節點的邊表示流中的單詞之間的概率關係。基於連接圖來識別短語。

附圖說明

因此,可以詳細理解本公開的上述特徵的方式、對以上簡要概括的本公開的更具體的描述可以通過參考實施例而獲得,其中一些實施例在附圖中示出。然而,應當注意的是,附圖僅僅示出示例性實施例,並且因此不應當被認為是限制其範圍,可以承認其它同等有效的實施例。

圖1示出根據一個實施例的用於神經語言行為識別系統的示例計算環境。

圖2示出根據一個實施例的神經語言行為識別系統的系統體系架構。

圖3示出根據一個實施例的用於收集在神經語言行為識別系統中使用的傳感器數據的方法。

圖4示出根據一個實施例的用於初始化感知聯想記憶的方法。

圖5示出根據一個實施例的表示從詞典輸入到感知聯想記憶中的單詞之間的關係的連接圖。

圖6示出根據一個實施例的用於向認知模塊發送句法的方法。

為了便於理解,在可能的情況下,使用相同的標號來指明對各圖共同的相同元件。可以設想的是,一個實施例的元件和特徵可以有利地併入其它實施例中,而無需進一步的敘述。

具體實施方式

本文給出的實施例描述了行為識別系統。行為識別系統可以配置有從不同數據源收集原始數據值(例如,視頻數據、構建管理數據、scada數據)的一個或多個數據收集器組件。例如,行為識別系統可以被配置用於視頻監控。行為識別系統可以包括實時取回視頻幀、將前景對象與背景對象分離、並且逐幀跟蹤前景對象的數據收集器組件。數據收集器組件可以將視頻幀數據標準化為數值(例如,相對於給定數據類型落入從0到1的範圍內)。

在一個實施例中,行為識別系統包括對收集到的數據執行基於神經網絡的語言分析的神經語言模塊。具體而言,對於由傳感器監視的每種類型的數據,神經語言模塊創建並細化標準化數據的語言模型。即,神經語言模塊構建用於描述標準化數據的語法(grammer)。語言模型包括充當語法的構建塊的符號。神經語言模塊識別符號的組合以構建單詞的詞典。一旦詞典被構建,神經語言模塊就識別包括詞典中的單詞的各種組合的短語(phrase)。行為識別系統使用這種語言模型來描述正在觀察什麼。語言模型允許行為識別系統區分輸入數據中觀察到的正常活動和異常活動。因此,每當異常活動發生時,行為識別系統可以發出警報。

為了生成語言模型,神經語言模塊接收標準化數據值並將這些數據組織成簇(cluster)。神經語言模塊評估每個簇的統計信息,並且識別統計相關(statisticallyrelevant)的簇。此外,神經語言模塊生成對應於每個統計相關的簇的符號(例如,字母(letter))。因此,映射到給定簇的輸入值可以對應於符號。

基於在輸入數據中識別出的符號的統計分布,神經語言模塊生成觀察到的符號組合的詞彙表(lexicon)(即,構建單詞(word)的詞典)。具體而言,神經語言模塊可以識別輸入數據中不同發生頻率的符號模式。此外,神經語言模塊可以識別不同長度(例如,從一個符號到最大符號單詞長度)的統計相關的符號組合。神經語言模塊可以將這種統計相關的符號組合包括在詞典中,用於識別用於語言模型的短語。

使用來自詞典的單詞,神經語言模塊基於在觀察到附加數據時每個單詞相對於其它單詞順次出現的概率關係生成短語。例如,神經語言模塊可以識別與給定的四個字母的單詞頻繁順次出現的給定的三個字母的單詞之間的關係,等等。神經語言模塊基於識別出的短語來確定句法(syntax)。

句法允許行為識別系統在沒有預定義的活動的幫助或指導的情況下學習、識別和辨別行為模式。與基於規則的監控系統(其包含要識別或觀察的內容的預定義的模式)不同,行為識別系統通過對輸入進行概括(generalize)以及構建所觀察到的內容的行為記憶來學習模式。隨著時間的推移,行為識別系統使用這些記憶來區分觀察到的數據中反映的正常行為和異常行為。

例如,神經語言模塊構建字母、單詞、短語,並且為每個識別出的字母、單詞或短語估計「罕見性分數」。(在輸入數據中觀察到的字母、單詞或短語的)罕見性分數提供對該字母、單詞或短語相對於過去的觀察結果有多不頻繁地出現的度量。因此,行為識別系統可以使用罕見性分數來度量當前句法相對於穩定的符號(即,字母)模型、從符號構建的穩定的單詞模型(即,詞典)以及從單詞構建的穩定的短語模型(即,句法)(統稱為神經語言模型)有多罕見。

隨著神經語言模塊繼續接收輸入數據,神經語言模塊可以衰減、加強以及生成字母模型、單詞模型和句法模型。按機器學習領域的說法,神經語言模塊在接收到新的數據並且給定類型的輸入數據的出現增加、減少、出現或消失時進行「在線學習」。

圖1示出根據一個實施例的行為識別系統100的組件。如所示的,行為識別系統100包括一個或多個輸入源設備105、網絡110以及一個或多個計算機系統115。網絡110可以將由源設備105輸入的數據傳送到計算機系統115。一般而言,計算環境100可以包括經由網絡(例如,網際網路)連接的一個或多個物理計算機系統115。可替代地,計算機系統115可以是由網絡連接的雲計算資源。說明性地,計算機系統115包括一個或多個中央處理單元(cpu)120、一個或多個圖形處理單元(gpu)121、網絡和i/o接口122、存儲裝置124(例如,磁碟驅動器、光碟驅動器等)以及存儲器123,存儲器123包括傳感器管理模塊130、感測記憶組件135和機器學習引擎140。存儲裝置124包括模型儲存庫145。

cpu120取回並執行存儲在存儲器123中的編程指令,以及存儲和取回駐留在存儲裝置124中的應用數據。在一個實施例中,gpu121實現計算統一設備體系架構(computeunifieddevicearchitecture,cuda)。此外,gpu121被配置為使用gpu121的並行吞吐量體系架構提供通用處理,以更高效地取回和執行存儲在存儲器123中的編程指令以及還存儲和取回駐留在存儲裝置124中的應用數據。並行吞吐量體系架構提供數千個核心用於處理應用和輸入數據。因此,gpu121利用數千個核心以大規模並行方式執行讀操作和寫操作。利用gpu121的並行計算元件允許行為識別系統100更好地處理大量的傳入數據(例如,來自視頻和/或音頻源的輸入)。因此,行為識別系統100可以以相對較小的難度進行擴展。

傳感器管理模塊130提供一個或多個數據收集器組件。收集器組件中的每一個與特定輸入數據源(例如,視頻源、scada(監督控制和數據採集)源、音頻源等)相關聯。收集器組件以指定的時間間隔(例如,每分鐘一次、每三十分鐘一次、每三十秒一次等)從每個源取回(或接收,取決於傳感器)輸入數據。傳感器管理模塊130控制數據源之間的通信。此外,傳感器管理模塊130對輸入數據進行標準化,並將標準化數據發送到感測記憶組件135。

感測記憶組件135是將大量數據從傳感器管理模塊130轉移到機器學習引擎140的數據存儲庫。感測記憶組件135將數據存儲為記錄。每個記錄可以包括標識符、時間戳和數據有效載荷。此外,感測記憶組件135以時間排序的方式聚合傳入數據。將來自數據收集器組件中的每一個的傳入數據存儲在數據可在其中聚合的單個位置中允許機器學習引擎140高效地處理數據。此外,計算機系統115可以在生成用於異常活動的警報中參考存儲在感測記憶組件135中的數據。在一個實施例中,感測記憶組件135可以經由存儲器123中的虛擬存儲器文件系統來實現。在另一個實施例中,使用鍵-值共享來實現感測記憶組件135。

機器學習引擎140接收從傳感器管理模塊135輸出的數據。一般而言,機器學習引擎140的組件生成標準化向量的語言表示。如下面進一步描述的,為了這樣做,機器學習引擎140對具有相似特徵的標準化值進行簇集(cluster),並向每個簇分配不同的符號。機器學習引擎140然後可以識別數據中重現的符號組合(即,單詞)。然後,機器學習引擎140類似地識別數據中重現的單詞組合(即,短語)。

然而,要注意的是,圖1僅僅示出行為識別系統100的一個可能的布置。例如,雖然輸入數據源105被示為經由網絡110連接到計算機系統115,但是並不總是存在或需要網絡110(例如,諸如視頻相機的輸入源可以直接連接到計算機系統115)。

圖2示出根據一個實施例的行為識別系統的系統體系架構。如所示的,傳感器管理模塊130和機器學習引擎140經由持久層210進行通信。

持久層210包括維護由計算機系統115的組件使用的信息的數據存儲庫。例如,持久層210包括維護描述數據收集器模塊202的屬性、系統屬性(例如,計算機系統115的序列號、可用存儲器、可用容量等)以及源驅動器的屬性(例如,與每個數據源相關聯的活動傳感器、活動插件118、標準化設置等)的信息的數據存儲庫。其它數據存儲庫可以維護學習模型信息、系統事件和行為警報。此外,感測記憶組件135駐留在持久層210中。

機器學習引擎140本身包括神經語言模塊215和認知模塊225。神經語言模塊215執行對標準化輸入數據的基於神經網絡的語言分析,以構建觀察到的輸入數據的神經語言模型。行為識別系統可以使用語言模型來描述後續觀察到的活動。然而,神經語言模塊215不是基於預定義的對象和動作來描述活動,而是基於從輸入數據生成的符號、單詞和短語來開發自定義語言。如所示的,神經語言模塊215包括數據事務存儲器(dtm)組件216、分類分析器組件217、映射器組件218、詞法分析器組件219和感知聯想記憶(pam)組件220。

在一個實施例中,dtm組件216從感測記憶組件135取回輸入數據的標準化向量,並在由gpu121提供的流水線體系架構中對輸入數據進行分級(stage)。分類分析器組件217評估由dtm組件216組織的標準化數據並將數據映射到神經網絡上。在一個實施例中,神經網絡是自組織映射(self-organizingmap,som)和自適應共振理論(adaptiveresonancetheory,art)網絡的組合。

映射器組件218基於彼此關聯地重複出現的值對數據流進行簇集。此外,映射器組件218為每個輸入特徵生成簇集合。例如,假設輸入數據對應於視頻數據,那麼特徵可以包括位置、速度、加速度等。映射器組件218將為這些特徵中的每一個生成單獨的簇集合。映射器組件218基於簇集的輸入數據來識別符號(即,構建字母的字母表)。具體而言,映射器組件218確定數據在每個簇中的統計分布。例如,映射器組件218確定值在簇中的分布的均值、方差和標準偏差。當更多的標準化數據被接收時,映射器組件218還更新這些統計信息。此外,每個簇可以與統計顯著性分數相關聯。給定簇的統計顯著性隨著接收到映射到該簇的更多數據而增加。此外,當映射器組件218隨著時間的推移較不經常地觀察到映射到簇的數據時,映射器組件218使該簇的統計顯著性衰減。

在一個實施例中,映射器組件218將符號集合分配給具有統計顯著性的簇。如果超過了映射到簇的輸入數據的閾值量,那麼該簇可以具有統計顯著性。符號可以被描述為用於創建在對輸入數據的神經語言分析中使用的單詞的字母表的字母。符號提供屬於給定簇的數據的「模糊」表示。

此外,映射器組件218是自適應的。即,隨著從標準化數據生成的新簇隨時間的推移被加強(從而導致這些簇相對於從輸入數據顯現的其它簇達到統計顯著性的級別),映射器組件218可以識別與這些簇對應的新符號。映射器組件218在線學習,並且可以將相似的觀察結果合併成更概括的簇。映射器組件218可以向結果得到的簇分配不同的符號。

一旦簇已經達到統計顯著性(即,觀察到的作為映射到該簇的數據已經達到點數的閾值量),映射器組件219就響應於映射到該簇的標準化數據開始向詞法分析器組件219發送對應的符號。在一個實施例中,映射器組件218將可以被發送到詞法組件219的符號限制到統計上最顯著的簇。在實踐中,輸出分配給前32個簇的符號(即,字母)已表明是有效的。然而,其它數量(諸如前64個或前128個最頻繁重現的簇)也可以證明是有效的。注意的是,隨著時間的推移,最頻繁觀察到的符號可能由於簇的統計顯著性的增加(或減少)而改變。因此,給定的簇有可能失去統計顯著性。隨著時間的推移,用於統計顯著性的閾值可能增加,並且因此,如果觀察到的映射到給定簇的數據的量不能滿足閾值,那麼該簇失去統計顯著性。

在一個實施例中,映射器組件218評估每個符號的罕見性分數。罕見性分數基於隨著時間的推移給定符號相對於輸入數據流中觀察到的其它符號的頻率。隨著神經語言模塊215接收到附加的數據,罕見性分數可以隨時間推移而增加或減少。

映射器組件218向詞法分析器組件219發送符號(例如,字母)流、時間戳數據、罕見性分數和統計數據(例如,與給定符號相關聯的簇的表示)。詞法分析器組件219基於從映射器組件218輸出的符號構建詞典。在實踐中,映射器組件218可能需要大約5000個觀察結果(即,輸入數據的標準化向量)以生成穩定的符號字母表。

詞法分析器組件219從由映射器組件218傳送的符號構建包括共現(co-occuring)符號的組合(例如,單詞)的詞典。詞法分析器組件219識別從映射器組件218輸出的字母和特徵的重複共現並且計算該共現在整個符號流中出現的頻率。符號的組合可以表示特定的活動、事件等。

在一個實施例中,詞法分析器組件219限制詞典中單詞的長度,以允許詞法分析器組件219識別若干可能的組合而不會不利地影響計算機系統115的性能。此外,詞法分析器組件219可以使用基於級別的學習模型來分析符號組合以及學習單詞。詞法分析器組件219在遞增的級別處學習單詞直到最大符號組合長度,即,其中在第一級別處學習一個字母的單詞,在第二級別處學習兩個字母的單詞,等等。在實踐中,將單詞限制為最多五個或六個符號已表明是有效的。

類似於映射器組件218,詞法分析器組件219是自適應的。即,隨著時間的推移,詞法分析器組件219可以學習並生成詞典中的單詞。當詞法分析器組件219隨著時間的推移接收到後續的符號流時,詞法分析器組件219還可以使詞典中的單詞的統計顯著性加強或衰減。此外,詞法分析器組件219可以基於單詞在數據中有多頻繁地重現來確定每個單詞的罕見性分數。隨著神經語言模塊215處理附加的數據,罕見性分數可以隨時間的推移而增加或減少。

此外,當附加的觀察結果(即,符號)被傳遞到詞法分析器組件219並被識別為是給定的單詞的一部分時,詞法分析器組件219可以確定該單詞模型已經成熟。一旦單詞模型已經成熟,詞法分析器組件219就可以將模型中的這些單詞的觀察結果輸出到pam組件219。在一個實施例中,詞法分析器組件219將被發送到pam組件320的單詞限制為統計上最相關的單詞。在實踐中,對於每個單個樣本,輸出前32個最頻繁出現的單詞的出現已表明是有效的(而存儲在模型中的最頻繁出現的單詞可以數量達到數千個單詞)。注意的是,隨著時間的推移,最頻繁觀察到的單詞可能由於傳入字母的觀察結果的頻率變化(或者由於映射器組件218對輸入數據進行簇集而顯現新的字母)而改變。

一旦詞法分析器組件219已經構建詞典(即,識別出已經達到預定義的統計顯著性的單詞),詞法分析器組件219就將在輸入流中後續觀察到的單詞的出現發送到pam組件220。pam組件220從由詞法分析器組件219輸出的單詞構建短語的句法。在實踐中,詞法分析器組件219可以在接收到大約15000個觀察結果(即,來自映射器組件218的輸入字母)之後構建出有用的單詞詞典。

pam組件220基於從詞法分析器組件219輸出的單詞的序列來識別短語的句法。具體而言,pam組件220接收由詞法分析器組件219識別出的單詞、生成連接圖,其中圖的節點表示單詞,並且邊表示單詞之間的關係。pam組件220可以基於單詞在數據流中彼此連接的頻率使連結加強或衰減。

類似於映射器組件218和詞法分析器組件219,pam組件220基於短語在語言數據中有多頻繁地重現來確定每個識別出的短語的罕見性分數。隨著神經語言模塊215處理附加的數據,罕見性分數可以隨著時間的推移而增加或減少。

類似於詞法分析器組件219,pam組件220可以限制給定短語的長度,以允許pam組件220能夠識別若干可能的組合而不會不利地影響計算機系統115的性能。

pam組件220通過從詞法分析器組件219輸出的單詞的觀察結果來識別句法短語。隨著單詞的觀察結果累積,pam組件220可以確定給定的短語已經成熟,即,短語已經達到統計相關性的度量。pam組件220然後將該短語的觀察結果輸出到認知模塊225。pam組件220將包括符號流、單詞、短語、時間戳數據、罕見性分數和統計計算結果的數據發送到認知模塊325。在實踐中,pam組件220可以在從詞法分析器組件219觀察到大約5000個單詞之後獲得有意義的短語集合。

在成熟之後,生成的字母、單詞和短語形成輸入數據的穩定神經語言模型,計算機系統115使用該模型將字母、單詞和短語的後續觀察結果與穩定模型進行比較。當接收到新的數據時,神經語言模塊215更新語言模型。此外,神經語言模塊215可以將當前觀察到的句法與模型進行比較。即,在構建穩定的字母集合之後,神經語言模塊215可以構建穩定的單詞模型(例如,詞典)。繼而,神經語言模塊215可以用於構建穩定的短語模型(例如,句法)。此後,當神經語言模塊215後續接收到標準化數據時,模塊215可以輸出符號、單詞和短語的有序流,所有這些可以與穩定模型進行比較,以識別感興趣的模式或檢測在輸入數據流中出現的偏差。

如所示的,認知模塊226包括工作空間226、語義記憶(sematicmemory)230、小代碼(codelet)模板235、情景記憶(episodicmemory)240、長期記憶(longtermmemory)245和異常檢測組件250。情景記憶230存儲上述的穩定神經語言模型,即,來自映射器組件218、詞法分析器組件219以及pam組件220的穩定副本。

在一個實施例中,工作空間226為機器學習引擎140提供計算引擎。工作空間226執行計算(例如,異常建模計算)並存儲來自計算的中間結果。

工作空間226從pam組件220取回神經語言數據,並根據需要將該數據傳播(disseminate)到認知模塊225的不同部分。

情景記憶240存儲與剛過去的特定情景相關的語言觀察結果,並且可以對諸如特定事件的「內容(what)」以及「時間(when)」之類的具體細節進行編碼。

長期記憶245存儲語言數據的概括結果(generalization),其中特定的情景細節被剝離。以這種方式,當出現新的觀察結果時,來自情景記憶240和長期記憶245的記憶可以用於關聯和理解當前事件,即,可以將新的事件與(如由先前觀察到的語言數據表示的)過去的經驗進行比較,從而導致存儲在長期記憶245中的信息隨著時間的推移而加強、衰減和調整。在特定實施例中,長期記憶245可以被實現為art網絡和稀疏分布的記憶數據結構。然而,重要的是,這種方法不需要提前定義事件。

小代碼模板235提供可執行的小代碼或小代碼片段的匯集,這些可執行的小代碼或小代碼片段評估不同的事件序列以確定一個序列可以如何跟隨(或以其它方式關聯到)另一個序列。小代碼模板325可以包括確定性小代碼以及隨機性小代碼。更一般而言,小代碼可以從輸入數據的語言表示中檢測感興趣的模式。例如,小代碼可以將當前觀察結果(即,具有過去已經觀察到的內容的當前短語實例)與存儲在語義記憶230中的先前觀察到的活動進行比較。通過重複調度小代碼以用於執行、將記憶和知覺複製到工作空間226/從工作空間226複製記憶和知覺,認知模塊225執行用於觀察和學習在語言數據內出現的行為模式的認知循環。

異常檢測組件250評估由神經語言模塊215發送的罕見性分數,以確定是否響應於由罕見性分數指示的一些異常活動而發出警報。具體而言,異常檢測組件250提供表示罕見性分數的概率直方圖模型(例如,罕見詞彙表分數模型、罕見句分數法模型和異常模型)。罕見詞彙表分數模型和罕見句法分數模型是基於從詞法分析器組件219和pam組件220發送的罕見性分數而生成的。異常模型從罕見詞彙表分數模型和罕見句法分數模型接收輸入百分位數(percentiles),並基於這些百分位數生成絕對的罕見性分數。異常檢測組件250評估這些分數並確定是否基於給定的分數發送警報。異常檢測組件250可以向輸出設備發送警報數據,管理員可以例如經由管理控制臺在該輸出設備處查看警報。

認知模塊225通過將新觀察結果與保留在語義記憶230中的穩定神經語言模型中的習得模式進行比較並且然後估計這些新觀察結果的稀有性來對輸送給語義記憶230的語言內容(即,識別出的符號、單詞、短語)執行學習分析。

具體而言,異常檢測組件250評估符號、單詞和短語中的每一個的罕見性分數,以識別觀察到的數據中的異常出現。一旦已經識別出異常觀察結果,異常組件就可以發出警報(例如,通知計算機系統115的用戶或管理員)。

圖3示出根據一個實施例的用於收集用在神經語言行為識別系統中的傳感器數據的方法300。更具體而言,方法300描述用於數據收集器從相關聯的輸入設備取回數據並將數據發送到神經語言模塊215的方法。針對此示例,假設數據收集器模塊202是以給定的幀速率捕捉圖像數據的視頻源。當然,可以使用各種數據收集器組件202。

方法300在步驟305處開始,其中數據收集器模塊202從源輸入設備取回(或接收)數據。在這種情況下,數據收集器模塊202可以從視頻源(諸如被定位成觀察諸如賓館大廳的特定位置的視頻相機)取回視頻幀。此外,數據收集器模塊202識別要發送到感測記憶組件135的數據值。為了這樣做,數據收集器模塊202可以評估視頻幀以將前景對象與背景對象分離、測量識別出的前景對象的外觀和運動信息,並且跟蹤橫跨場景(即,相機的視野)移動的前景對象。因此,數據收集器模塊202生成描述視頻幀中描繪的對象的外觀和運動方面的特徵的數據值集合。

在步驟310處,數據收集器模塊202將每個數據值相對於該數據值的類型標準化為落入在範圍內(例如,在0到1之間,包括0和1)的數值。例如,與運動特徵相關聯的值相對於與運動特徵相關聯的其它值被標準化為從0到1。這樣做將每個值轉換成公共格式並且允許神經語言模塊215辨識視頻流中的重現事件。

在對值進行標準化之後,在步驟315處,數據收集器模塊202識別與標準化值相關聯的附加數據,諸如給定值的時間戳、與值的數據類型(例如,運動特徵、外觀特徵、地點、位置等)相關聯的平均值、以及該數據類型的歷史高值和歷史低值。這樣做允許數據收集器模塊202在視頻源被修改的情況下重新調整標準化。具體而言,數據收集器模塊202參考識別出的歷史值和平均值來重新調整標準化。

在步驟320處,數據收集器模塊202將標準化值的向量和相關聯的數據發送到感測記憶組件135。如所述的,感測記憶組件135存儲標準化值和相關聯的數據。然後,神經語言模塊215可以從感測記憶組件135取回標準化值並在此後執行語言分析。

圖4示出根據一個實施例的用於初始化pam組件220的方法400。方法400在步驟405處開始,其中pam組件220接收來自詞法分析器組件219的單詞的觀察結果的流。如所述的,詞法分析器組件219通過評估映射器組件218輸出的符號的分組的統計頻率來生成單詞。當符號分組(再次地,是單詞)出現時,詞法分析器組件219識別統計相關的符號組合(即,單詞),並將單詞輸出到pam組件220。如所述的,符號、單詞和短語被識別,以構建符號、單詞和短語在流中被共同觀察到(即,統計相關)的頻率的統計模型。

在步驟410處,pam組件220評估共現單詞的統計信息。這種統計信息可以包括pam組件220有多經常地觀察到每個單詞與其它單詞共現。在一個實施例中,統計信息可以包括統計顯著性分數,該統計顯著性分數是根據給定單詞與由詞法分析器組件219傳入的另一個單詞有多頻繁地共現而確定的。為了確定每個單詞有多頻繁地與其它單詞一起被觀察到,pam組件220可以生成基於共現來布置每個單詞的矩陣。

在步驟420處,pam組件220生成連接圖。連接圖中的每個節點表示由詞法組件219輸出的單詞之一。無向邊連接節點以指示以相對頻率共現的單詞之間的關係。此外,邊可以基於單詞之間的顯著性分數進行加權。連接節點的串可以表示行為識別系統用於對輸入到神經語言模塊210、(由映射器組件217)簇集成符號並且(由詞法組件)解析成單詞的數據進行描述的短語。

隨著時間的推移,pam組件220可以從詞法分析器組件219接收單詞的附加觀察結果。當統計顯著性分數增加時,例如,當pam組件220觀察到彼此共現的兩個單詞的後續實例時,pam組件220可以加強給定的邊。此外,當隨著時間的推移出現較少的觀察結果時(即,當隨著時間的推移統計顯著性分數減少時),pam組件220可以消除邊。

圖5示出根據一個實施例的由pam組件220生成的示例連接圖500。當詞法分析器組件219初始地向pam組件220輸出單詞流時,pam組件220生成連接圖500。

節點(由圓圈表示)表示由詞法分析器組件219發送的識別出的單詞。連接節點的無向邊表示pam組件220已經觀察到連接的單詞在單詞流中共現。此外,邊可以基於兩個共現單詞之間的統計顯著性分數進行加權。此外,pam組件220可以分別基於統計顯著性分數增加或減少來加強或衰減邊。例如,如果pam組件220觀察到兩個單詞之間還有的共現,那麼統計顯著性分數可以增加。作為增加的結果,pam組件220可以加強連接圖中兩個單詞的邊。

圖500建立由pam組件220識別出的短語的句法。短語是可能基於以給定短語的順序出現的每個單詞的概率關係(通過連接圖的給定路徑)而在單詞流中出現的單詞的序列。pam組件220輸出在由映射器輸出的單詞流中觀察到的、含有具有超過給定閾值的統計顯著性分數的共現單詞的短語。此外,pam組件220可以將對由pam組件220輸出的短語進行特徵化的元數據發送到認知模塊225。例如,pam組件200可以包括來自映射器組件218和詞法分析器組件219的元數據,諸如由映射器組件218和詞法分析器組件219發送的符號、單詞以及相關聯的統計信息。統一地,符號、單詞、短語連同與觀察到符號、單詞和短語的頻率相關的所有元數據以及由映射器和詞法分析器組件分配的評分形成對輸入數據進行描述的神經語言模型。繼而,認知模塊225分析神經語言模型來解釋傳入數據(例如,在識別正常行為和異常行為中)。

圖6示出根據一個實施例的用於將由pam組件(在由詞法組件提供的單詞流中)觀察到的短語發送到認知模塊225的方法600。具體而言,方法600描述pam組件220在初始化之後(即,在初始地生成完全連接圖之後)如何處理來自詞法分析器組件219的傳入單詞。方法600在步驟605處開始,其中pam組件220開始從詞法分析器組件219接收單詞的觀察結果的流。pam組件220觀察接收到的單詞之間的共現,例如,單詞a在流中位於單詞b旁邊。pam組件220還可以用輸入來識別新共現的單詞。

在步驟610處,pam組件220更新與流中的每個觀察結果相關聯的共現統計信息。例如,如果在流中觀察到一對共現單詞,那麼pam組件220可以增加這一對共現單詞的統計顯著性分數。作為另一個示例,可能在流中觀察到先前未觀察到共現的一對單詞共現。如果是這樣,那麼pam組件220增加這對單詞的統計顯著性分數。

在步驟615處,pam組件220更新完全連接圖。例如,pam組件220可以加強在圖中統計顯著性分數增加的部分處的邊。此外,pam組件220可以向觀察到的、已經達到統計相關性(例如,統計顯著性分數已經超過閾值)的對添加邊。

在步驟620處,pam組件220輸出含有具有超過給定閾值的統計顯著性分數的共現單詞的短語。超過這種閾值可以指示給定短語是成熟的並且可以被發送到認知模塊225。此外,pam組件220還可以附隨短語發送符號、單詞和相關聯的統計信息。如所述的,這些符號、單詞和短語形成行為識別系統用於對輸入數據進行描述的神經語言模型。

本公開的一個實施例被實現為與計算機系統一起使用的程序產品。程序產品的(一個或多個)程序定義實施例(包括本文描述的方法)的功能,並且可以被包含在各種計算機可讀存儲介質上。計算機可讀存儲介質的示例包括(i)在其上永久存儲信息的不可寫存儲介質(例如,計算機內的只讀存儲器設備,諸如可由光學介質驅動器讀取的cd-rom或dvd-rom盤);(ii)在其上存儲可改變信息的可寫存儲介質(例如,硬碟驅動器或軟盤驅動器內的軟盤)。當承載引導本公開的功能的計算機可讀指令時,這種計算機可讀存儲介質是本公開的實施例。其它示例介質包括通過其信息被運送到計算機(諸如通過包括無線通信網絡的計算機網絡或電話網絡)的通信介質。

一般而言,為了實現本公開的實施例而執行的例程可以是作業系統或具體應用、組件、程序、模塊、對象或指令序列的一部分。本公開的電腦程式典型地由許多指令組成,這些指令將由本機計算機轉換為機器可讀格式並因此轉換成可執行指令。此外,程序由變量和數據結構組成,這些變量和數據結構或者駐留在程序本地,或者可以在存儲器或存儲設備中找到。此外,本文描述的各種程序可以基於在本公開的特定實施例中為其實現這些程序的應用來識別。然而,應當領會的是,以下的任何特定程序命名法僅僅是為了方便而使用,並且因此本公開不應限於僅在由這種命名法識別和/或暗示的任何具體應用中使用。

如上所述,本文的實施例提供用於經由神經語言行為識別系統基於表示從源(例如,視頻源、scada源、網絡安全源等)輸入的數據的單詞的詞典來確定句法的技術。符號、單詞和句法形成用於對由行為識別系統觀察到的輸入數據進行描述的語言模型的基礎。行為識別系統基於語言模型分析和學習行為,以區分觀察到的數據中的正常活動和異常活動。有利地,這種方法不依賴於預定義的模式來識別行為和異常,而是通過觀察場景並生成關於它觀察到的內容的信息來學習模式和行為。

雖然前述內容針對本公開的實施例,但是可以在不脫離其基本範圍的情況下設計本公開的其它實施例和進一步實施例,並且其範圍由以下的權利要求來確定。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀