新四季網

用於文本語義處理的方法、裝置及產品的製作方法

2023-05-17 06:53:46 2

用於文本語義處理的方法、裝置及產品的製作方法
【專利摘要】本發明涉及產生用於將文本翻譯成神經網絡可讀形式的計算機可讀詞典的計算機實施方法,包括:利用每個都含有語義上下文中一個或多個關鍵詞(7)的第一文本文檔(3)的第一組(2)來訓練自組織映射類型的第一神經網絡(4),以便通過語義聚類將每個文本文檔(3)都映射至自組織映射(5)內的一個點(Xi/Yj);為在第一組(2)中出現的每個關鍵詞(7),將含有所述關鍵詞(7)的文本文檔(3)被映射至的自組織映射(5)內的所有點(Xi/Yj)確定作為與所述關鍵詞(7)相關聯的點(Xi/Yj)的模式(6);以及儲存所有關鍵詞(7)和關聯模式(6)作為計算機可讀模式詞典(9)。本發明進一步涉及訓練神經網絡的計算機實施方法和基於神經網絡的分類器、預測器及翻譯器。
【專利說明】用於文本語義處理的方法、裝置及產品

【技術領域】
[0001]本發明涉及神經網絡訓練方法,尤其是用於文本的語義處理、分類及預測的方法。本發明進一步涉及計算機可讀介質和基於神經網絡的分類器、預測器及翻譯器。

【背景技術】
[0002]在本公開的上下文中,術語「神經網絡」指計算機實施的、人工神經網絡。在例如1995/2010年紐約牛津大學出版社的Bishop C.Μ.(畢曉普?克裡斯託夫Μ.)的「NeuralNetworks for Pattern Recognit1n (用於模式識別的神經網絡)」;或2011年伯爾尼的霍夫格雷夫股份公司的Hans Huber (漢斯.胡伯)第二版的Rey, G.D.(雷伊G.D.)、WenderK.F.(文德爾K.F.)的「Neurale Netze (神經網絡)」中給出了神經網絡的理論、類型及實施細節的概述。
[0003]本發明尤其涉及通過神經網絡的文本語義處理,S卩,通過集中關注文本的詞及它們在現實世界和在它們上下文中所代表的含義之間的關係來分析文本的意義。在下文中,文本的「詞」(記號(token))包含語言常用術語中的詞以及諸如符號和標記的能夠組合以形成文本的任何語言單位。從這些詞中,我們忽略具有很少語義相關性的諸如「該」、「他」、「在」等的一組極普通的詞以便留下我們稱作文本「關鍵詞」的詞。
[0004]語義文本處理的應用非常廣泛並且包含例如出於相關性排序、歸檔、數據挖掘及信息檢索的目的將文本分類成某些關鍵詞。理解文本中關鍵詞的意義並且預測將在文本中出現的「有意義的」另一些關鍵詞,例如,對於搜尋引擎中的語義查詢擴展是有用的。最後但同樣重要的是,當在較大的語義上下文中考慮源程序文本的詞時通過解決源程序文本的歧義,語義文本處理增強機器翻譯的質量。
[0005]迄今,語義文本處理的現有方法,尤其是用於搜尋引擎中查詢擴展的方法,會有用於關鍵詞、它們的詞目(詞彙根)及關鍵詞之間統計關係的大量統計指標的工作,以便建立用於關係分析的大型同義詞庫文件、統計及詞典。然而,當考慮更長和更多的複雜詞序列時,統計方法在語義分析的深度方面受限。
[0006]另一方面,神經網絡主要用於在複雜多樣的數據中識別模式,諸如圖像中的目標識別或語音、音樂或測量數據中的信號識別。必須利用海量訓練數據正確「訓練」神經網絡以便提供將被分析的「現場的」採樣時能夠完成它們的識別任務。訓練神經網絡與配置它的網絡節點(「神經元」)之間它的內部連接和權值是等效的。訓練的結果是神經網絡內通常加權連接的具體配置。
[0007]訓練神經網絡就其本身是一項複雜的任務並且涉及利用例如迭代或自適應算法設定大量參數。用於神經網絡的訓練算法因此能夠被視為用於建立(構建,build)用於具體應用的神經網絡的技術手段。
[0008]雖然神經網絡目前廣泛用於大量數值數據中的模式識別,但是它們用於文本處理的應用當前受到文本能夠以機器可讀形式被提供給神經網絡的形式的限制。


【發明內容】

[0009]本發明的一個目的是改善一方面文本和另一方面神經網絡之間的接口以便更好地開發用於語義文本處理的神經網絡的分析能力。
[0010]在本發明的第一個方面,提供了一種訓練神經網絡的計算機實施方法,包括:
[0011]利用每個都含有語義上下文中一個或多個關鍵詞的第一文本文檔的第一組訓練自組織映射類型的第一神經網絡以便通過語義聚類將每個文檔都映射至自組織映射內的■~?個佔.
[0012]為在第一組中出現的每個關鍵詞,將含有所述關鍵詞的第一文檔被映射至的自組織映射內的所有點確定作為一種模式並且將用於所述關鍵詞的所述模式儲存在模式詞典內;
[0013]由每個都含有語義上下文中一個或多個關鍵詞的第二文本文檔的第二組形成關鍵詞的至少一個序列;
[0014]通過使用所述模式詞典將關鍵詞的所述至少一個序列翻譯成模式的至少一個序列;以及
[0015]利用模式的所述至少一個序列訓練第二神經網絡。
[0016]利用創新方法訓練的第二神經網絡被配置成用於並且準備用於包括下列應用的各種應用:
[0017]i)處理含有至少一個關鍵詞的文本,包含:
[0018]藉助於模式詞典將所述至少一個關鍵詞翻譯成至少一種模式,
[0019]將作為輸入模式的所述至少一種模式饋送至所述訓練第二神經網絡內,
[0020]從所述訓練第二神經網絡中獲得至少一種輸出模式,以及
[0021]藉助於模式詞典將所述至少輸出模式翻譯成至少一個關鍵詞;
[0022]ii)文本的語義分類,當使用分層類型的第二神經網絡時,其中所述至少一種輸入模式被饋送至層次的至少一個較低層內並且從層次的至少一個較高層中獲得所述至少一種輸出模式;以及
[0023]iii)文本的語義預測,當使用分層類型的第二神經網絡時,其中所述至少一種輸入模式被饋送至層次的至少一個較高層內並且從層次的至少一個較低層中獲得所述至少一種輸出模式。
[0024]在本發明的另一個方面,提供產生用於將文本翻譯成神經網絡可讀形式的計算機可讀詞典的方法,包括:
[0025]利用每個都含有語義上下文中一個或多個關鍵詞的文本文檔訓練自組織映射類型的神經網絡以便通過語義聚類將每個文本文檔都映射至自組織映射內的一個點;
[0026]對於在第一組中出現的每個關鍵詞,將含有所述關鍵詞的文本文檔被映射至的自組織映射內的所有點確定作為與所述關鍵詞相關聯的點的模式;以及
[0027]將所有關鍵詞和關聯模式儲存為計算機可讀詞典。
[0028]本發明還提供在計算機可讀介質上實施的這種類型的計算機可讀詞典。
[0029]本發明的另外方面是:
[0030]-分類器,包括利用根據本發明第一個方面的方法已經被訓練成所述第二神經網絡的分層時間記憶類型的神經網絡;
[0031]-預測器,包括利用根據本發明第一個方面的方法已經被訓練成所述第二神經網絡的分層時間記憶類型的神經網絡;
[0032]-翻譯器,包括這種分類器,S卩,其中的神經網絡已經通過使用第一語言中第一和第二文本文檔而被訓練,及預測器,其中的神經網絡已經通過使用第二語言中第一和第二文本文檔而被訓練,其中分類器的神經網絡的節點被連接至預測器的神經網絡的節點。
[0033]在所有方面,本發明以一種全新的方式將三種不同技術組合在一起,S卩,自組織映射(SOM)、SOM中關鍵詞的反向索引、以及暴露給被翻譯成模式流的文本的目標神經網絡。
[0034]本發明的一個原理是產生含有關鍵詞和二(或多)維模式之間關聯的新型「關鍵詞vs.模式」詞典(簡稱:「模式詞典」)。這種模式表示第一文檔組上下文內關鍵詞的語義。通過選擇語義上下文的適當集合作為第一文檔組,例如,正如稍後所描述的百科全書的文章,每種模式都反映語義上下文並因此反映關鍵詞的意義。
[0035]通過SOM神經網絡,尤其是通過「科荷倫自組織映射」(「科荷倫特徵映射」)產生模式。關於SOM的詳細說明,請參見例如Kohonen, T., 「The Self-OrganizingMap」, Proceedings of the IEEE, 78 (9), 1464-1480,1990 ;Kohonen, T., Somervuo, P., 「Self-Organizing Maps of Symbol Strings」,Neurocomputing, 21(1-3),19-30,1998 ;Kaski,S., Honkela, T., Lagus, K., Kohonen, T., ,, Websom-Self-Organizing Maps of Document Collect1ns」,Neurocomputing, 21 (1-3),101-117,1998 ;Merkl, D., 「Text Classificat1nwith Self-Organizing Maps: Some Lessons Learned,,,Neurocomputing, 21 (1-3),61-77,1998 ;Vesanto, J., Alhoniemi, E., 「Clustering of the Self-Organizing Map,,,IEEETransact1ns on Neural Networks, 11 (3), 586-600, 2000 ; PdlzJhauev G., DittenbachM., Rauber A., 「Advanced Visualizat1n of Self-Organizing Maps with VectorFields,,,IEEE Transact1ns on Neural Networks 19,911-922,2006 ;通過引入將論文的公開內容併入本文。
[0036]SOM產生的模式隨後用於將關鍵詞序列從文本文檔的第二(訓練)組翻譯成將被饋送至(fed into)用於模式識別的第二(目標)神經網絡的模式序列。模式識別是神經網絡的核心能力之一。因為每種模式都表不關鍵詞的內在意義,並且模式的一個序列表不關鍵詞的上下文意義,所以在參考第一文檔組上下文中關鍵詞內在意義的情況下,並且在第一文檔組上下文中關鍵詞內在意義背景下,通過目標神經網絡分析第二文檔組中關鍵詞的語義。因此,目標神經網絡能夠高效並且有意義地分析文本的語義。
[0037]本發明的方法和裝置適用於訓練各種目標神經網絡。優選應用是分層和至少部分遞歸的神經網絡的訓練,尤其是記憶預測框架(MPF)或分層時間記憶(HTM)類型的神經網絡的訓練。對於MPF和HTM的理論和實施細節,參見例如Hawkins, J., George, D., Niemasik, J., 「Sequence Memory for Predict1n, Inference and Behav1ur,,,PhilosophicalTransact1ns of the Royal Society of London, Series B, B1logicalSciences, 364(1521), 1203-9,2009 ;Starzyk, J.A., He, H., 「Spat1-Temporal Memoriesfor Machine Learning:A Long-Term Memory Organizat1n,,,IEEE Transact1ns onNeural Networks, 20(5), 768-80, 2009 ;Numenta, Inc., 「Hierarchical Temporal MemoryIncluding HTM Cortical Learning Algorithms,,, Whitepaper of Numenta, Inc., Vers1n0.2.1,September 12, 2011 ;Rodriguez A., Whitson J., Granger R., 「Derivat1n andAnalysis of Basic Computat1nal Operat1ns of Thalamocortical Circuits,,, Journalof Cognitive Neuroscience, 16:5, 856-877,2004 ;Rodriguez, R.J., Cannady, J.A., 「Towards a Hierarchical Temporal Memory Based Self-Managed Dynamic TrustReplicat1n Mechanism in Cognitive Mobile Ad-hoc Networks」,Proceedings ofthe 1th WSEAS internat1nal conference on artificial intelligence, knowledgeengineering and data bases, 2011 ;以及專利(申請)號 US2007/0276774A1、US2008/0059389A1、US 7739208B2、US 7937342B2、US 2011/0225108A1、US 8037010B2 及 US8103603B2 ;通過引入將論文和申請的公開內容併入本文。
[0038]MPF和HTM神經網絡儲存輸入模式流的分層和時序表示並且特別適用於抓取文本的時間跨度和分層語義。它們在不同分層的層上的節點(神經元)表示關鍵詞的分層抽取(類別)本身;當輸入從層次的底部被饋送至頂部時分類(抽取)是這種網絡的內在工作原理,而當輸入從層次的頂部被饋送至底部時預測(詳細描述(detailing))是內在工作原理。
[0039]在本發明的另一個方面,表示關鍵詞全部類別(抽取(abstract1n)、分類(category))的節點的概念用於建立翻譯器作為被映射至分類器節點輸出的預測器。
[0040]根據本發明的另一個方面,數個第二文檔能夠被使用並且被翻譯成訓練模式流以便對第二文檔的具體組訓練第二神經網絡。
[0041]在本發明的一些實施例中,通過提高複雜性排序第二文檔,並且當訓練第二神經網絡時,模式的單獨序列按照第二文檔的排序順序被饋送至第二神經網絡內,它們每個都已經由第二文檔形成和翻譯。這導致第二神經網絡的更快訓練。
[0042]在本發明的一些其它方面,在下列的一個或多個的基礎上確定第二文檔的複雜性:該第二文檔中不同關鍵詞的數量、該第二文檔中語句的平均長度、及該第二文檔中第一組的一個或多個關鍵詞的頻率。

【專利附圖】

【附圖說明】
[0043]參考附圖進一步詳細描述本發明,其中:
[0044]圖1是本發明方法的概述流程圖,包括根據本發明的第一和第二神經網絡、模式詞典、以及分類器、預測器及翻譯器的框圖;
[0045]圖2是作為圖1中第一神經網絡的輸入矢量的用於第一文檔的矢量處理階段的流程圖;
[0046]圖3是作為圖1中第一神經網絡的輸出而產生的示例性自組織映射(SOM);
[0047]圖4是反向索引階段的流程圖,從矢量處理階段和SOM接收輸入以便產生圖1中模式詞典;
[0048]圖5示出具有用於SOM內兩個不同關鍵詞的示例性模式的反向索引SOM的表示;
[0049]圖6示出用於停用詞(非關鍵詞)的一些預定模式的實例;
[0050]圖7是用於圖1中第二文檔的第二組的關鍵詞序列提取階段的流程圖;
[0051]圖8示出用於第二組的第二文檔的可選文檔排序步驟的結果;
[0052]圖9是將關鍵詞序列翻譯成圖1中模式序列的步驟的流程圖;及
[0053]圖10示出用作圖1中第二神經網絡的MPF的示例性分層(hierarchical)節點結構。

【具體實施方式】
[0054]在總體概述中,圖1示出語義文本處理方法和系統1,其使用第一文本文檔3的第一組2來訓練第一神經網絡4。第一神經網絡4是自組織映射(self organizing map)(SOM)類型並且產生自組織映射(SOM) 5。從SOM 5中,通過反向索引階段8產生表示在第一文檔組2中出現的關鍵詞7的模式6並且進入模式詞典9。
[0055]模式詞典9用於翻譯階段10以便將從第二文檔13的第二組12中提取的關鍵詞序列11翻譯成模式序列14。利用模式序列14訓練第二神經網絡15。第二神經網絡15優選(儘管不一定)是記憶預測框架(MPF)或分層時間記憶(HTM)類型。參見路徑16,訓練的第二神經網絡15隨後能夠用於對利用模式詞典9所翻譯的文本進行語義分類,或參見路徑17,對利用模式詞典9所翻譯的文本進行語義預測。參見路徑18,訓練的第二神經網絡15的另一個可選應用是分層映射至可選第三神經網絡19,其在結構上類似於第二神經網絡15,但是已經以不同於第二神經網絡15的語言被訓練;節點映射18隨後表示第一語言網絡15的語義節點15』與第二語言網絡19的語義節點19』之間的語義重合。
[0056]現在參考圖2至10詳細描述圖1所示組件的過程和功能。
[0057]圖2示出給第一文檔3的第一組2編索引並且進行矢量化的預處理和矢量化步驟
20。在步驟20中由第一組2中產生輸入矢量21的一個序列,為每個第一文檔3產生一個矢量21,作為被施加至第一神經網絡(S0M)4的輸入層23的輸入訓練矢量組或矩陣(表)22。如本領域技術人員已知的,SOM神經網絡4通常只包含兩層,通過連接25互相連接的神經元(節點)的輸入層23和輸出層24,連接25的權值能夠由加權矩陣表示。利用無監督學習算法能夠訓練SOM神經網絡,其中加權矩陣的權值對輸入矢量是自適應的,以便將輸入層23的節點具體映射至輸出層24的節點,同時考慮二(或多)維映射5中輸出層24的節點的空間關係。這導致映射5,其對輸入矢量21關於它們的相似性進行聚類,利用高度相似的輸入矢量21在映射5內產生區26。對於SOM神經網絡的詳細說明,參見上面所引用的文獻參考。
[0058]其中按照例如單個文檔3長度的這種數量和粒度選擇第一組2和第一文檔3,例如,每一個文檔3都含有語義上下文中數量為I至10個、I至20個、I至100個、I至1000個或更多的、優選約250至500個關鍵詞7。除關鍵詞7外,第一文檔3還可以含有語義相關性很小的詞(諸如冠詞「一個」、「該」等等),其通常被稱作停止詞,在此為非關鍵詞。
[0059]選擇組2中文檔3的數量以便獲得用於關鍵詞7的語義上下文的代表性語料庫,例如,數千或數百萬的文檔3。在一個示例性實施例中,每個都包含約250至500個關鍵詞7的約1.000.000個文檔3被用作第一文檔組2。
[0060]文檔3的長度(關鍵詞數)應當在全部組2上相當一致,關鍵詞7應當在組2中的文檔3上均勻稀疏地分配,並且每個文檔3都應當含有多種多樣的關鍵詞7。
[0061]關鍵詞7還能夠是詞的根(詞目),使得例如對於單數和複數形式(一隻貓(cat)/多隻貓(cats))或不同動詞形式(進行(go)/正在進行(going))只考慮一個關鍵詞7。因此,關鍵詞7能夠是具體的詞形式和/或詞根。去掉諸如停止詞的不能建立重要關鍵詞的詞後,每個文檔3都能夠被視為關鍵詞7的「詞袋」。
[0062]在一個實用實施例中,適當的第一組2能夠例如由來自百科全書中的文章產生,諸如在維基百科?項目的「Creative Commons Attribut1n Licence(知識共享署名許可協議)」或「GNU Free Documentat1n Licence (GUN自由文檔許可協議)」下獲得的維基百科?文章。根據章節、段等等能夠將這種百科全書文章、或條目分別解析成長度相當均勻的文檔3,使得每個文檔3都含有語義即有意義的上下文中的關鍵詞7。
[0063]為了產生矢量21,產生在全部組2內出現的所有關鍵詞7的索引並且水平擴展成矩陣(表)22的列標題27。反之亦然,全部組2中所有文檔3的文檔身份(「id」)垂直擴展成矩陣22中的行標題。隨後,對於具體文檔3中具體關鍵詞7的每一次出現,標誌或二進位「I」進入矩陣22的各自單元。因此,在矩陣22中一個水平行表示用於一個文檔3的標準化「關鍵詞-出現」矢量21,其中具體關鍵詞位置(列位置)上的二進位「I」指出這個關鍵詞7被包含在這個文檔3的「詞袋」中;而二進位「O」指出這個文檔3中不存在這個關鍵詞7。或者,相反地,對於具體關鍵詞7,矩陣22中的每個列都示出利用含有該關鍵詞7的二進位「I」所標記的所有那些文檔3。
[0064]輸入矢量21,即表示文檔3和它們關鍵詞含量的矩陣22的行隨後被連續供應給SOM神經網絡4的輸入層23以便對它進行訓練。這意味著,如果使用例如1.000.000個第一文檔3的第一組2,則1.000.000個矢量輸入的訓練運行被供應給第一神經網絡4。
[0065]作為這個訓練運行的結果,SOM神經網絡4的輸出層已經產生了映射(圖,map)5,其中文檔3(矢量21)已經被映射至通過類似性被聚類的映射5的單個點(「像素」)/%。圖3示出映射5的一個實例。具有其關鍵詞7袋的一個或多個文檔(3)已經被映射至每個映射點X1ApX2A2'…、Xi/Yj、…、零。文檔3 (矢量21)例如通過來自行標題28的它們的文檔id在映射5中被識別。通過該SOM聚類過程,含有例如它們80%或90%的關鍵詞一致的高度類似的關鍵詞7的不同文檔3以密切的空間關係被映射至彼此,因此在映射5中形成語義「區」263、26)3、26。、26(1等等。
[0066]接著,在圖4的反向索引階段8中,在用於來自關鍵詞索引27中的指定關鍵詞7的矩陣22的基礎上,識別含有該關鍵詞7的所有那些文檔3。例如,這通過檢索矩陣22中指定關鍵詞7的具體列中的所有二進位「I」並且查找行標題28中列出的文檔3的id能夠容易地實現。
[0067]對於已經被確定成含有該指定關鍵詞7的那些文檔3,從映射5中確定參考該具體文檔id的所有映射點Xi/Yj。映射點的這個組{Xi/Yj}表示模式6。模式6表示語義上下文,其中第一組2中出現的該給定關鍵詞7:模式6中點的空間(即,二維或多維)分布反映出現在第一組2中的關鍵詞7的上下文中的那些具體語義區26a、26b、…。
[0068]參見圖4,模式6能夠被編碼成二進位映射31,並且還被認為是諸如第一組2的文檔集合中關鍵詞7的語義意義的二進位「指紋」或「腳印」。如果第一組2涵蓋具體語言中的各種各樣的有意義文本,則模式6是關鍵詞7的高語義意義。
[0069]模式6的空間解析度能夠等於或低於SOM神經網絡4和/或映射5的空間解析度。能夠根據所需分析性能選擇後者的空間解析度:例如,映射5能夠由例如1000X 1000個點的百萬個映射點Xi/%組成,並且模式6能夠具有用於高精度的相同解析度或用於較低記憶要求的較粗解析度。
[0070]為了便於理解,圖5示出疊加在映射5上的兩個不同模式6 (被描述成黑點)的一個實例。在這個實例中,利用諸如「捕食者(Predator) 」、「貓科(Fecines) 」、「我的寵物(MyPet) 」及「犬屬(Canis) 」的語義類別已經人工標記區26a、26b、26e、26d。這只是出於示例性目的;應當注意到,對於正確行使本方法、過程及算法的功能(這只需要映射點XiZX.的空間SOM分布),這種標記不是必需的。
[0071]在圖5的左表示中,利用點已經標記其中出現關鍵詞「貓(cat) 」的所有文檔3。在圖5的右表示中,利用點已經標記含有關鍵詞「狗(dog) 」的所有文檔3。能夠容易地發現,「貓」文檔主要分成或被聚類成區26b( 「我的寵物」)和26d( 「貓科」),但是「狗」文檔3主要被聚類成區26b( 「我的寵物」)和26。( 「犬屬」)。
[0072]返回圖1,對於在第一組2中出現的每個關鍵詞7,各自的模式6以雙向映射形式,即關鍵詞7和它的模式6之間關聯,儲存在模式詞典9內。模式詞典9組成圖1中的方法和系統I的第一中間產品。模式詞典9能夠儲存(「實施」)在例如諸如硬碟、只讀光碟存儲器(CD-Rom)、數字只讀光碟存儲器(DVD)、存儲晶片、網際網路伺服器、網際網路中的雲存儲等等的數據載體的計算機可讀介質上。
[0073]應當注意到,模式詞典9的產生可以涉及用於訓練第一神經網絡4和反向索引映射5的海量處理能力的使用。因此,模式詞典9被優選地預計算一次並且能夠隨後重複用於圖1中過程和機器的另一些階段和模塊。
[0074]基於例如能夠被選擇的第一文檔3的不同第一組2,選定應用程式和/或及特定語言、不同模式詞典9能夠被預計算並且在計算機可讀介質上被分配至那些實體,其執行後續階段並且實施現在將詳細描述的過程和機器的後續模塊。
[0075]在這些後續階段和模塊中,在第二文檔13的第二組12基礎上為了語義文本處理而訓練第二(目標)神經網絡15。雖然第二組12能與第一組2相同,但是在實踐中第二組12可以包含第一組2的子集或確實完全不同的特定應用的第二文檔13。例如,雖然第一組2包含大量通用(「百科全書的」)文檔3,但是第二組12能夠是用戶文檔13的特定應用程式的用戶數據組(集合,set),其例如需要通過語義查詢(關鍵詞)擴展被搜索,通過語義分類被分類或排序,或通過語義翻譯被翻譯。模式詞典9隨後反映關於關鍵詞7的通用語義意義的背景語義知識,同時第二神經網絡15執行用戶文檔13的用戶數據組12的深度分析。
[0076]例如,能夠從將通過第二神經網絡15分析的產品資料庫、網頁、專利文檔、醫療記錄或各種數據集合來記錄用戶文檔13。第二組12的一個先決條件是,它已經以相同語言被寫成第一組2,因為否則模式詞典9不能被有意義地施加至第二組12。此外,雖然不是強制性的,但是優選地,在第二組12的第二文檔13中出現的關鍵詞7包含在全部組即第一組2中關鍵詞7的索引27內,使得第二組12的關鍵詞7被列出並且能夠在模式詞典9中被查找到。
[0077]在模式詞典9中,停止詞或非關鍵詞能夠被忽略或被合併成諸如圖6所示的那些預定的或預配置的符號模式。
[0078]為了訓練第二神經網絡15,在第一階段32中從第二組12中提取關鍵詞7的序列
11。圖1、7及8詳細示出這個提取階段。基本上如果只有一個或幾個第二文檔(13)按照標準讀取順序33逐詞、逐行、逐段、逐章節、逐文檔按順序讀取就足夠了。停止詞或非關鍵詞能被跳過(或如圖6所述單獨處理),結果是關鍵詞7的一個序列11。然而,優選地,第二組12被分成許多個第二文檔13,並且為一個文檔13產生關鍵詞7的一個序列11。隨後例如按照文檔13的順序使用序列11,它們來源於或作為用於第二神經網絡15的訓練輸入。
[0079]如果在提取階段32中執行文檔13和/或序列11的可選排序,則能夠加速第二神經網絡15的訓練。對於這種可選排序,在用於第二組12的每個文檔13的過程34中計算出「複雜度係數(complexity factor) 」CompF。在文檔13的一個或多個下列參數的基礎上能夠計算出複雜度係數CompF:
[0080]-文檔13中不同關鍵詞7的數量;
[0081]-文檔13中語句或段的平均詞數;
[0082]-例如文檔13中第一組2的所有關鍵詞7的一個或多個關鍵詞7的頻率或多樣性;
[0083]-例如全部第一組2或表示例如報紙收集的通俗語的另一個文本語料庫中文檔13的所有關鍵詞7的一個或多個關鍵詞7的頻率。
[0084]參見圖8,在提取階段32中根據提高的複雜度係數CompF能夠隨後對文檔13進行排序(分等級)。這樣,給第二神經網絡15提供增加複雜性的序列11,例如,原始或簡單序列11或具有關鍵詞7的適度多樣性的序列11首先用於訓練第二神經網絡15,而具有複雜語義和語言結構的序列11則最後用於訓練第二神經網絡15。
[0085]在被饋送至第二神經網絡15前,關鍵詞7的序列11在模式詞典9的基礎上在翻譯階段10中被翻譯。在模式詞典9中查找序列11中的每個關鍵詞7,檢索關聯模式6,結果是模式6的序列14,對於每個文檔13—個模式序列14。每個模式序列14都能夠被視為表示第一文檔組2的全局語義上下文內文檔13中關鍵詞7的語義上下文的模式6的時間系列或「影片剪輯」。
[0086]應當注意到,在簡單實施例中只使用模式6的一個長序列14來訓練第二神經網絡15就足夠了。優選使用大量模式序列14 (「各序列中的一個序列」),每個模式序列14都表示用於第二神經網絡15的限時訓練矢量(矩陣)。圖9示出將關鍵詞序列11翻譯成模式序列14的翻譯階段10的一個實例。
[0087]在訓練階段(圖1中箭頭35)中給第二神經網絡15連續提供模式序列14以便隨時間學習模式6和它們的序列。如開始時所討論的,能夠使用適合於模式的時間系列處理的所有類型的神經網絡,例如,利用滑動窗口處理神經網絡的前饋模式。可選地並且優選地,有或無延遲循環的遞歸或至少部分遞歸的神經網絡能夠用於學習並且記憶時間序列,例如,自聯想或自動聯想神經網絡。
[0088]在有利的實施例中,第二神經網絡15還是分層的,其中層次的上層包含少於層次的下層的節點(神經元)。圖10示出這種分層網絡的一個實例,尤其是還含有用於學習時間序列的水平(層內,參見圖1)和垂直(跨層)反饋連接的記憶預測框架(MPF)。這種MPF架構的優選形式是分層時間記憶(HTM)類型的神經網絡。在上面所引用的論文中描述了MPF和HTM神經網絡的理論和實施細節,通過引入將其公開內容併入本文。
[0089]在訓練配置中MPF和HTM網絡發展層次內的神經元(節點),其代表層次下層中神經元(節點)的放電模式的抽取(分類)。通過使用訓練的遞歸(反饋)層內和跨層連接,尤其是「柱狀」子層結構的節點之間的連接,它們能夠對放電模式的全部時間流的時間行為進行建模。這樣,MPF和HTM網絡能夠學習、記憶及對模式流進行分類,並且識別模式序列以及從過去模式序列中預測可能的未來模式序列。
[0090]一旦利用模式序列14已經訓練神經網絡15,參見路徑16,新模式6或新模式序列14就能夠被應用成為至網絡15的較低層次級上的「分類」輸入的新輸入,以便獲得作為來自較高層次級上的節點的輸出的模式的語義分類/抽取;或參見路徑17,新模式6或新模式序列14能夠被饋送至較高層次級上的「預測」輸入並且預測模式(語義預測)能夠從層次中的較低級中獲得。
[0091]從圖1能夠看出,在路徑16、17上使用模式詞典9以便將關鍵詞7的任何新「查詢」序列翻譯成「查詢」序列14,並且將神經網絡15的輸出模式轉譯成「生成的」分類或預測關鍵詞7。
[0092]分類路徑16因此能夠用於通過使用網絡15輸入和輸出接口上模式詞典9的訓練神經網絡15對查詢文本進行分類;而預測路徑17能夠用於預測來自查詢文本的關鍵詞,例如,以便將查詢關鍵詞短語「擴展」成另一些(預測的)關鍵詞7,其在語義上與使用神經網絡15的輸入和輸出接口二者上的模式詞典9的查詢短語相匹配。
[0093]圖1的虛線中示出訓練神經網絡15的另一種應用。如果網絡15和19內對應的分類節點15』、19』能夠被識別,則利用不同於已經被訓練的神經網絡15的不同語言的文檔
3、13的組2、12訓練的第三神經網絡19被節點式(nodewise)映射至第二網絡15。在第三神經網絡19的輸入和輸出38、39上使用從第三網絡19語言中的文檔組2中產生的另一個模式詞典9。這樣,通過兩個訓練MPF或HTM網絡15、19的語義映射能夠獲得兩個語言之間的語義翻譯。
[0094]雖然已經通過參考二維映射5和模式6描述了本發明,但是應當注意到,第一神經網絡4還能產生三維或多維映射5,因此導致模式詞典9中的三維或多維模式6,隨後導致三維或多維模式序列14及在三維或多維中工作的第二和第三神經網絡15、19。
[0095]本發明決不被限制成詳細描述成實例的具體實施例,而是包含所附權利要求書的範圍所包含的所有變體、修改及其組合。
【權利要求】
1.一種產生用於將文本翻譯成神經網絡可讀形式的計算機可讀詞典的計算機實施方法,包括: 利用每個都含有語義上下文中一個或多個關鍵詞(7)的第一文本文檔(3)的第一組(2)來訓練自組織映射類型的第一神經網絡(4)以便通過語義聚類將每個文本文檔(3)都映射至所述自組織映射(5)內的一個點(XiAj); 為在所述第一組(2)中出現的每個關鍵詞(7),將含有所述關鍵詞(7)的文本文檔(3)被映射至的所述自組織映射(5)內的所有點(XiZX)確定作為與所述關鍵詞(7)相關聯的點(XiAj)的模式(6);以及 儲存所有關鍵詞(7)和關聯模式(6)作為計算機可讀模式詞典(9)。
2.根據權利要求1所述的方法,用於訓練神經網絡,還包括: 由每個都含有語義上下文中一個或多個關鍵詞(7)的第二文本文檔(13)的第二組(12)形成關鍵詞(7)的至少一個序列(11); 通過使用所述模式詞典(9)將關鍵詞(7)的所述至少一個序列(11)翻譯成模式(6)的至少一個序列(14);以及 利用模式(6)的所述至少一個序列(14)訓練第二神經網絡(15)。
3.根據權利要求2所述的方法,其中所述第二神經網絡(15)是分層的和至少部分遞歸的。
4.根據權利要求2所述的方法,其中所述第二神經網絡(15)是記憶預測框架。
5.根據權利要求2所述的方法,其中所述第二神經網絡(15)是分層時間記憶。
6.根據權利要求1至5中的任一項所述的方法,其中所述第一神經網絡(4)是科荷倫自組織映射。
7.根據權利要求2至6中的任一項所述的方法,其中對於所述第二組(12)的所述第二文檔(13)的每一個,關鍵詞(7)的單獨序列(11)被形成並且被翻譯成模式¢)的單獨序列(14),並且利用模式(6)的每一個所述單獨序列(11)連續訓練所述第二神經網絡(15)。
8.根據權利要求7所述的方法,其中所述第二文檔(13)被排序,並且當訓練所述第二神經網絡(15)時,模式(6)的所述單獨序列(14)按照所述第二文檔(13)的排序順序被饋送至所述第二神經網絡(15)內,它們已經每個都由所述第二文檔(13)形成和翻譯。
9.根據權利要求8所述的方法,其中通過提高複雜性排序所述第二文檔,其中在下列中的一個或多個的基礎上確定第二文檔(13)的所述複雜性:所述第二文檔(13)中不同關鍵詞(7)的數量、所述第二文檔(13)中語句的平均長度、所述第二文檔(13)中所述第一組的一個或多個關鍵詞(7)的頻率、所述第一組(2)或另一個文本語料庫中所述第二文檔(13)的一個或多個關鍵詞(7)的頻率。
10.根據權利要求2至9中的任一項所述的方法,用於處理含有至少一個關鍵詞的文本,包括: 藉助於模式詞典(9)將所述至少一個關鍵詞(7)翻譯成至少一種模式(6); 將作為輸入模式的所述至少一種模式(6)饋送至所述訓練第二神經網絡內(15); 從所述訓練第二神經網絡中獲得至少一種輸出模式¢);以及 藉助於所述模式詞典(9)將所述至少輸出模式(6)翻譯成至少一個關鍵詞(7)。
11.根據權利要求10所述的方法,用於文本語義分類,其中所述第二神經網絡(5)是分層的,所述至少一種輸入模式(6)被饋送至層次的至少一個較低層內並且所述至少一種輸出模式(6)從所述層次的至少一個較高層中獲得。
12.根據權利要求10所述的方法,用於文本語義預測,其中所述第二神經網絡(15)是分層的,所述至少一種輸入模式(6)被饋送至所述層次的至少一個較高層內並且所述至少一種輸出模式(6)從所述層次的至少一個較低層中獲得。
13.—種在計算機可讀介質上實施的計算機可讀詞典,利用根據權利要求1所述的方法而產生。
14.一種分類器或預測器,包括利用根據權利要求2至9中的任一項所述的方法已經被訓練成所述第二神經網絡(15)的分層類型的神經網絡。
15.一種翻譯器,包括: 根據權利要求14所述的分類器,其所述神經網絡(15)已經通過使用第一語言中的第一和第二文本文檔(3、13)利用根據權利要求2至9中的任一項所述的方法而被訓練;和 根據權利要求14所述的預測器,其所述神經網絡(19)已經通過使用第二語言中的第一和第二文本文檔(3、13)利用根據權利要求2至9中的任一項所述的方法而被訓練; 其中所述分類器的所述神經網絡(15)的節點(15』)被連接至所述預測器的所述神經網絡(19)的節點(19,)。
【文檔編號】G06F17/28GK104169948SQ201380013771
【公開日】2014年11月26日 申請日期:2013年2月22日 優先權日:2012年3月15日
【發明者】F·E·德蘇薩韋博 申請人:賽普特系統有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀