一種基於深度學習的文本語義特徵生成優化方法與流程
2023-05-26 13:44:01

本發明涉及語義特徵提取領域,特別是一種基於深度學習的文本語義特徵生成優化方法。
背景技術:
隨著網絡平臺數據量的不斷更新,資訊時代逐漸加深著它對現代社會的影響力,各種各樣的社交和傳播平臺充斥在人們的生活當中。與此同時,網民也不再像網絡時代初期那樣僅僅是瀏覽信息,而是搖身變成信息的主宰者,使網絡信息更加多樣化。網民自主產生的主觀思維信息中夾帶著的情感多種多樣,如果使用計算機對這些情感加以利用,使得網絡信息將能更加符合人們的日常生活習慣和思維模式,成為重要課題。自然語言處理學科就是在這種態勢下發展起來的人工智慧技術。一般是通過計算機技術對自然語言進行處理,挖掘語言的深度語義特徵含義。卷積神經網絡、深度置信等都是常見的自然語言處理算法,但到目前為止,這些方法都是單向推導方法,結果都存在較大誤差。還未曾找到能夠準確挖掘文本語義特徵的方法。
深度學習也是人工智慧技術的一個分支學科,它與神經網絡使用同種機器學習分析方式。深度學習按層次建立神經網絡,將機器學習應用在網絡中學習信息深層含義,逐層締造信息特徵,使所挖掘出的特徵具有更強的表述力度。對於自然語言處理來說,深度學習在文本語義特徵運算方面具有一定的專研意義,能夠利用免監督手段從網絡文本信息中找到深層語義特徵。研究基於深度學習的文本語義特徵生成優化算法是一次大膽嘗試。
與本申請有關的文獻如下;
[1]楊偉傑.複雜細微差異化網絡數據特徵的語義優化提取算法[j].計算機科學,2015,42(8):269-272。
[2]何小利.路由衝突下語義特徵信息優化查準算法[j].科學技術與工程,2016,16(17):81-85。
[3]姜芳,李國和,嶽翔.基於語義的文檔特徵提取研究方法[j].計算機科學,2016,43(2):254-258。
[4]kuoj,suk,hul,etal.we-ab-204-04:featureselectionandclusteringoptimizationforpseudo-ctgenerationinmr-basedattenuationcorrectionandradiationtherapyplanning[j].medicalphysics,2015,42(6):3659.
[5]李敏,禹龍,田生偉,等.基於深度學習的維吾爾語語句情感傾向分析[j].計算機工程與設計,2016,37(8):2213-2217。
[6]itoy,shiha,koomullilr,etal.solutionadaptivemeshgenerationusingfeature-alignedembeddedsurfacemeshes[j].aiaajournal,2015,47(8):1879-1888。
[7]馬成虎,董洪偉.一種基於深度學習的多尺度深度網絡的場景標註算法[j].計算機工程與科學,2016,38(7):1356-1361。
[8]herremansd,k,martensd.classificationandgenerationofcomposer-specificmusicusingglobalfeaturemodelsandvariableneighborhoodsearch[j].computermusicjournal,2015,39(3):71-91。
[9]程玉勝,梁輝,王一賓,等.基於風險決策的文本語義分類算法[j].計算機應用,2016,36(11):2963-2968。
[10]譚光興,劉臻暉.基於svm的局部潛在語義分析算法研究[j].計算機工程與科學,2016,38(1):177-182。
[11]tommasela,godoyd.short-textfeatureconstructionandselectioninsocialmediadata:asurvey[j].artificialintelligencereview,2016:1-38。
[12]garlavn,brandtc.ontology-guidedfeatureengineeringforclinicaltextclassification.[j].journalofbiomedicalinformatics,2012,45(5):992-998。
[13]altincayh,erenelz.ternaryencodingbasedfeatureextractionforbinarytextclassification[j].appliedintelligence,2014,41(1):310-326。
[14]xiaoy,wuj,yuanj.mcentrist:amulti-channelfeaturegenerationmechanismforscenecategorization[j].ieeetransactionsonimageprocessing,2014,23(2):823-836。
[15]samirelonsa,abull-elam,tolbamf.pulse-coupledneuralnetworkfeaturegenerationmodelforarabicsignlanguagerecognition[j].ietimageprocessing,2013,7(9):829-836。
[16]linwc,tsaicf,chenzy,etal.keypointselectionforefficientbag-of-wordsfeaturegenerationandeffectiveimageclassification[j].informationsciences,2016,329:33-51。
[17]wangy,maoh,yiz.proteinsecondarystructurepredictionbyusingdeeplearningmethod[j].knowledge-basedsystems,2016。
[18]kongx,choijy,shattuckhufnagels.analysisofdistinctivefeaturematchingwithrandomerrorgenerationinalexicalaccesssystem[j].journaloftheacousticalsocietyofamerica,2015,138(3):1780-1780。
[19]wangy,luoz,jodoinpm.interactivedeeplearningmethodforsegmentingmovingobjects[j].patternrecognitionletters,2016。
[20]leeym.classificationofnodedegreebasedondeeplearningandroutingmethodappliedforvirtualrouteassignment[j].adhocnetworks,2016(15):25-29。
技術實現要素:
有鑑於此,本發明的目的是提出一種基於深度學習的文本語義特徵生成優化方法,具有良好的學習效果,能夠準確生成文本語義特徵,可保證有效特徵佔據比例穩定維持在一個較高水平。
本發明採用以下方案實現:一種基於深度學習的文本語義特徵生成優化方法,具體包括以下步驟:
步驟s1:包括對象層、上層語義模塊、下層語義模塊以及文本信息模塊;所述文本信息模塊中記錄的是文本信息原身,外部情感多樣性提供給文本信息的是非線性屬性;
步驟s2:採取棧式去噪自編碼法建立文本編碼器提取文本語義,採用單層神經網絡學習下層文本語義獲取其特徵,保存到下層語義模塊;
步驟s3:以下層語義模塊為數據基礎提取上層文本語義獲取其特徵,保存到上層語義模塊;
步驟s4:在上層語義模塊、下層語義模塊和對象層之間建立語義特徵優化程序,運行程序輸出文本語義特徵集群,完成雙向推導過程。
進一步的,所述語義特徵優化程序包括正向文本語義特徵生成以及反向文本語義特徵生成;
其中,所述正向文本語義特徵生成具體為:每層神經網絡都有一個文本編碼器,採用深度學習的免監督手段從下到上依次訓練編碼器,學習文本語義,使用新浪雲算法學習文本語義,模擬網民思維方式,重新定義文本語義;經過上述發展,單層神經網絡的神經元比重發生了變化,根據梯度將單層神經網絡展開,建立標準神經網絡;訓練標準神經網絡的整體文本語義,生成低等級文本語義特徵。
進一步的,所述反向文本語義特徵生成具體為:利用深度學習在所生成的正向文本語義特徵上建立概念資料庫進行深層次特徵提取;深度學習算法在上、下層語義模塊內分別建立隱含層和輸出層,在下層語義模塊隱含層中使用卷積運算對正向文本語義特徵進行深層反向分析,所涉及到的操作均為免監督式,無任何顧慮地、不接受多餘條件約束地生成文本語義特徵;單層神經網絡的學習是自下而上,概念資料庫進行的深度學習是自上而下,從對象層開始向下輸入數據,用以補充文本信息因單方向輸入算法模型中產生的挖掘漏洞;上述過程結束後,開始提取高等級文本語義特徵,整個過程與正向文本語義特徵提取過程基本一致。
進一步的,上、下層推導語義模塊隱含層的深度學習過程使用的函數為;
其中,上角標low和high分別表示下層語義模塊和上層語義模塊,hk是指隱含層中的第k個神經元,wk是hk的卷積核,bk是hk的文本語義特徵誤差,v是標準神經網絡體積,n是上層語義模塊隱含層神經元數量,p是後驗概率。
進一步的,正向語義推導模塊擁有兩種後驗概率,即隱含層p1和輸出層p2,表示為:
與現有技術相比,本發明有以下有益效果:本發明就文本語義特徵生成工作提出深度學習優化算法,深度學習算法融入多種思維,包括神經網絡、機器學習、數學模型、數據編碼等,應用到免監督式的學習方法、單層神經網絡、新浪雲算法和反向分析等學科,對文本語義的高、低等級特徵均已進行細緻描述,還對算法的一些缺陷進行了合理優化。本發明的算法具有良好的學習效果,能夠準確生成文本語義特徵,可保證有效特徵佔據比例穩定維持在一個較高水平。
附圖說明
圖1為本發明實施例中文本語義特徵的提取過程。
圖2為本發明實施例中文本編碼器程序走向圖。
圖3為本發明實施例中算法操作模型的單層神經網絡。
圖4為本發明實施例中正向文本語義特徵生成進程。
圖5為本發明實施例中反向文本語義特徵生成過程。
圖6為本發明實施例中文本分詞處理結果圖。
圖7為本發明實施例中有效特徵佔據比例(實驗1)。
圖8為本發明實施例中有效特徵佔據比例(實驗2)。
圖9為本發明實施例中有效特徵佔據比例(實驗3)。
圖10為本發明實施例中文本語義特徵生成精度對比示意圖。
圖11為本發明實施例中文本特徵生成召回率對比圖。
圖12為本發明實施例中文本特徵生成效率對比圖。
具體實施方式
下面結合附圖及實施例對本發明做進一步說明。
本實施例提供了一種基於深度學習的文本語義特徵生成優化方法,文本語義存在顯著的特徵結構,可簡要將其分為上、下兩層。下層的文本語義特徵比較具體,特徵之間存在很強的關聯性,為低等級特徵。上層的文本語義特徵之間關聯界限模糊,特徵挖掘難度要大很多,屬於高等級特徵。深度學習通過免監督式的機器學習方式模仿文本信息行為,得到下層語義特徵,根據下層語義特徵逐層遞增地提取上層語義特徵。
在本實施例中,首先進行文本語義特徵雙向生成可行性證明。文本語義特徵生成過程是一個較為複雜的過程,整個過程如圖1所示。由圖1可知,深度學習算法操作模型擁有四個模塊和兩個操作步驟,模塊包括對象層、上層語義模塊、下層語義模塊和文本信息模塊,操作步驟包括語義提取與學習、生成語義特徵。棧式去噪自編碼法是對信息內在非線性編碼的去噪與提取。文本信息模塊內記錄的是文本信息原身,外部情感多樣性提供給文本信息的正是非線性屬性,可採取棧式去噪自編碼法建立文本編碼器提取文本語義,採用單層神經網絡學習下層文本語義獲取其特徵,保存到下層語義模塊。再以下層語義模塊為數據基礎提取上層文本語義,保存到上層語義模塊。在上下層語義模塊和對象層之間建立語義特徵優化程序,運行程序輸出文本語義特徵集群,完成雙向推導過程。
在本實施例中,如圖2所示,圖2是文本編碼器程序走向圖,文本編碼器的棧式去噪過程是將文本信息與編碼去噪矩陣進行點乘運算,由文本信息的產生網絡提供文本概念。將文本概念平均分配生成虛擬電子標籤,引入文本信息模塊。文本編碼器根據文本概念提取出信息原身中的偏序關係,在其中標註編碼並分析文本基礎情感,建立文本語義集合。通過網絡將文本語義集合共享給下層語義模塊進行存儲和處理,生成低等級語義特徵,為高等級語義特徵的生成與優化作準備。
在本實施例中,包括正向文本語義特徵生成方法設計。將單層神經網絡應用於基於深度學習的文本語義特徵正向生成算法中,有一個很強大的優點,就是能夠讓所生成的文本語義特徵更加滿足人類生理視覺與網絡瀏覽頁的融合性,這一優點源自單層神經網絡的強感知能力。本實施例將圖1所示的算法操作模型轉換成關於文本語義的單層神經網絡,如圖3所示,各神經元之間的箭頭指向都是朝上的,上層語義模塊和下層語義模塊都是隱含層,並都將應用到機器學習進行文本語義特徵提取。在機器學習算法選擇中,新浪、騰訊等雲計算算法都兼具高存儲量和快速運算的能力,但新浪雲算法的起點更高,是中國最大的paas(platform-as-a-service,平臺服務)廠商,可靠性強,功能多,學習效果好。
單層神經網絡輸出的是單點文本語義特徵,指每條文本語義對應一個單獨的特徵。在深度學習算法操作模型定義下的單點文本語義特徵編碼形式緊湊,數據維度隨著特徵提取進程的發展不斷下降,如圖4所示,每層神經網絡都有一個文本編碼器,採用深度學習的免監督手段從下到上依次訓練編碼器,學習文本語義。新浪雲算法的可視層就是深度學習算法操作模型的文本信息模塊,使用新浪雲算法學習文本語義,模擬網民思維方式,重新定義文本語義。經過上述發展,單層神經網絡的神經元比重發生了變化,根據梯度將單層神經網絡展開,建立標準神經網絡。訓練標準神經網絡的整體文本語義,生成低等級文本語義特徵。
在本實施例中,還包括反向文本語義特徵生成方法設計。反向文本語義特徵之所以被稱之為「反向特徵」,是因為新浪雲算法沒能充分意識到一些文本語義信息具有高階統計特徵。深度學習將在所生成的正向文本語義特徵上建立概念資料庫進行深層次特徵提取,如圖5所示,深度學習算法在上、下層語義模塊內分別建立隱含層和輸出層,在下層語義模塊隱含層中使用卷積運算對正向文本語義特徵進行深層反向分析,所涉及到的操作均為免監督式,可以無任何顧慮地、不接受多餘條件約束地生成文本語義特徵。單層神經網絡的學習是自下而上,概念資料庫進行的深度學習是自上而下,從對象層開始向下輸入數據,可以補充文本信息因單方向輸入算法模型中產生的挖掘漏洞。這個過程結束後,開始提取高等級文本語義特徵,整個過程與正向文本語義特徵提取過程基本一致。
其中,上、下層推導語義模塊隱含層的深度學習過程使用的函數為:
其中,上角標low和high分別表示下層語義模塊和上層語義模塊,hk是指隱含層中的第k個神經元,wk是hk的卷積核,bk是hk的文本語義特徵誤差,v是標準神經網絡體積,n是上層語義模塊隱含層神經元數量,p是後驗概率。
其中,正向語義推導模塊擁有兩種後驗概率,即隱含層p1和輸出層p2,表示為:
在本實施例中,深度學習算法操作模型的學習效果在很大程度上關係著其所生成的文本語義特徵的可用性,模型推導問題具備較大難度。根據以往的文獻記載,其推導問題主要包括推導算法的選擇、學習效率的控制、信息相似特徵的處理、神經元比重的管理以及模型運算速率的提升等。一些推導問題已經在上文有所提及,比如將文本編碼器分配到所有模塊中進行分布式文本語義提取,再比如分開建立上、下層語義模塊的隱含層和輸出層,減少文本信息相似特徵的混淆。下面對模型運算速率推導方法進行設計:
在標準神經網絡中,好的神經元比重能夠充分發揮深度學習的學習效果,但過於強調學習效果會約束模型運算速率。正向推導語義模塊隱含層的神經元數量遠遠少於反向語義模塊隱含層的神經元數量,所以使用神經元的平均卷積核代替並不會對學習效果造成較大影響,可以將正反向語義模塊的深度學習過程設計成:
接下來,本實施例提供了上述方法的實驗分析。
在本實施例中,實驗於在線實驗室進行,實驗選取的是一個網絡攻防雲計算系統,可快速提取網絡文本信息,並具有極強的數據安保性能,可使實驗過程不受幹擾。關於測評語料,實驗採用coae2016數據集。coae在我國語言情感類會議中佔據非常重要的地位,coae2016是其中一款新型語料,穩定性和新穎性都比較好,能夠進行網絡文本的多組合分析,針對文本語義的情感傾向做出裁決。實驗隨機從coae2016中抽取語料,再從微博評論中隨機選擇大量文本信息,將以上數據合併進行訓練,建立5個不同的文本數據集群,如表1所示。
表1實驗數據集群
在本實施例中,實驗過程如下:實驗採用兩種方式測評深度學習優化算法。將表1中的5個數據集群分成學習樣本和算法測評樣本,保證每種樣本中的文本數據量均不相同。兩種測評方式使用的數據集群分別用表2和表3描述,表2中學習樣本和算法測評樣本的比例為8:2,表3則保持算法測評樣本數據量不變,依次增加學習樣本數據量。
兩種測評方式都是使用multi2.0機器學習軟體從實驗結果裡提取有效的文本語義特徵佔據總特徵生成量的比例,以測評深度學習算法是否可用。
表2文本數據樣本1
表3文本數據樣本2
為了準確的生成文本語義特徵,首先需要進行文本進行分詞處理,其次進一步進行有效特徵佔據比例分析,再次對文本語義特徵生成精度進行對比,然後對文本特徵生成的召回情況進行分析,最後進行生成效率方面的對比分析。此時採用k-means算法作為分詞方法,分詞的有效性由熵來衡量,其表達式為:
式中:e(sr)為第r類分詞結果熵,k為分詞分類別數,nr為第r類中的文本數,n為總文本數,具體如下:
式中:q為文本集中的真實類別數,為分詞r中分為第i類的文本數,由此可知,當熵為零時分詞效果為最優,且熵越小分詞效果越好。
最後,在實施例對實驗結果進行分析如下。
首先,分別採用對風險決策法、神經網絡法與改進方法為對比,以文本分詞熵值為指標進行實驗分析,結果如圖6所示,文本進行分詞處理結果。
由圖6可知,採用風險決策法時,其熵值隨著文本數量的增加而逐漸增加,雖然在文本數4時出現了下降,但之後迅速上升,整體熵值約為0.72;採用神經網絡法時,其熵值隨著隨著文本數的增加有下降的趨勢,但在文本數7時,逐漸增加,整體熵值約為0.523;採用改進方法進行分詞處理時,其熵值隨著文本數的提高而出現先下降後升高的現象,整體熵值約為0.236,相比風險決策法、神經網絡法分別降低了0.436、0.287;熵值較低,且最接近「0」,具有一定的優勢。
其次,分別採用對風險決策法、神經網絡法與改進方法為對比進行有效特徵佔據比例對比分析。圖7、圖8分別是深度學習優化算法針對表2、表3中文本信息進行文本語義特徵提取的實驗結果。
由圖7、圖8可知,在基於深度學習的文本語義特徵生成優化算法給出的文本語義特徵生成集群中,有效特徵佔據很大比例。而且實驗數據集群的容量越大,有效特徵佔據比例的上升幅度就越顯著,實驗數據集群4和5在兩種測評方法中的比例相近,上述結果證明,深度學習在進行文本語義訓練時發揮了十分有效的學習效果,能夠減少文本信息相似特徵混淆現象的發生概率。
另外,實驗2的有效特徵佔據比例要稍微低於實驗1,其原因可能是在分配學習樣本和算法測評樣本時,未能將文本中大多數的重要語義分配到學習樣本中。為此,將表3中的算法測評樣本數量全部設為5000條再進行一次測評,實驗結果如圖9所示,可以看到圖9中有效特徵佔據比例與圖7中的數據是比較接近的,這個現象說明,在使用本實施例算法時適度減少學習樣本數據容量可提高文本語義特徵生成精度。整體來講,算法所生成的文本語義特徵中有效特徵佔據比例大,具有強可用性。
再次,分別採用對風險決策法、神經網絡法與改進方法為對比,以文本生成精度為指標進行實驗分析,結果如下圖10文本語義特徵生成精度對比圖。
由圖10可知,採用風險決策法時,其文本特徵生成精度隨著文本數量的增加出現先降低後上升的現象,雖然在文本數4萬時開始上升,但其整體文本特徵生成精度約為68.9%;採用神經網絡法時,其文本特徵生成精度也隨著文本數的增加而先下降後上升,但在文本數7萬時,上升迅速,整體生成效率約為46.8%;採用改進方法進行文本特徵生成優化時,其文本特徵生成精度隨著文本數量的提高而逐漸升高,整體生成精度約為92.4%,相比風險決策法、神經網絡法文本生成精度分別提高了約23.5%、45.6%,具有一定的優勢。
然後,分別採用對風險決策法、神經網絡法與改進方法為對比,以文本生成召回率為指標進行實驗分析,結果如圖11所示。由圖11可知,採用風險決策法時,其文本特徵生成召回率隨著文本數量的增加而上升,穩定性較強,其整體文本特徵生成召回率無下降趨勢,召回率約為96.48%;採用神經網絡法時,其文本特徵生成召回率隨著文本數的增加而出現上升與下降交替的波動狀態,整體特徵生成召回率約為58.64%;採用改進方法進行文本特徵生成優化時,其文本特徵生成召回率隨著文本數量的提高而逐漸升高,最後趨於穩定,整體召回率約為18.69%,相比風險決策法、神經網絡法文本生成效率分別提高了約77.79%、39.55%,具有一定的優勢。
最後,分別採用對風險決策法、神經網絡法與改進方法為對比,以文本生成效率為指標進行實驗分析,結果如圖12所示:由圖12可知,採用風險決策法時,其文本特徵生成效率隨著文本數量的增加出現了波動,穩定性差,雖然在文本數1萬時出現了上升,但其整體文本特徵生成效率約為18.37%;採用神經網絡法時,其文本特徵生成效率隨著文本數的增加而出現上升與下降的波動,整體生成效率約為24.7%;採用改進方法進行文本特徵生成優化時,其文本特徵生成效率隨著文本數量的提高而逐漸升高,最後趨於穩定,整體生成效率約為96.8%,相比風險決策法、神經網絡法文本生成效率分別提高了約78.43%、72.1%,具有一定的優勢。
本實施例就文本語義特徵生成工作提出深度學習優化算法,深度學習算法融入多種思維,包括神經網絡、機器學習、數學模型、數據編碼等,應用到免監督式的學習方法、單層神經網絡、新浪雲算法和反向分析等學科,對文本語義的高、低等級特徵均已進行細緻描述,還對算法的一些缺陷進行了合理優化。實驗測評中,應用coae2016建立數據集群,採用三種測評方法全面、客觀地分析本文算法的可用性,證明出本文算法具有良好的學習效果,能夠準確生成文本語義特徵,可保證有效特徵佔據比例穩定維持在一個較高水平。
以上所述僅為本發明的較佳實施例,凡依本發明申請專利範圍所做的均等變化與修飾,皆應屬本發明的涵蓋範圍。