主題詞分類模型創建方法、創建裝置及存儲介質與流程
2023-06-17 03:47:11 1

本發明涉及數據處理領域,特別是涉及一種主題詞分類模型創建方法、創建裝置及存儲介質。
背景技術:
在網際網路內容分發系統中,需要通過主題詞對文章進行分類,該主題詞是指可以代表文章主要內容特徵的詞,這樣用戶可以通過主題詞方便快捷的了解該文章的內容。
現有的文章主題詞一般為文章中出現的標籤詞,而文章中標籤詞的提取算法要求文章的標籤詞必須在該文章中出現過,這樣就大大限制了文章主題詞的抽象程度以及概括能力。例如一篇描述某個具體黑科技的文章中可能不會出現「黑科技」這個標籤詞,這樣導致使用上述標籤詞提取算法無法將該文章的主題詞設置為「黑科技」。同理「東北風」以及「小資生活」等抽象程度較高的詞彙無法成為文章的主題詞。
為了解決上述文章主題詞的設置問題,現有的主題詞分類器通過建立主題詞分類模型來使文章主題詞判斷自動化,但是上述主題詞分類模型需要收集大量標註好主題詞的文章進行訓練,因此需要大量人力物力對大量文章進行較為準確的主題詞標註,以便生成較為準確的主題詞分類模型。
技術實現要素:
本發明實施例提供一種可準確創建主題詞分類模型,創建過程簡單且創建成本較低的主題詞分類模型創建方法、創建裝置及存儲介質;以解決現有的主題詞分類模型創建方法、創建裝置及存儲介質中的主題詞分類模型的準確性較差或主題詞分類模型的創建過程複雜且創建成本較高的技術問題。
本發明實施例提供一種主題詞分類模型創建方法,其包括:
獲取多個模型訓練文檔,並提取所述模型訓練文檔的標籤詞,以建立所述模型訓練文檔與所述標籤詞的映射內容庫;
基於相似度算法,獲取所述標籤詞對應的核心主題詞組;其中所述核心主題詞組中包括多個核心主題詞;
基於所述映射內容庫,獲取所述核心主題詞組對應的第一模型訓練文檔集合;
基於機器學習算法,對多個所述模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;
基於所述映射內容庫,獲取所述標籤詞對應的所有模型訓練文檔的主體類別標識,並根據所述標籤詞對應的主體類別標識,確定所述標籤詞對應的第二模型訓練文檔集合;以及
將所述標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本,所述映射內容庫中的其他模型訓練文檔作為負樣本,創建所述標籤詞的主題詞分類模型。
本發明實施例還提供一種主題詞分類模型創建裝置,其包括:
映射內容庫建立模塊,用於獲取多個模型訓練文檔,並提取所述模型訓練文檔的標籤詞,以建立所述模型訓練文檔與所述標籤詞的映射內容庫;
核心主題詞組獲取模塊,用於基於相似度算法,獲取所述標籤詞對應的核心主題詞組;其中所述核心主題詞組中包括多個核心主題詞;
第一模型訓練文檔集合獲取模塊,用於基於所述映射內容庫,獲取所述核心主題詞組對應的第一模型訓練文檔集合;
分類模塊,用於基於機器學習算法,對多個所述模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;
第二模型訓練文檔集合確定模塊,用於基於所述映射內容庫,獲取所述標籤詞對應的所有模型訓練文檔的主體類別標識,並根據所述標籤詞對應的主體類別標識,確定所述標籤詞對應的第二模型訓練文檔集合;以及
主題詞分類模型創建模塊,用於將所述標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本,所述映射內容庫中的其他模型訓練文檔作為負樣本,創建所述標籤詞的主題詞分類模型。
本發明實施例還提供一種存儲介質,其內存儲有處理器可執行指令,該處理器通過執行所述指令提供上述任一的主題詞分類模型創建方法。
相較於現有技術,本發明的主題詞分類模型創建方法、創建裝置及存儲介質通過多個核心主題詞引入第一模型訓練文檔集合,通過文檔分類算法引入第二模型訓練文檔集合;從而可獲取準確度較高的主題詞分類模型的訓練正樣本和負樣本,提高了主題詞分類模型的準確性;同時簡化了主題詞分類模型的創建過程,降低了主題詞分類模型的創建成本;解決了現有的主題詞分類模型創建方法、創建裝置及存儲介質中的主題詞分類模型的準確性較差或主題詞分類模型的創建過程複雜且創建成本較高的技術問題。
附圖說明
圖1為本發明的主題詞分類模型創建方法的優選實施例的流程圖;
圖2為本發明的主題詞分類模型創建方法的第一實施例的步驟s102的流程圖;
圖3本發明的主題詞分類模型創建方法的第一實施例的步驟s105的流程圖;
圖4為本發明的主題詞分類模型創建裝置的優選實施例的結構示意圖;
圖5為本發明的主題詞分類模型創建裝置的優選實施例的核心主題詞組獲取模塊的結構示意圖;
圖6為本發明的主題詞分類模型創建裝置的優選實施例的核心主題詞組獲取模塊的預備主題詞組獲取單元的結構示意圖;
圖7為本發明的主題詞分類模型創建裝置的優選實施例的第二模型訓練文檔集合確定模塊的結構示意圖;
圖8為本發明的主題詞分類模型創建方法以及創建裝置的主題詞分類模型創建流程示意圖
圖9為本發明的主題詞分類模型創建裝置所在的電子設備的工作環境結構示意圖。
具體實施方式
請參照圖式,其中相同的組件符號代表相同的組件,本發明的原理是以實施在一適當的運算環境中來舉例說明。以下的說明是基於所例示的本發明具體實施例,其不應被視為限制本發明未在此詳述的其它具體實施例。
在以下的說明中,本發明的具體實施例將參考由一部或多部計算機所執行之作業的步驟及符號來說明,除非另有述明。因此,其將可了解到這些步驟及操作,其中有數次提到為由計算機執行,包括了由代表了以一結構化型式中的數據之電子信號的計算機處理單元所操縱。此操縱轉換該數據或將其維持在該計算機之內存系統中的位置處,其可重新配置或另外以本領域技術人員所熟知的方式來改變該計算機之運作。該數據所維持的數據結構為該內存之實體位置,其具有由該數據格式所定義的特定特性。但是,本發明原理以上述文字來說明,其並不代表為一種限制,本領域技術人員將可了解到以下所述的多種步驟及操作亦可實施在硬體當中。
本發明的主題詞分類模型創建方法及創建裝置用於對網絡文章進行主題詞判斷的電子設備中,該電子設備包括但不限於可穿戴設備、頭戴設備、醫療健康平臺、個人計算機、伺服器計算機、手持式或膝上型設備、行動裝置(比如行動電話、個人數字助理(pda)、媒體播放器等等)、多處理器系統、消費型電子設備、小型計算機、大型計算機、包括上述任意系統或設備的分布式計算環境,等等。該電子設備優選為網絡數據管理伺服器。本發明的主題詞分類模型創建方法及創建裝置通過多個核心主題詞引入第一模型訓練文檔集合,通過文檔分類算法引入第二模型訓練文檔集合;從而可獲取準確度較高的主題詞分類模型的訓練正樣本和負樣本,提高了主題詞分類模型的準確性;同時簡化了主題詞分類模型的創建過程,降低了主題詞分類模型的創建成本,因此可有效的解決現有的主題詞分類模型創建方法及創建裝置中的主題詞分類模型的準確性較差或主題詞分類模型的創建過程複雜且創建成本較高的技術問題。
請參照圖1,圖1為本發明的主題詞分類模型創建方法的第一實施例的流程圖。本優選實施例的主題詞分類模型創建方法可使用上述的電子設備進行實施,本優選實施例的主題詞分類模型創建方法包括:
步驟s101,獲取多個模型訓練文檔,並提取模型訓練文檔的標籤詞,以建立模型訓練文檔與標籤詞的映射內容庫;
步驟s102,基於相似度算法,獲取標籤詞對應的核心主題詞組;其中核心主題詞組中包括多個核心主題詞;
步驟s103,基於映射內容庫,獲取核心主題詞組對應的第一模型訓練文檔集合;
步驟s104,基於機器學習算法,對多個模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;
步驟s105,基於映射內容庫,獲取標籤詞對應的所有模型訓練文檔的主體類別標識,並根據標籤詞對應的主體類別標識,確定標籤詞對應的第二模型訓練文檔集合;
步驟s106,將標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本,映射內容庫中的其他模型訓練文檔作為負樣本,創建標籤詞的主題詞分類模型。
下面詳細說明本優選實施例的主題詞分類模型創建方法的各步驟的具體流程。
在步驟s101中,主題詞分類模型創建裝置通過網絡內容爬蟲,獲取多個模型訓練文檔。如主題詞分類模型創建裝置每天對全網內容進行爬取,通過去重處理之後可獲取10萬篇文章,這樣主題詞分類模型創建裝置10天可獲取100萬篇模型訓練文檔。
隨後主題詞分類模型創建裝置使用textrank等算法提取每個模型訓練文檔的至少一個標籤詞,從而形成標籤詞和模型訓練文檔的對應關係。然後主題詞分類模型創建裝置基於上述標籤詞和模型訓練文檔的對應關係,建立模型訓練文檔和標籤詞的映射內容庫,這裡映射內容庫中一個標籤詞可對應多個模型訓練文檔。這樣用戶可通過映射內容庫中的任一標籤詞查到對應的多個模型訓練文檔。隨後轉到步驟s102和步驟s104。
在步驟s102中,主題詞分類模型創建裝置獲取模型訓練文檔中的所有詞語單元;隨後基於相似度算法,主題詞分類模型創建裝置從所有詞語單元中獲取與標籤詞對應的多個核心主題詞,即從所有詞語單元中獲取與標籤詞具有較高相似度的核心主題詞,並由這些核心主題詞組成該標籤詞對應的核心主題詞組。
具體請參照圖2,圖2為本發明的主題詞分類模型創建方法的第一實施例的步驟s102的流程圖。該步驟s102包括:
步驟s201,主題詞分類模型創建裝置可使用word2vec等算法,計算步驟s101獲取的模型訓練文檔中所有詞語單元的詞向量。這樣可通過詞語單元的詞向量之間的向量距離來表示詞語單元之間的相似度。
步驟s202,主題詞分類模型創建裝置可根據步驟s201獲取的詞語單元的詞向量,獲取與該標籤詞具有一定相似度的多個預備主題詞,隨後由這多個預備主題詞組成該標籤詞對應的預備主題詞組。
獲取該預備主題詞組的步驟具體為:
主題詞分類模型創建裝置根據步驟s201獲取的詞語單元的詞向量,獲取與標籤詞的向量距離小於第一設定值的所有第一預備主題詞;
隨後主題詞分類模型創建裝置根據詞語單元的詞向量,獲取與第一預備主題詞的向量距離小於第二設定值的第二預備主題詞;如具有多個第一預備主題詞,每個第一預備主題詞均可獲取多個第二預備主題詞;
最後主題詞分類模型創建裝置使用上述所有的第一預備主題詞和對應的第二預備主題詞,建立預備主題詞組。該預備主題詞組中包括多個預備主題詞。
這裡的第一設定值以及第二設定值可根據用戶要求進行設定,該第一設定值可與第二設定值相等或不相等。
步驟s203,主題詞分類模型創建裝置根據預備主題詞組中的預備主題詞的出現次數,獲取該標籤詞對應的核心主題詞組。
由於預備主題詞在預備主題詞組中的出現次數表示了該預備主題詞與標籤詞的相關性。如預備主題詞與標籤詞相關性較大,則該預備主題詞可能會成為多個第一預備主題詞的第二預備主題詞,因此該預備主題詞在預備主題詞組中的出現次數也較多。如預備主題詞與標籤詞相關性較小,則該預備主題詞可能只會成為某個第一預備主題詞的第二預備子主題詞,因此該預備主題詞在預備主題詞組中的出現次數較少。
這裡主題詞分類模型創建裝置將預備主題詞組中出現次數小於第三設定值(如2次或4次等)的預備主題詞刪除,並將刪除預備主題詞之後的預備主題詞組設定為該標籤詞對應的核心主題詞組,該核心主題詞組內的詞語單元也設定為核心主題詞。這裡的第三設定值可根據用戶要求進行設定。隨後轉到步驟s103。
在步驟s103中,主題詞分類模型創建裝置基於步驟s101建立的映射內容庫,獲取步驟s102獲取的核心主題詞組中的核心主題詞對應的模型訓練文檔;並使用核心主題詞對應的模型訓練文檔建立第一模型訓練文檔集合。隨後轉到步驟s106。
在步驟s104中,主題詞分類模型創建裝置基於lda(latentdirichletallocation)等機器學習算法,對步驟s101獲取的模型訓練文檔進行分類操作,使得每個類別的模型訓練文檔均具有一個主體類別標識(如具有唯一性的主體類別編號等),即每個模型訓練文檔均會對應一個主體類別標識。如將步驟s101獲取的100萬篇模型訓練文檔分為5000個類別,則每個模型訓練文檔的主體類別標識可為1-5000中的一個。隨後轉到步驟s105。
在步驟s105中,主題詞分類模型創建裝置基於步驟s101建立的映射內容庫,獲取標籤詞對應的所有模型訓練文檔,從而根據步驟s104獲取的模型訓練文檔的主體類別標識,獲取該標籤詞對應的主體類別標識。
隨後主題詞分類模型創建裝置獲取標籤詞的主體類別標識對應的所有模型訓練文檔;並使用標籤詞的主體類別標識對應的所有模型訓練文檔建立第二模型訓練文檔集合。
具體請參照圖3,圖3本發明的主題詞分類模型創建方法的第一實施例的步驟s105的流程圖。該步驟s105包括:
步驟s301,主題詞分類模型創建裝置根據標籤詞對應的所有模型訓練文檔的主體類別標識的出現次數,設定標籤詞的主體類別標識集合。
具體的,這裡主題詞分類模型創建裝置將出現次數大於第四設定值的標籤詞對應的所有模型訓練文檔的主體類別標識,設置到標籤詞的主體類別標識集合中。
即通過同種類的模型訓練文檔的出現次數,對標籤詞的主體類別標識進行篩選,這裡認為某個標籤詞對應的某類別的模型訓練文檔的數量越多,該類別的模型訓練文檔與該標籤詞的關聯性越大,因此將關聯性較大的模型訓練文檔對應的主體類別標識設置在該標籤詞的主體類別標識集合中。這裡的第四設定值可根據用戶要求進行設定。
此外,這裡主題詞分類模型創建裝置還可先按出現次數,由大到小對標籤詞對應的所有模型訓練文檔的主體類別標識進行排序。隨後主題詞分類模型創建裝置將排序後的前n個主體類別標識,設置到標籤詞的主體類別標識集合中,其中n為按用戶要求設定的正整數。
即通過不同種類的模型訓練文檔的出現比例,對標籤詞的主體類別標識進行篩選,這裡認為某個種類的模型訓練文檔的出現比例越高,該類別的模型訓練文檔與該標籤詞的關聯性越大,因此將關聯性較大的模型訓練文檔對應的主體類別標識設置在該標籤詞的主體類別標識集合中。
步驟s302,主題詞分類模型創建裝置根據標籤詞的主體類別標識集合中的主體類別標識,確定標籤詞對應的第二模型訓練文檔集合。隨後轉到步驟s106。
在步驟s106中,主題詞分類模型創建裝置將步驟s103獲取的第一模型訓練文檔集合和步驟s105獲取的第二模型訓練文檔集合進行對比,獲取第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔。
最後主題詞分類模型創建裝置將標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本;步驟s101中獲取的映射內容庫中的其他模型訓練文檔作為負樣本進行訓練,創建該標籤詞的主題詞分類模型。這樣用戶可通過該主題詞分類模型自動獲取該標籤詞作為主題詞的網絡文檔。
這樣即完成了本優選實施例的主題詞分類模型創建方法的主題詞分類模型創建過程。
本優選實施例的主題詞分類模型創建方法通過多個核心主題詞引入第一模型訓練文檔集合,通過文檔分類算法引入第二模型訓練文檔集合;從而可獲取準確度較高的主題詞分類模型的訓練正樣本和負樣本,提高了主題詞分類模型的準確性;同時簡化了主題詞分類模型的創建過程,降低了主題詞分類模型的創建成本。
本發明還提供一種主題詞分類模型創建裝置,請參照圖4,圖4為本發明的主題詞分類模型創建裝置的優選實施例的結構示意圖。本優選實施例的主題詞分類模型創建裝置40包括映射內容庫建立模塊41、核心主題詞組獲取模塊42、第一模型訓練文檔集合獲取模塊43、分類模塊44、第二模型訓練文檔集合確定模塊45以及主題詞分類模型創建模塊46。
映射內容庫建立模塊41用於獲取多個模型訓練文檔,並提取模型訓練文檔的標籤詞,以建立模型訓練文檔與標籤詞的映射內容庫;核心主題詞組獲取模塊42用於基於相似度算法,獲取標籤詞對應的核心主題詞組;其中核心主題詞組中包括多個核心主題詞;第一模型訓練文檔集合獲取模塊43用於基於映射內容庫,獲取核心主題詞組對應的第一模型訓練文檔集合;分類模塊44用於基於機器學習算法,對多個模型訓練文檔進行分類操作;其中每個類別的模型訓練文檔具有一個主體類別標識;第二模型訓練文檔集合確定模塊45用於基於映射內容庫,獲取標籤詞對應的所有模型訓練文檔的主體類別標識,並根據標籤詞對應的主體類別標識,確定標籤詞對應的第二模型訓練文檔集合;主題詞分類模型創建模塊46用於將標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本,映射內容庫中的其他模型訓練文檔作為負樣本,創建標籤詞的主題詞分類模型。
請參照圖5,圖5為本發明的主題詞分類模型創建裝置的優選實施例的核心主題詞組獲取模塊的結構示意圖。該核心主題詞組獲取模塊42包括詞向量計算單元51、預備主題詞組獲取單元52以及核心主題詞組獲取單元53。
詞向量計算單元51用於計算模型訓練文檔中所有詞語單元的詞向量;預備主題詞組獲取單元52用於根據詞語單元的詞向量,獲取標籤詞對應的預備主題詞組;核心主題詞組獲取單元53用於根據預備主題詞組中預備主題詞的出現次數,獲取標籤詞對應的核心主題詞組;具體的,用於將預備主題詞組中出現次數小於第三設定值的預備主題詞刪除,從而獲取標籤詞對應的核心主題詞組。
請參照圖6,圖6為本發明的主題詞分類模型創建裝置的優選實施例的核心主題詞組獲取模塊的預備主題詞組獲取單元的結構示意圖。該預備主題詞組獲取單元52包括第一預備主題詞獲取子單元61、第二預備主題詞獲取子單元62以及預備主題詞組建立子單元63。
第一預備主題詞獲取子單元61用於根據詞語單元的詞向量,獲取與標籤詞的向量距離小於第一設定值的所有第一預備主題詞;第二預備主題詞獲取子單元62用於根據詞語單元的詞向量,獲取與第一預備主題詞的向量距離小於第二設定值的第二預備主題詞;預備主題詞組建立子單元63用於使用所有第一預備主題詞和對應的第二預備主題詞,建立預備主題詞組;其中預備主題詞組中包括多個預備主題詞。
請參照圖7,圖7為本發明的主題詞分類模型創建裝置的優選實施例的第二模型訓練文檔集合確定模塊的結構示意圖。該第二模型訓練文檔集合確定模塊45包括主體類別標識集合設定單元71以及第二模型訓練文檔集合確定單元72。
主體類別標識集合設定單元71用於根據標籤詞對應的所有模型訓練文檔的主體類別標識的出現次數,設定標籤詞的主體類別標識集合;第二模型訓練文檔集合確定單元72用於根據標籤詞的主體類別標識集合中的主體類別標識,確定標籤詞對應的第二模型訓練文檔集合。
本優選實施例的主題詞分類模型創建裝置40使用時,首先映射內容庫建立模塊41通過網絡內容爬蟲,獲取多個模型訓練文檔。如映射內容庫建立模塊41每天對全網內容進行爬取,通過去重處理之後可獲取10萬篇文章,這樣主題詞分類模型創建裝置10天可獲取100萬篇模型訓練文檔。
隨後映射內容庫建立模塊41使用textrank等算法提取每個模型訓練文檔的至少一個標籤詞,從而形成標籤詞和模型訓練文檔的對應關係。然後映射內容庫建立模塊41基於上述標籤詞和模型訓練文檔的對應關係,建立模型訓練文檔和標籤詞的映射內容庫,這裡映射內容庫中一個標籤詞可對應多個模型訓練文檔。這樣用戶可通過映射內容庫中的任一標籤詞查到對應的多個模型訓練文檔。
隨後核心主題詞組獲取模塊42獲取模型訓練文檔中的所有詞語單元;隨後基於相似度算法,核心主題詞組獲取模塊4從所有詞語單元中獲取與標籤詞對應的多個核心主題詞,即從所有詞語單元中獲取與標籤詞具有較高相似度的核心主題詞,並由這些核心主題詞組成該標籤詞對應的核心主題詞組。
具體包括:
核心主題詞組獲取模塊42的詞向量計算單元51可使用word2vec等算法,計算映射內容庫建立模塊41獲取的模型訓練文檔中所有詞語單元的詞向量。這樣可通過詞語單元的詞向量之間的向量距離來表示詞語單元之間的相似度。
核心主題詞組獲取模塊42的預備主題詞組獲取單元52可根據詞向量計算單元51獲取的詞語單元的詞向量,獲取與該標籤詞具有一定相似度的多個預備主題詞,隨後由這多個預備主題詞組成該標籤詞對應的預備主題詞組。
獲取該預備主題詞組的步驟具體為:
預備主題詞組獲取單元52的第一預備主題詞獲取子單元61根據詞向量計算單元51獲取的詞語單元的詞向量,獲取與標籤詞的向量距離小於第一設定值的所有第一預備主題詞;
隨後預備主題詞組獲取單元52的第二預備主題詞獲取子單元62根據詞語單元51的詞向量,獲取與第一預備主題詞的向量距離小於第二設定值的第二預備主題詞;如具有多個第一預備主題詞,每個第一預備主題詞均可獲取多個第二預備主題詞;
最後預備主題詞組獲取單元52的預備主題詞組建立子單元63使用上述所有的第一預備主題詞和對應的第二預備主題詞,建立預備主題詞組。該預備主題詞組中包括多個預備主題詞。
這裡的第一設定值以及第二設定值可根據用戶要求進行設定,該第一設定值可與第二設定值相等或不相等。
核心主題詞組獲取模塊42的核心主題詞組獲取單元53根據預備主題詞組中的預備主題詞的出現次數,獲取該標籤詞對應的核心主題詞組。
由於預備主題詞在預備主題詞組中的出現次數表示了該預備主題詞與標籤詞的相關性。如預備主題詞與標籤詞相關性較大,則該預備主題詞可能會成為多個第一預備主題詞的第二預備主題詞,因此該預備主題詞在預備主題詞組中的出現次數也較多。如預備主題詞與標籤詞相關性較小,則該預備主題詞可能只會成為某個第一預備主題詞的第二預備子主題詞,因此該預備主題詞在預備主題詞組中的出現次數較少。
這裡核心主題詞組獲取單元53將預備主題詞組中出現次數小於第三設定值(如2次或4次等)的預備主題詞刪除,並將刪除預備主題詞之後的預備主題詞組設定為該標籤詞對應的核心主題詞組,該核心主題詞組內的詞語單元也設定為核心主題詞。這裡的第三設定值可根據用戶要求進行設定。
然後第一模型訓練文檔集合獲取模塊43基於映射內容庫建立模塊41建立的映射內容庫,獲取核心主題詞組獲取模塊42獲取的核心主題詞組中的核心主題詞對應的模型訓練文檔;並使用核心主題詞對應的模型訓練文檔建立第一模型訓練文檔集合。
隨後分類模塊44基於lda(latentdirichletallocation)等機器學習算法,對映射內容庫建立模塊41獲取的模型訓練文檔進行分類操作,使得每個類別的模型訓練文檔均具有一個主體類別標識(如具有唯一性的主體類別編號等),即每個模型訓練文檔均會對應一個主體類別標識。如將映射內容庫建立模塊41獲取的100萬篇模型訓練文檔分為5000個類別,則每個模型訓練文檔的主體類別標識可為1-5000中的一個。
然後第二模型訓練文檔集合確定模塊45基於映射內容庫建立模塊41建立的映射內容庫,獲取標籤詞對應的所有模型訓練文檔,從而根據分類模塊44獲取的模型訓練文檔的主體類別標識,獲取該標籤詞對應的主體類別標識。
隨後第二模型訓練文檔集合確定模塊45獲取標籤詞的主體類別標識對應的所有模型訓練文檔;並使用標籤詞的主體類別標識對應的所有模型訓練文檔建立第二模型訓練文檔集合。
具體包括:
第二模型訓練文檔集合確定模塊45的主體類別標識集合設定單元71根據標籤詞對應的所有模型訓練文檔的主體類別標識的出現次數,設定標籤詞的主體類別標識集合。
具體的,這裡主體類別標識集合設定單元71將出現次數大於第四設定值的標籤詞對應的所有模型訓練文檔的主體類別標識,設置到標籤詞的主體類別標識集合中。
即通過同種類的模型訓練文檔的出現次數,對標籤詞的主體類別標識進行篩選,這裡認為某個標籤詞對應的某類別的模型訓練文檔的數量越多,該類別的模型訓練文檔與該標籤詞的關聯性越大,因此將關聯性較大的模型訓練文檔對應的主體類別標識設置在該標籤詞的主體類別標識集合中。這裡的第四設定值可根據用戶要求進行設定。
此外,這裡主體類別標識集合設定單元71的排序子單元還可先按出現次數,由大到小對標籤詞對應的所有模型訓練文檔的主體類別標識進行排序。隨後主體類別標識集合設定單元71的主體類別標識集合設定子單元將排序後的前n個主體類別標識,設置到標籤詞的主體類別標識集合中,其中n為按用戶要求設定的正整數。
即通過不同種類的模型訓練文檔的出現比例,對標籤詞的主體類別標識進行篩選,這裡認為某個種類的模型訓練文檔的出現比例越高,該類別的模型訓練文檔與該標籤詞的關聯性越大,因此將關聯性較大的模型訓練文檔對應的主體類別標識設置在該標籤詞的主體類別標識集合中。
第二模型訓練文檔集合確定模塊45的第二模型訓練文檔集合確定單元72根據標籤詞的主體類別標識集合中的主體類別標識,確定標籤詞對應的第二模型訓練文檔集合。
最後主題詞分類模型創建模塊46將第一模型訓練文檔集合獲取模塊43獲取的第一模型訓練文檔集合和第二模型訓練文檔集合確定模塊45獲取的第二模型訓練文檔集合進行對比,獲取第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔。
主題詞分類模型創建模塊46將標籤詞對應的第一模型訓練文檔集合和第二模型訓練文檔集合中重複的模型訓練文檔作為正樣本;映射內容庫建立模塊41獲取的映射內容庫中的其他模型訓練文檔作為負樣本進行訓練,創建該標籤詞的主題詞分類模型。這樣用戶可通過該主題詞分類模型自動獲取該標籤詞作為主題詞的網絡文檔。
這樣即完成了本優選實施例的主題詞分類模型創建裝置40的主題詞分類模型創建過程。
本優選實施例的主題詞分類模型創建裝置通過多個核心主題詞引入第一模型訓練文檔集合,通過文檔分類算法引入第二模型訓練文檔集合;從而可獲取準確度較高的主題詞分類模型的訓練正樣本和負樣本,提高了主題詞分類模型的準確性;同時簡化了主題詞分類模型的創建過程,降低了主題詞分類模型的創建成本。
下面通過一具體實施例說明本發明的主題詞分類模型創建方法以及創建裝置的具體工作原理。請參照圖8,圖8為本發明的主題詞分類模型創建方法以及創建裝置的主題詞分類模型創建流程示意圖。本具體實施例的主題詞分類模型創建方法以及創建裝置設置在網絡數據管理伺服器中。
本具體實施例的主題詞分類模型創建裝置進行主題詞分類模型創建時包括以下步驟:
一、對全網內容進行爬取,獲取多個模型訓練文檔。
二、使用textrank等算法提取每個模型訓練文檔的至少一個標籤詞81,從而形成標籤詞81和模型訓練文檔的對應關係。
三、基於上述標籤詞81和模型訓練文檔的對應關係,建立模型訓練文檔和標籤詞81的映射內容庫8b。
四、基於所有模型訓練文檔中詞語單元的詞向量,獲取與標籤詞81的向量距離小於第一設定值的第一預備主題詞82。
如標籤詞81為極限運動,可獲取第一預備主題詞82為:戶外運動、球類運動以及健身運動等。
五、基於所有模型訓練文檔中詞語單元的詞向量,獲取與第一預備主題詞82的向量距離小於第二設定值的第二預備主題詞83。
如戶外運動的第二預備主題詞83為潛水、登山等。
六、使用第一預備主題詞82和第二預備主題詞83,構建該標籤詞81對應的核心主題詞組84。
這樣所有的第一預備主題詞82和第二預備主題詞83可構成標籤詞對應的預備主題詞組85。將預備主題詞組85中出現次數少於三次的預備主題詞刪除,這樣即可獲取該標籤詞81對應的核心主題詞組84。
七、基於核心主題詞組84對應的模型訓練文檔,建立該標籤詞81對應的第一模型訓練文檔集合86。
八、基於lda等機器學習算法,對映射內容庫8b中的模型訓練文檔進行分類操作,使得每個類別的模型訓練文檔均具有一個主體類別標識87。
九、獲取標籤詞81對應的模型訓練文檔的主體類別標識87。
十、根據標籤詞81對應的模型訓練文檔的主體類別標識87的出現次數,設定標籤詞81的主體類別編號集合88。
如將主體類別標識87的出現次數大於10次的模型訓練文檔的主體類別標識87設置到該標籤詞81的主體類別標識集合88中。
十一、根據標籤詞81的主體類別標識集合88中的主體類別標識87,確定標籤詞81對應的第二模型訓練文檔集合89。
十二、將標籤詞81對應的第一模型訓練文檔集合86和第二模型訓練文檔集合89中重複的模型訓練文檔作為正樣本;映射內容庫8b中的其他模型訓練文檔作為負樣本進行訓練,創建該標籤詞81的主題詞分類模型8a。
這樣用戶可通過該主題詞分類模型8a自動獲取以標籤詞81作為主題詞的網絡文章。
這樣即完成了本具體實施例的主題詞分類模型創建方法以及創建裝置的主題詞分類模型創建過程。
本發明的主題詞分類模型創建方法及創建裝置通過多個核心主題詞引入第一模型訓練文檔集合,通過文檔分類算法引入第二模型訓練文檔集合;從而可獲取準確度較高的主題詞分類模型的訓練正樣本和負樣本,提高了主題詞分類模型的準確性;同時簡化了主題詞分類模型的創建過程,降低了主題詞分類模型的創建成本;解決了現有的主題詞分類模型創建方法及創建裝置中的主題詞分類模型的準確性較差或主題詞分類模型的創建過程複雜且創建成本較高的技術問題。
如本申請所使用的術語「組件」、「模塊」、「系統」、「接口」、「進程」等等一般地旨在指計算機相關實體:硬體、硬體和軟體的組合、軟體或執行中的軟體。例如,組件可以是但不限於是運行在處理器上的進程、處理器、對象、可執行應用、執行的線程、程序和/或計算機。通過圖示,運行在控制器上的應用和該控制器二者都可以是組件。一個或多個組件可以有在於執行的進程和/或線程內,並且組件可以位於一個計算機上和/或分布在兩個或更多計算機之間。
圖9和隨後的討論提供了對實現本發明所述的主題詞分類模型創建裝置所在的電子設備的工作環境的簡短、概括的描述。圖9的工作環境僅僅是適當的工作環境的一個實例並且不旨在建議關於工作環境的用途或功能的範圍的任何限制。實例電子設備912包括但不限於可穿戴設備、頭戴設備、醫療健康平臺、個人計算機、伺服器計算機、手持式或膝上型設備、行動裝置(比如行動電話、個人數字助理(pda)、媒體播放器等等)、多處理器系統、消費型電子設備、小型計算機、大型計算機、包括上述任意系統或設備的分布式計算環境,等等。
儘管沒有要求,但是在「計算機可讀指令」被一個或多個電子設備執行的通用背景下描述實施例。計算機可讀指令可以經由計算機可讀介質來分布(下文討論)。計算機可讀指令可以實現為程序模塊,比如執行特定任務或實現特定抽象數據類型的功能、對象、應用編程接口(api)、數據結構等等。典型地,該計算機可讀指令的功能可以在各種環境中隨意組合或分布。
圖9圖示了包括本發明的主題詞分類模型創建裝置中的一個或多個實施例的電子設備912的實例。在一種配置中,電子設備912包括至少一個處理單元916和存儲器918。根據電子設備的確切配置和類型,存儲器918可以是易失性的(比如ram)、非易失性的(比如rom、快閃記憶體等)或二者的某種組合。該配置在圖9中由虛線914圖示。
在其他實施例中,電子設備912可以包括附加特徵和/或功能。例如,設備912還可以包括附加的存儲裝置(例如可移除和/或不可移除的),其包括但不限於磁存儲裝置、光存儲裝置等等。這種附加存儲裝置在圖9中由存儲裝置920圖示。在一個實施例中,用於實現本文所提供的一個或多個實施例的計算機可讀指令可以在存儲裝置920中。存儲裝置920還可以存儲用於實現作業系統、應用程式等的其他計算機可讀指令。計算機可讀指令可以載入存儲器918中由例如處理單元916執行。
本文所使用的術語「計算機可讀介質」包括計算機存儲介質。計算機存儲介質包括以用於存儲諸如計算機可讀指令或其他數據之類的信息的任何方法或技術實現的易失性和非易失性、可移除和不可移除介質。存儲器918和存儲裝置920是計算機存儲介質的實例。計算機存儲介質包括但不限於ram、rom、eeprom、快閃記憶體或其他存儲器技術、cd-rom、數字通用盤(dvd)或其他光存儲裝置、盒式磁帶、磁帶、磁碟存儲裝置或其他磁存儲設備、或可以用於存儲期望信息並可以被電子設備912訪問的任何其他介質。任意這樣的計算機存儲介質可以是電子設備912的一部分。
電子設備912還可以包括允許電子設備912與其他設備通信的通信連接926。通信連接926可以包括但不限於數據機、網絡接口卡(nic)、集成網絡接口、射頻發射器/接收器、紅外埠、usb連接或用於將電子設備912連接到其他電子設備的其他接口。通信連接926可以包括有線連接或無線連接。通信連接926可以發射和/或接收通信媒體。
術語「計算機可讀介質」可以包括通信介質。通信介質典型地包含計算機可讀指令或諸如載波或其他傳輸機構之類的「己調製數據信號」中的其他數據,並且包括任何信息遞送介質。術語「己調製數據信號」可以包括這樣的信號:該信號特性中的一個或多個按照將信息編碼到信號中的方式來設置或改變。
電子設備912可以包括輸入設備924,比如鍵盤、滑鼠、筆、語音輸入設備、觸摸輸入設備、紅外相機、視頻輸入設備和/或任何其他輸入設備。設備912中也可以包括輸出設備922,比如一個或多個顯示器、揚聲器、印表機和/或任意其他輸出設備。輸入設備924和輸出設備922可以經由有線連接、無線連接或其任意組合連接到電子設備912。在一個實施例中,來自另一個電子設備的輸入設備或輸出設備可以被用作電子設備912的輸入設備924或輸出設備922。
電子設備912的組件可以通過各種互連(比如總線)連接。這樣的互連可以包括外圍組件互連(pci)(比如快速pci)、通用串行總線(usb)、火線(ieee1394)、光學總線結構等等。在另一個實施例中,電子設備912的組件可以通過網絡互連。例如,存儲器918可以由位於不同物理位置中的、通過網絡互連的多個物理存儲器單元構成。
本領域技術人員將認識到,用於存儲計算機可讀指令的存儲設備可以跨越網絡分布。例如,可經由網絡928訪問的電子設備930可以存儲用於實現本發明所提供的一個或多個實施例的計算機可讀指令。電子設備912可以訪問電子設備930並且下載計算機可讀指令的一部分或所有以供執行。可替代地,電子設備912可以按需要下載多條計算機可讀指令,或者一些指令可以在電子設備912處執行並且一些指令可以在電子設備930處執行。
本文提供了實施例的各種操作。在一個實施例中,所述的一個或多個操作可以構成一個或多個計算機可讀介質上存儲的計算機可讀指令,其在被電子設備執行時將使得計算設備執行所述操作。描述一些或所有操作的順序不應當被解釋為暗示這些操作必需是順序相關的。本領域技術人員將理解具有本說明書的益處的可替代的排序。而且,應當理解,不是所有操作必需在本文所提供的每個實施例中存在。
而且,儘管已經相對於一個或多個實現方式示出並描述了本公開,但是本領域技術人員基於對本說明書和附圖的閱讀和理解將會想到等價變型和修改。本公開包括所有這樣的修改和變型,並且僅由所附權利要求的範圍限制。特別地關於由上述組件(例如元件、資源等)執行的各種功能,用於描述這樣的組件的術語旨在對應於執行所述組件的指定功能(例如其在功能上是等價的)的任意組件(除非另外指示),即使在結構上與執行本文所示的本公開的示範性實現方式中的功能的公開結構不等同。此外,儘管本公開的特定特徵已經相對於若干實現方式中的僅一個被公開,但是這種特徵可以與如可以對給定或特定應用而言是期望和有利的其他實現方式的一個或多個其他特徵組合。而且,就術語「包括」、「具有」、「含有」或其變形被用在具體實施方式或權利要求中而言,這樣的術語旨在以與術語「包含」相似的方式包括。
本發明實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以採用硬體的形式實現,也可以採用軟體功能模塊的形式實現。所述集成的模塊如果以軟體功能模塊的形式實現並作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。上述提到的存儲介質可以是只讀存儲器,磁碟或光碟等。上述的各裝置或系統,可以執行相應方法實施例中的方法。
綜上所述,雖然本發明已以實施例揭露如上,實施例前的序號僅為描述方便而使用,對本發明各實施例的順序不造成限制。並且,上述實施例並非用以限制本發明,本領域的普通技術人員,在不脫離本發明的精神和範圍內,均可作各種更動與潤飾,因此本發明的保護範圍以權利要求界定的範圍為準。