新四季網

基於人工智慧的文章分類方法及裝置、設備與可讀介質與流程

2024-04-02 05:31:05


【技術領域】

本發明涉及計算機應用技術領域,尤其涉及一種基於人工智慧的文章分類方法及裝置、設備與可讀介質。



背景技術:

人工智慧(artificialintelligence;ai),是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是計算機科學的一個分支,它企圖了解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。

隨著網絡科技的發展,網絡上的電子多媒體使用越來越普及。為了有效地對網絡上的各種新聞資訊進行有效地管理,通常可以將新聞資訊分為不同的主題類別。

現有技術中通過建立層級的主題分類體系,來對新聞資訊的文章的主題類別進行管理。例如新聞資訊可以被分為「娛樂」、「體育」、「教育」等等主題類別。在這個基礎上,還可以進一步細分,比如「體育」可以分為「足球」,「籃球」,「羽毛球」等。這樣,在為用戶展示文章時可以進行分類展示,用戶也可以按照主題分類體系中的主題類別選擇自己感興趣的主題類別進行閱讀。為了有效地對網絡中的新聞資訊的文章進行有效地分類,現有技術中多採用人工標識的方法來為文章進行分類。例如具體可以在文章發布之前,由網站工作人員根據新聞資訊的文章的標題,主觀對該文章進行分類,並打上對應主題類別的標籤。

但是,現有技術中由工作人員根據新聞資訊的文章的標題,主觀對該文章進行分類,不僅費時費力,而且對文章分類的準確性也非常差。



技術實現要素:

本發明提供了一種基於人工智慧的文章分類方法及裝置、設備與可讀介質,用於提高對文章分類的準確性。

本發明提供一種基於人工智慧的文章分類方法,所述方法包括:

獲取目標文章的文本;

對所述目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各所述分詞粒度對應的分詞;

根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測所述目標文章與各所述層級上的各個主題類別的相似度;

根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類。

進一步可選地,如上所述的方法中,根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類之後,所述方法還包括:

校驗所述目標文章在各所述層級上的分類。

進一步可選地,如上所述的方法中,校驗所述目標文章在各所述層級上的分類,具體包括如下至少一種:

檢測所述目標文章的各所述層級的分類是否衝突;若衝突,取消所述目標文章在下遊層級的分類;

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消所述目標文章在所述特定層級的所述特定主題類別的分類;和

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中是否出現特定關鍵詞,若出現,取消所述目標文章在所述特定層級的所述特定主題類別的分類。

進一步可選地,如上所述的方法中,根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測所述目標文章與各所述層級上的各個主題類別的相似度之前,所述方法還包括:

從各資訊網站抓取數個訓練語料,各所述訓練語料包括訓練文章和所述訓練文章在對應的所述資訊網站中的原分類;

將各所述訓練語料中的所述訓練文章在對應的所述資訊網站中的原分類映射為所述目標分類體系中的主題類別;

對各所述訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

根據所述數個正例的訓練數據,構造各所述正例的訓練數據中的訓練語料在各所述層級上的多個不相干的主題類別,生成數個負例的訓練數據;

使用所述數個正例的訓練數據和所述數個負例的訓練數據,訓練各層級的所述打分標籤模型。

本發明還提供一種基於人工智慧的文章分類裝置,所述裝置包括:

獲取模塊,用於獲取目標文章的文本;

分詞模塊,用於對所述目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各所述分詞粒度對應的分詞;

預測模塊,用於根據所述目標文章的各所述分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測所述目標文章與各所述層級上的各個主題類別的相似度;

分類模塊,用於根據所述目標文章與各所述層級上的各個主題類別的相似度以及預設的相似度閾值,對所述目標文章在各所述層級上進行分類。

進一步可選地,如上所述的裝置中,還包括:

校驗模塊,用於校驗所述目標文章在各所述層級上的分類。

進一步可選地,如上所述的裝置中,

所述校驗模塊,具體用於執行如下至少一種:

檢測所述目標文章的各所述層級的分類是否衝突;若衝突,取消所述目標文章在下遊層級的分類;

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消所述目標文章在所述特定層級的所述特定主題類別的分類;和

若所述目標文章的特定層級的分類為特定主題類別時,檢測所述目標文章中是否出現特定關鍵詞,若出現,取消所述目標文章在所述特定層級的所述特定主題類別的分類。

進一步可選地,如上所述的裝置中,還包括:

抓取模塊,用於從各資訊網站抓取數個訓練語料,各所述訓練語料包括訓練文章和所述訓練文章在對應的所述資訊網站中的原分類;

映射模塊,用於將各所述訓練語料中的所述訓練文章在對應的所述資訊網站中的原分類映射為所述目標分類體系中的主題類別,

正例生成模塊,用於對各所述訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

負例生成模塊,用於根據所述數個正例的訓練數據,構造各所述正例的訓練數據中的訓練語料在各所述層級上的多個不相干的主題類別,生成數個負例的訓練數據;

訓練模塊,用於使用所述數個正例的訓練數據和所述數個負例的訓練數據,訓練各層級的所述打分標籤模型。

本發明還提供一種計算機設備,所述設備包括:

一個或多個處理器;

存儲器,用於存儲一個或多個程序,

當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上所述的基於人工智慧的文章分類方法。

本發明還提供一種計算機可讀介質,其上存儲有電腦程式,該程序被處理器執行時實現如上所述的基於人工智慧的文章分類方法。

本發明的基於人工智慧的文章分類方法及裝置、設備與可讀介質,通過獲取目標文章的文本;對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測目標文章與各層級上的各個主題類別的相似度;根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。本發明的技術方案,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標籤模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,本發明的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

【附圖說明】

圖1為本發明的基於人工智慧的文章分類方法實施例的流程圖。

圖2為本發明的基於人工智慧的文章分類裝置實施例一的結構圖。

圖3為本發明的基於人工智慧的文章分類裝置實施例二的結構圖。

圖4為本發明的計算機設備實施例的結構圖。

圖5為本發明提供的一種計算機設備的示例圖。

【具體實施方式】

為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本發明進行詳細描述。

圖1為本發明的基於人工智慧的文章分類方法實施例的流程圖。如圖1所示,本實施例的基於人工智慧的文章分類方法,具體可以包括如下步驟:

100、獲取目標文章的文本;

本發明的基於人工智慧的文章分類方法的執行主體為基於人工智慧的文章分類裝置,該基於人工智慧的文章分類裝置可以為一電子的實體裝置,也可以為採用軟體集成的裝置。

本實施例中的目標文章為網絡上的新聞資訊對應的文章,為了對網絡上的新聞資訊進行有效地管理,每一個新聞資訊發布之後,均需要將該新聞資訊的文章作為目標文章,採用本實施例的基於人工智慧的文章分類方法對該新聞資訊對應的文章進行分類。

101、對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;

本實施例中,需要對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,例如至少兩種不同的分詞粒度可以包括基本粒度、混版粒度等不同的分詞粒度。本實施例中通過對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,以獲取該目標文章的文本各種粒度的分詞信息,以更加準確地對目標文章的文本進行分類。

需要說明的是,目標文章的文本不僅包括標題還包括正文。本實施例中,在對目標文章的文本按照每一種分詞粒度進行分詞時,可以按照該種分詞粒度分別對目標文章的標題和正文進行分詞,得到該分詞粒度下、該目標文章對應的標題的分詞和該目標文章對應的正文的分詞。

102、根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測目標文章與各層級上的各個主題類別的相似度;

本實施例的目標分類體系為本實施例中對目標文章進行分類的依據。網站為了管理文章,可以預先定義好該目標分類體系中包括幾層主題類別,以及每一層所包括的主題類別。本實施例中,對於目標分類體系中的每一層級還預先訓練有對應的打分標籤模型,每一層級的打分標籤模型中可以預先訓練有目標分類體系中該層級的各個主題類別的一維向量。該打分標籤模型在預測目標文章與各層級上的各個主題類別的相似度的時候,可以將各分詞粒度對應的分詞輸入至該打分標籤模型,然後打分標籤模型便可以根據內部預先訓練好的該層級的各個主題類別的一維向量,分別預測出該目標文章與該層級上的各個主題類別的相似度。其中輸入該打分標籤模型的各分詞粒度對應的分詞具體可以採用詞向量的形式輸入,而每個詞對應的詞向量也可以通過預先訓練確定。比如相同語義的詞,對應的詞向量的相似度應該是比較高,如果詞向量的相似度不高,可以調整詞向量中的數值,使得兩個詞向量的相似度朝向升高的方向改變。同理,如不同語義的詞,對應的詞向量的相似度應該是比較低,如果詞向量的相似度較高,可以調整詞向量的數值,使得兩個詞向量的相似度朝向降低的方向改變。通過不斷訓練和調整,可以確定每個詞的詞表。

在向該打分標籤模型輸入各分詞粒度對應的分詞時,可以將各分詞粒度、以及目標文章的標題和正文的分詞分域輸入。例如對於採用兩種分詞粒度對目標文章的標題和正文進行分詞時,對應輸入的分詞可以分為如下四個域:(分詞粒度1對應的標題分詞)、(分詞粒度1對應的正文分詞)、(分詞粒度2對應的標題分詞)以及(分詞粒度2對應的正文分詞)。然後打分標籤模型根據輸入的各種分詞粒度的分詞,來準確預測該目標文章與該層級上的各個主題類別的相似度。實際應用中,在對目標文章進行分詞時,選擇的分詞粒度的種類越多,各種大小信息量的分詞越豐富,雖然計算過程會略有複雜,但是打分標籤模型預測的該目標文章與該層級上的各個主題類別的相似度越準確。

本實施例的打分標籤模型可以採用詞袋(bag-of-words;bow)模型或者卷積神經網絡(convolutionalneuralnetwork;cnn)模型的架構進行訓練得到。

103、根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。

對於目標分類體系中的每一個層級,打分標籤模型預測的是目標文章與該層級上的各個主題類別的相似度。即目標分類體系中該層級包括有多少個主題類別,該層級的打分標籤模型便可以輸出多少個相似度,分別為該目標文章與該層級上的各個主題類的相似度。然後可以判斷該層級的打分標籤模型輸出的各個相似度與相似度閾值的大小關係,若目標文章與該層級的某個主題類別的相似度大於或者等於預設的相似度閾值,此時該目標文章在該層級上可以分配至該主題類別中;否則若目標文章與該層級的某個主題類別的相似度小於預設的相似度閾值,此時該目標文章在該層級上不可以分至該主題類別中。本實施例中,具體可以通過為該目標文章打上主題類別的標籤,以標識該目標文章在該層級上分配至該主題類別中。

採用本實施例的技術方案,目標文章在目標分類體系中可以被分至多個主題類別中,也有可能不會分配至任一主題類別中。

而且可選地,本實施例的目標分類體系中所有層級的所有主題類別的預設的相似度閾值可以相同;也可以每一層級的所有主題類別的預設的相似度閾值相同,不同層級的主題類別對應的預設的相似度閾值不相同;或者各個主題類別的預設的相似度閾值也可以均不相同。或者也可以僅對較為特殊的主題類別設置較大或者較小的預設的相似度閾值,其它主題類別設置相同的預設的相似度閾值。例如,對容易分錯的主題類別的預設的相似度閾值進行獨立控制,加大預設的相似度閾值。比如主題類別為「搞笑」比較難以分類,那麼只有當打分標籤模型預測到目標文章與該主題類別的相似度閾值足夠高時,目標文章才會被分到這個主題類別。

本實施例的基於人工智慧的文章分類方法,通過獲取目標文章的文本;對目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測目標文章與各層級上的各個主題類別的相似度;根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類。本實施例的技術方案,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標籤模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,本實施例的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

進一步可選地,在上述實施例的技術方案的基礎上,步驟103「根據目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各層級上進行分類」之後,所述方法還包括:校驗目標文章在各層級上的分類。

本實施例中,在對目標文章在各層上進行分類之後,還可以進一步校驗目標文章在各層級上的分類,以進一步提高對目標文章分類的準確性。

例如,校驗目標文章在各層級上的分類,具體可以包括如下至少一種方式:

(a1)檢測目標文章的各層級的分類是否衝突;若衝突,取消目標文章在下遊層級的分類;否則,若不衝突,則暫不執行任何操作。

本實施例的基於人工智慧的文章分類裝置,可以進一步檢測目標文章在各層級的分類對應的主題類別的相關性,若上下兩層級的主題類別完全不相關,可以認為上下兩層的主題類別相衝突。此時可以保留上遊層級的主題類別的分類,而取消該目標文章在下遊層級的主題類別的分類。

例如,若某目標文章在一級分類中打上了「娛樂」的標籤,即表示在第一層被分配至主題類別為「娛樂」的分類中;而位於該「娛樂」之下的二級分類中打上了「籃球」的標籤,即表示在第二層被分配至主題類別為「籃球」的分類中;此時,可以保留一級分類中的主題類別為「娛樂」的分類,而一級分類之下的二級分類中取消主題類別為「籃球」的分類。

(a2)若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消目標文章在特定層級的所述特定主題類別的分類;若達到,暫不執行任何操作;和

(a3)若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中是否出現特定關鍵詞,若出現,取消目標文章在特定層級的特定主題類別的分類;否則,暫不執行任何操作。

本實施例還可以針對某些特徵主題類別的要求對目標文章的分類進行校驗。例如,可以採用正則表達式進行匹配,符合某一要求才屬於某個主題類別,或者符合某一要求就一定不屬於某個主題類別。例如,根據上述步驟(a2)的校驗方式,若二級分類的主題類別為「電影」的條件,可以要求目標文章中出現關鍵詞「電影」必須出現預設頻率閾值以上的次數,如二次以上。這樣,可以對所有二級分類的主題類別為「電影」的目標文章進行檢測,若目標文章中該特定關鍵詞「電影」的出現頻率未達到預設頻率閾值,此時可以直接取消該目標文章在二級分類中的主題類別為「電影」的分類。

再例如,根據上述步驟(a3)的校驗方式,若目標文章的二級分類的主題類別為「熊貓」時,檢測目標文章中是否出現特定關鍵詞「直播」,若出現,則取消目標文章在二級分類的主題類別為「熊貓」的分類。

實際應用中,上述(a1)、(a2)和(a3)三種校驗目標文章在各層級上的分類的方式,可以互相配合來使用。而且,通過上述校驗,可以進一步提高目標文章分類的準確性。

進一步可選地,在上述實施例的技術方案的基礎上,在步驟102「根據目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,獲取目標文章與各層級上的各個主題類別的相似度」之前,還可以包括如下步驟:

(b1)從各資訊網站抓取數個訓練語料,各訓練語料包括訓練文章和訓練文章在對應的資訊網站中的原分類;

本實施例中,訓練語料的獲取具體可以從各門戶網站等資訊網站抓取,抓取的訓練語料可以包括新聞資訊的文章的標題和正文,必要時還可以抓取該文章的統一資源定位符(uniformresourcelocator;url),以便於可以根據url對抓取的信息進行清洗。另外,在每一個資訊網站中的每一文章中還標識有該文章在該資訊網站的分類體系中的分類,因此,在抓取該文章作為訓練語料時,還需要抓取該文章在該資訊網站中的分類,此處稱為原分類。例如,若從新浪新聞中抓取教育類目下的新聞文章作為訓練語料時,抓取的該文章的原分類為「教育」。

(b2)將各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的主題類別;

由於不同的資訊網站的分類體系的主題類別的劃分以及類別的定義並不相同,為了將訓練語料能夠在本實施例的目標分類體系中進行訓練,因此,本實施例中,需要將各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的分類。在映射時,儘量保證原分類的名稱和目標分類體系中的主題類別的名稱相同。如果目標分類體系中不存在與原分類名稱相同的主題名稱,此時還可以對原分類以及目標分類體系中的每一個主題類別進行語義分析,獲取與原分類語義相同的主題類別,將原分類映射在目標體系下與該原分類語義相同的主題類別。還可以根據原分類和目標分類體系中的每一個主題類別所包括的範圍,來將原分類映射至目標分類體系下的某一主題類別中。例如,目標分類體系下設置一級類別包含人文類,而不包括歷史類,那麼可以將來源中歷史類的資訊映射到認為類這一主題類別中。

進一步可選地,在上述步驟(b1)之後,步驟(b2)之前,還可以人工採樣評估某個來源在各個類別上的準確,例如人工手動地從某資訊網站選擇10篇文章,發現8篇的類別標識的都不準確。此時可以根據url,捨棄從該資訊網站的抓取的所有訓練語料資源。

進一步可選地,本實施例中,還可以對各訓練語料進行清洗。例如對內容或者標題缺失的劣質訓練語料,以及由於定義不同造成的錯誤分類資源進行過濾。比如在原分類為房產,但是主題和內容都是「棚戶改造」的訓練語料;在做映射時,該訓練語料被映射到目標分類體系下的主題類別為「房產」的分類中,此時在對訓練語料清洗時,可以對具有關鍵詞「棚戶改造」的資訊進行過濾。

(b3)對各訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

例如,具體可以按照步驟101的方式對各訓練語料進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據。正例的訓練數據即為正確的訓練數據版本。每個訓練數據中可以包括訓練語料對應的至少兩種分詞粒度的分詞,該訓練數據在該目標分類體系中主題類別以及該訓練數據為正例。

(b4)根據數個正例的訓練數據,構造各正例的訓練數據中的訓練語料在各層級上的多個不相干的主題類別,生成數個負例的訓練數據;

在訓練打分標籤模型的時候,不僅需要正例,還需要負例,因此,本實施例中還需要根據各正例的訓練數據,構造各訓練數據中訓練語料在各層級上的多個不相干的主題類別,從而生成負例的訓練數據;負例的訓練數據即為錯誤的訓練數據版本。對於每一個正例的訓練數據,可以生成對應三個或者四個負例的訓練數據,具體數量可以根據實際需求來設置。同理每個訓練數據中可以包括訓練語料對應的至少兩種分詞粒度的分詞,該訓練數據在該目標分類體系中構造的主題類別以及該訓練數據為負例。

(b4)使用數個正例的訓練數據和數個負例的訓練數據,訓練打分標籤模型。

本實施例的各層級的打分標籤模型中設置有該層級的所有主題類別對應的一維向量。在訓練之前,對於該層級的所有主題類別的一維向量可以隨機預設初始值。然後開始訓練時,先向打分標籤模型輸入一個訓練數據,輸入時,訓練數據中的訓練語料對應的至少兩種分詞粒度的分詞同樣可以分域輸入;且輸入時,具體可以採用詞向量表示每一個分詞,詞向量的表示方式可以參考上述相關實施例的記載。然後打分標籤模型根據該輸入的訓練數據的信息,預測該訓練數據與該層級的每一個主題類別的相似度。例如若該訓練數據為正例時,可以判斷該訓練數據與正例中確定的主題類別的相似度是否達到預設相似度閾值,若未達到,調整該主題類別對應的一維向量以及打分標籤模型的參數,使得輸出的該訓練數據與正例中確定的主題類別的相似度朝向增大的方向變化;若該訓練數據為負例時,可以判斷該訓練數據與負例中確定的主題類別的相似度是否小於預設相似度閾值,若未小於,調整該主題類別對應的一維向量以及打分標籤模型的參數,使得輸出的該訓練數據與輔例中確定的主題類別的相似度朝向較小的方向變化;經過無數條訓練數據的訓練,可以使得訓練的打分標籤模型能夠準確預測出目標文章與該層級上的各個主題類別的相似度。此時打分標籤模型的參數和其中的該層級的各主題類別的一維向量確定,對應的打分標籤模型確定。

上述實施例的基於人工智慧的文章分類方法,通過獲取目標文章的文本進行至少兩種不同分詞粒度的分詞,可以使得預測目標文章與各層級上的各個主題類別的相似度時,輸入至打分標籤模型中的該目標文章的信息量非常豐富,從而能夠準確預測出目標文章與各層級上的各個主題類別的相似度;進而能夠非常準確地對該目標文章在該層級上進行分類。因此,上述實施例的技術方案,不僅對文章進行分類的準確性較高,而且能夠自動地實現對文章進行分類,省時、省力,對文章分類的效率非常高。

圖2為本發明的基於人工智慧的文章分類裝置實施例一的結構圖。如圖2所示,本實施例的基於人工智慧的文章分類裝置,具體可以包括:獲取模塊10、分詞模塊11和預測模塊12和分類模塊13。

其中獲取模塊10用於獲取目標文章的文本;分詞模塊11用於對獲取模塊10獲取的目標文章的文本進行至少兩種不同分詞粒度的分詞處理,得到各分詞粒度對應的分詞;預測模塊12用於根據分詞模塊11獲取的目標文章的各分詞粒度對應的分詞和在目標分類體系中預先訓練的各層級的打分標籤模型,預測目標文章與各層級上的各個主題類別的相似度;分類模塊13用於根據預測模塊12預測的目標文章與各層級上的各個主題類別的相似度以及預設的相似度閾值,對目標文章在各所述層級上進行分類。

本實施例的基於人工智慧的文章分類裝置,通過採用上述模塊實現文章分類的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。

圖3為本發明的基於人工智慧的文章分類裝置實施例二的結構圖。如圖3所示,本實施例的基於人工智慧的文章分類裝置,在上述圖2所示實施例的技術方案的基礎上,進一還可以包括如下技術方案。

如圖3所示,本實施例的基於人工智慧的文章分類裝置還包括:校驗模塊14。

該校驗模塊14用於校驗分類模塊13得到的目標文章在各層級上的分類。

進一步可選地,本實施例的基於人工智慧的文章分類裝置中,該校驗模塊14具體用於執行如下至少一種:

檢測目標文章的各層級的分類是否衝突;若衝突,取消目標文章在下遊層級的分類;

若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中的特定關鍵詞的出現頻率是否達到預設頻率閾值,若未達到,取消目標文章在特定層級的特定主題類別的分類;和

若目標文章的特定層級的分類為特定主題類別時,檢測目標文章中是否出現特定關鍵詞,若出現,取消目標文章在所述特定層級的特定主題類別的分類。

進一步可選地,本實施例的基於人工智慧的文章分類裝置中,還包括:

抓取模塊15用於從各資訊網站抓取數個訓練語料,各訓練語料包括訓練文章和訓練文章在對應的資訊網站中的原分類;

映射模塊16用於將抓取模塊15抓取的各訓練語料中的訓練文章在對應的資訊網站中的原分類映射為目標分類體系中的主題類別,

正例生成模塊17用於對映射模塊16處理後的各訓練語料的文本進行至少兩種不同分詞粒度的分詞處理,得到數個正例的訓練數據;

負例生成模塊18用於根據正例生成模塊17獲取的數個正例的訓練數據,構造各正例的訓練數據中的訓練語料在各層級上的多個不相干的主題類別,生成數個負例的訓練數據;

訓練模塊19用於使用正例生成模塊17生成的數個正例的訓練數據和負例生成模塊18生成的數個負例的訓練數據,訓練各層級的打分標籤模型。

對應地,預測模塊12用於根據分詞模塊11獲取的目標文章的各分詞粒度對應的分詞和在目標分類體系中訓練模塊19預先訓練的各層級的打分標籤模型,預測目標文章與各層級上的各個主題類別的相似度。

本實施例的基於人工智慧的文章分類裝置,通過採用上述模塊實現文章分類的實現原理以及技術效果與上述相關方法實施例的實現相同,詳細可以參考上述相關方法實施例的記載,在此不再贅述。

圖4為本發明的計算機設備實施例的結構圖。如圖4所示,本實施例的計算機設備,包括:一個或多個處理器30,以及存儲器40,存儲器40用於存儲一個或多個程序,當存儲器40中存儲的一個或多個程序被一個或多個處理器30執行,使得一個或多個處理器30實現如上實施例的基於人工智慧的文章分類方法。圖4所示實施例中以包括多個處理器30為例。

例如,圖5為本發明提供的一種計算機設備的示例圖。圖5示出了適於用來實現本發明實施方式的示例性計算機設備12a的框圖。圖5顯示的計算機設備12a僅僅是一個示例,不應對本發明實施例的功能和使用範圍帶來任何限制。

如圖5所示,計算機設備12a以通用計算設備的形式表現。計算機設備12a的組件可以包括但不限於:一個或者多個處理器16a,系統存儲器28a,連接不同系統組件(包括系統存儲器28a和處理器16a)的總線18a。

總線18a表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速埠,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限於工業標準體系結構(isa)總線,微通道體系結構(mac)總線,增強型isa總線、視頻電子標準協會(vesa)局域總線以及外圍組件互連(pci)總線。

計算機設備12a典型地包括多種計算機系統可讀介質。這些介質可以是任何能夠被計算機設備12a訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。

系統存儲器28a可以包括易失性存儲器形式的計算機系統可讀介質,例如隨機存取存儲器(ram)30a和/或高速緩存存儲器32a。計算機設備12a可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統存儲介質。僅作為舉例,存儲系統34a可以用於讀寫不可移動的、非易失性磁介質(圖5未顯示,通常稱為「硬碟驅動器」)。儘管圖5中未示出,可以提供用於對可移動非易失性磁碟(例如「軟盤」)讀寫的磁碟驅動器,以及對可移動非易失性光碟(例如cd-rom,dvd-rom或者其它光介質)讀寫的光碟驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線18a相連。系統存儲器28a可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執行本發明上述圖1-圖3各實施例的功能。

具有一組(至少一個)程序模塊42a的程序/實用工具40a,可以存儲在例如系統存儲器28a中,這樣的程序模塊42a包括——但不限於——作業系統、一個或者多個應用程式、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。程序模塊42a通常執行本發明所描述的上述圖1-圖3各實施例中的功能和/或方法。

計算機設備12a也可以與一個或多個外部設備14a(例如鍵盤、指向設備、顯示器24a等)通信,還可與一個或者多個使得用戶能與該計算機設備12a交互的設備通信,和/或與使得該計算機設備12a能與一個或多個其它計算設備進行通信的任何設備(例如網卡,數據機等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進行。並且,計算機設備12a還可以通過網絡適配器20a與一個或者多個網絡(例如區域網(lan),廣域網(wan)和/或公共網絡,例如網際網路)通信。如圖所示,網絡適配器20a通過總線18a與計算機設備12a的其它模塊通信。應當明白,儘管圖中未示出,可以結合計算機設備12a使用其它硬體和/或軟體模塊,包括但不限於:微代碼、設備驅動器、冗餘處理器、外部磁碟驅動陣列、raid系統、磁帶驅動器以及數據備份存儲系統等。

處理器16a通過運行存儲在系統存儲器28a中的程序,從而執行各種功能應用以及數據處理,例如實現上述實施例所示的基於人工智慧的文章分類方法。

本發明還提供一種計算機可讀介質,其上存儲有電腦程式,該程序被處理器執行時實現如上述實施例所示的基於人工智慧的文章分類方法。

本實施例的計算機可讀介質可以包括上述圖5所示實施例中的系統存儲器28a中的ram30a、和/或高速緩存存儲器32a、和/或存儲系統34a。

隨著科技的發展,電腦程式的傳播途徑不再受限於有形介質,還可以直接從網絡下載,或者採用其他方式獲取。因此,本實施例中的計算機可讀介質不僅可以包括有形的介質,還可以包括無形的介質。

本實施例的計算機可讀介質可以採用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限於——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。

計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以採用多種形式,包括——但不限於——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程序。

計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限於——無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設計語言或其組合來編寫用於執行本發明操作的電腦程式代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、smalltalk、c++,還包括常規的過程式程序設計語言—諸如」c」語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟體包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或伺服器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括區域網(lan)或廣域網(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用網際網路服務提供商來通過網際網路連接)。

在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。

上述以軟體功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存儲介質中。上述軟體功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)或處理器(processor)執行本發明各個實施例所述方法的部分步驟。而前述的存儲介質包括:u盤、移動硬碟、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光碟等各種可以存儲程序代碼的介質。

以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀