新四季網

檢測關鍵詞推廣程度的方法和裝置與流程

2024-02-14 19:39:15


本申請涉及計算機領域,具體而言,涉及一種檢測關鍵詞推廣程度的方法和裝置。



背景技術:

現今社會中,品牌主需要關注網絡上的輿情是否與品牌主的品牌、產品定位一致,在現有技術中,可以通過在系統中嵌入爬蟲的應用程式來爬取輿情內容中的部分內容,但是無法自動衡量爬取到的輿情內容,並與自身產品內容進行匹配分析,導致品牌主無法獲知品牌在傳播的過程中是否出現了品牌傳播途中品牌所實際希望傳達的消息和消費者認知的差異性。若出現了品牌所實際希望傳達的消息和消費者認知的差異性,則該差異性的出現會導致品牌傳播效率和質量的下降,不利於品牌主品牌的推廣。

針對上述的問題,目前尚未提出有效的解決方案。



技術實現要素:

本申請實施例提供了一種檢測關鍵詞推廣程度的方法和裝置,以至少解決現有技術中無法自動對待檢測關鍵詞的推廣程度進行評估的技術問題。

根據本申請實施例的一個方面,提供了一種檢測關鍵詞推廣程度的方法,該方法包括:爬取包括待檢測關鍵詞的多個網絡文本;對爬取到的所述多個網絡文本進行處理,得到多個關聯詞;將每個所述關聯詞與預設關鍵詞進行匹配,得到所述預設關鍵詞的匹配關聯詞和所述匹配關聯詞的數量,其中,所述匹配關聯詞為所述多個關聯詞中的詞,所述預設關鍵詞為與所述待檢測關鍵詞相關聯的關鍵詞;以及計算所述匹配關聯詞的數量和所述預設關鍵詞數量的目標比值,其中,所述目標比值用於表徵所述待檢測關鍵詞的推廣程度。

進一步地,所述預設關鍵詞為多個,將每個所述關聯詞與預設關鍵詞進行匹配,得到所述預設關鍵詞的匹配關聯詞和所述匹配關聯詞的數量包括:計算關聯詞Ai與預設關鍵詞Cj的相似度Bij,其中,i取1至n,n為所述關聯詞的數量,j依次取1至m,m為所述預設關鍵詞的數量;獲取相似度B11至相似度Bnm中大於預設相似度的數量;以及根據獲取到的所述相似度B11至所述相似度Bnm中大於預設相似度數量確定 所述匹配關聯詞的數量。

進一步地,根據獲取到的所述相似度B11至所述相似度Bnm中大於預設相似度數量確定所述匹配關聯詞的數量包括:判斷獲取到的相似度B11至相似度B1m中大於所述預設相似度的數量是否大於或者等於1;在判斷出獲取到的所述相似度B11至所述相似度B1m中大於所述預設相似度的數量大於或者等於1情況下,預設參數的數量由初始值開始累計增加預設數量,直至判斷獲取到的相似度Bn1至相似度Bnm中大於所述預設相似度的數量是否大於或者等於1;以及確定在判斷出所述相似度Bn1至相似度Bnm中大於所述預設相似度的數量是否大於或者等於1後的所述預設參數的取值作為所述匹配關聯詞的數量。

進一步地,對爬取到的所述多個網絡文本進行處理,得到多個關聯詞包括:基於文本語義對所述多個網絡文本進行分詞,得到多個分詞詞組,其中,不同的所述分詞詞組中所包含的網絡文本的文本語義不同;依次判斷每個所述分詞詞組中的網絡文本是否包含目標詞彙;以及刪除目標分詞詞組中的所述目標詞彙,得到所述多個關聯詞,其中,所述目標分詞詞組為判斷出的網絡文本包含所述目標詞彙的所述分詞詞組。

進一步地,依次判斷每個所述分詞詞組中的網絡文本是否包含目標詞彙包括:將每個所述分詞詞組中的網絡文本與目標詞庫進行對比,其中,所述目標詞庫為用於存儲所述目標詞彙的詞庫;以及當對比出所述分詞詞組的網絡文本中包含與所述目標詞彙相同的詞彙時,確定在所述分詞詞組中的網絡文本中包含所述目標詞彙。

根據本申請實施例的另一方面,還提供了一種檢測關鍵詞推廣程度的裝置,該裝置包括:爬取單元,用於爬取包括待檢測關鍵詞的多個網絡文本;處理單元,用於對爬取到的所述多個網絡文本進行處理,得到多個關聯詞;匹配單元,用於將每個所述關聯詞與預設關鍵詞進行匹配,得到所述預設關鍵詞的匹配關聯詞和所述匹配關聯詞的數量,其中,所述匹配關聯詞為所述多個關聯詞中的詞,所述預設關鍵詞為與所述待檢測關鍵詞相關聯的關鍵詞;以及計算單元,用於計算所述匹配關聯詞的數量和所述預設關鍵詞數量的目標比值,其中,所述目標比值用於表徵所述待檢測關鍵詞的推廣程度。

進一步地,所述預設關鍵詞為多個,所述匹配單元包括:計算模塊,用於計算關聯詞Ai與預設關鍵詞Cj的相似度Bij,其中,i取1至n,n為所述關聯詞的數量,j依次取1至m,m為所述預設關鍵詞的數量;獲取模塊,用於獲取相似度B11至相似度Bnm中大於預設相似度的數量;以及確定模塊,用於根據獲取到的所述相似度B11至所述相似度Bnm中大於預設相似度數量確定所述匹配關聯詞的數量。

進一步地,所述獲取模塊包括:判斷子模塊,用於判斷獲取到的相似度B11至相似度B1m中大於所述預設相似度的數量是否大於或者等於1;增加子模塊,用於在判斷出獲取到的所述相似度B11至所述相似度B1m中大於所述預設相似度的數量大於或者等於1情況下,預設參數的數量由初始值開始累計增加預設數量,直至判斷獲取到的相似度Bn1至相似度Bnm中大於所述預設相似度的數量是否大於或者等於1;以及第一確定子模塊,用於確定在判斷出所述相似度Bn1至相似度Bnm中大於所述預設相似度的數量是否大於或者等於1後的所述預設參數的取值作為所述匹配關聯詞的數量。

進一步地,所述處理單元包括:分詞模塊,用於基於文本語義對所述多個網絡文本進行分詞,得到多個分詞詞組,其中,不同的所述分詞詞組中所包含的網絡文本的文本語義不同;判斷模塊,用於依次判斷每個所述分詞詞組中的網絡文本是否包含目標詞彙;以及刪除模塊,用於刪除目標分詞詞組中的所述目標詞彙,得到所述多個關聯詞,其中,所述目標分詞詞組為判斷出的網絡文本包含所述目標詞彙的所述分詞詞組。

進一步地,所述判斷模塊包括:對比子模塊,用於將每個所述分詞詞組中的網絡文本與目標詞庫進行對比,其中,所述目標詞庫為用於存儲所述目標詞彙的詞庫;以及第二確定子模塊,用於當對比出所述分詞詞組的網絡文本中包含與所述目標詞彙相同的詞彙時,確定在所述分詞詞組中的網絡文本中包含所述目標詞彙。

在本申請實施例中,採用爬取包括待檢測關鍵詞的多個網絡文本;對爬取到的所述多個網絡文本進行處理,得到多個關聯詞;將每個所述關聯詞與預設關鍵詞進行匹配,得到所述預設關鍵詞的匹配關聯詞和所述匹配關聯詞的數量,其中,所述匹配關聯詞為所述多個關聯詞中的詞,所述預設關鍵詞為與所述待檢測關鍵詞相關聯的關鍵詞;計算所述匹配關聯詞的數量和所述預設關鍵詞數量的目標比值,其中,所述目標比值用於表徵所述待檢測關鍵詞的推廣程度的方式。通過爬蟲在目標信息庫中爬取待檢測關鍵詞的多個網絡文本,並根據獲取到的網絡文本進行提煉出多個關聯詞,並將該關聯詞與預設關鍵詞進行匹配,得到匹配關聯詞,以及匹配關聯詞的數量,進而根據該數量和預設關鍵詞數量計算待檢測關鍵詞的推廣程度的比值,相對於現有技術中僅爬取網絡文本,而無法自動對爬取到的關聯詞進行匹配分析,達到了自動檢測待檢測關鍵詞推廣程度的目的,從而實現了無需人工分析,通過自動匹配分析即可獲取待檢測關鍵詞的推廣程度的技術效果,進而解決了現有技術中無法自動對待檢測關鍵詞的推廣程度進行評估的技術問題。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:

圖1是根據本申請實施例的一種檢測關鍵詞推廣程度的方法的流程圖;以及

圖2是根據本申請實施例的一種檢測關鍵詞推廣程度的裝置的示意圖。

具體實施方式

為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。

需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本申請的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。

根據本申請實施例,提供了一種檢測關鍵詞推廣程度的方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。

圖1是根據本申請實施例的一種檢測關鍵詞推廣程度的方法的流程圖,如圖1所示,該方法包括如下步驟S102至步驟S108:

步驟S102,爬取包括待檢測關鍵詞的多個網絡文本。

具體地,通過爬蟲系統在社交媒體和搜尋引擎等信息庫中獲取包括待檢測關鍵詞的多個網絡文本。在本申請實施例中,待檢測關鍵詞為品牌詞或者產品詞等詞彙,例如,「雀巢」、「蘭蔻」和「耐克」等品牌詞彙。

步驟S104,對爬取到的多個網絡文本進行處理,得到多個關聯詞。

具體地,通過爬蟲系統獲取到的多個網絡文本中,包含大量的冗餘成分,因此,需對多個網絡文本進行處理,處理得到高度聚合的待檢測關鍵詞的相關詞彙,即多個關聯詞。

步驟S106,將每個關聯詞與預設關鍵詞進行匹配,得到預設關鍵詞的匹配關聯詞和匹配關聯詞的數量,其中,匹配關聯詞為多個關聯詞中的詞,預設關鍵詞為與待檢測關鍵詞相關聯的關鍵詞。

具體地,預設關鍵詞為用戶預先設置與待檢測關鍵詞相關聯的關鍵詞。例如,待檢測關鍵詞為「蘭蔻」,則預設關鍵詞可以為「美白」、「保溼」、「提亮膚色」和「改善膚質」等詞彙,其中,預設關鍵詞的數量至少為一。

步驟S108,計算匹配關聯詞的數量和預設關鍵詞數量的目標比值,其中,目標比值用於表徵待檢測關鍵詞的推廣程度。

具體地,通過計算匹配關聯詞的數量和預設關鍵詞的數量的比值,即可計算得到該待檢測關鍵詞的推廣程度,以便品牌主確定網絡中的輿情是否與該品牌在市場中的定位一致。

本申請提供的檢測關鍵詞推廣程度的方法,通過爬蟲在目標信息庫中爬取待檢測關鍵詞的多個網絡文本,並根據獲取到的網絡文本進行提煉出多個關聯詞,並將該關聯詞與預設關鍵詞進行匹配,得到匹配關聯詞,以及匹配關聯詞的數量,進而根據該數量和預設關鍵詞數量計算待檢測關鍵詞的推廣程度的比值,相對於現有技術中僅爬取網絡文本,而無法自動對爬取到的關聯詞進行匹配分析,達到了自動檢測待檢測關鍵詞推廣程度的目的,從而實現了無需人工分析,通過自動匹配分析即可獲取待檢測關鍵詞的推廣程度的技術效果,進而解決了現有技術中無法自動對待檢測關鍵詞的推廣程度進行評估的技術問題。

預設關鍵詞為多個,將每個關聯詞與預設關鍵詞進行匹配,得到預設關鍵詞的匹配關聯詞和匹配關聯詞的數量包括如下步驟S1061至步驟S1065:

步驟S1061,計算關聯詞Ai與預設關鍵詞Cj的相似度Bij,其中,i取1至n,n為關聯詞的數量,j依次取1至m,m為預設關鍵詞的數量。

步驟S1063,獲取相似度B11至相似度Bnm中大於預設相似度的數量。

步驟S1065,根據獲取到的相似度B11至相似度Bnm中大於預設相似度數量確定匹配關聯詞的數量。

具體地,在本申請實施例中,通過計算計算關聯詞Ai與預設關鍵詞Cj的相似度 Bij,來確定匹配關聯詞的數量。其中,用戶可根據實際需要選取預設相似度的數值。

假設,關聯詞的數量n的值取3,預設關鍵詞的數量m的值取2,則計算出的關聯詞A1與預設關鍵詞C1至C2的相似度Bij分別為B11和B12;計算出的關聯詞A2與預設關鍵詞C1至C2的相似度Bij分別為B21和B22;計算出的關聯詞A3與預設關鍵詞C1至C2的相似度Bij分別為B31和B32。

判斷B11和B12中大於預設相似度的數量a,B21和B22中大於預設相似度的數量b,以及B31和B32中大於預設相似度的數量c,進而根據判斷出的a,b和c的值確定匹配關聯詞的數量。

可選地,根據獲取到的相似度B11至相似度Bnm中大於預設相似度數量確定匹配關聯詞的數量包括如下步驟S1至步驟S5:

步驟S1,判斷獲取到的相似度B11至相似度B1m中大於預設相似度的數量是否大於或者等於1。

步驟S3,在判斷出獲取到的相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1情況下,預設參數的數量由初始值開始累計增加預設數量,直至判斷獲取到的相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1。

步驟S5,確定在判斷出相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1後的預設參數的取值作為匹配關聯詞的數量。

具體地,在本申請實施例中,計算關聯詞A1與預設關鍵詞Cj的相似度Bij,得到多個相似度B11至相似度B1m,若計算得到的多個相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1,則確定該關聯詞A1為與預設關鍵詞匹配的匹配關聯詞,此時,預設參數由初始值開始累計增加預設數量。例如,預設參數的初始值為0,當判斷出計算得到的多個相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1的情況下,預設參數進行加1運算,得到加1運算後的預設參數,預設參數即為1。

繼續計算關聯詞A2與預設關鍵詞Cj的相似度Bij,得到多個相似度B21至相似度B2m,若計算得到的多個相似度B21至相似度B2m中大於預設相似度的數量大於或者等於1,則確定該關聯詞A2為與預設關鍵詞匹配的匹配關聯詞,此時,預設參數在1的基礎上繼續累計增加1,得到預設參數的數值為2。若計算得到的多個相似度B21至相似度B2m中大於預設相似度的數量等於0,則表明該關聯詞A2並非是預設關鍵詞的匹配關聯詞,預設參數不進行任何操作。

同樣地,對關聯詞A3至An分別進行上述操作,直到判斷最後一個關聯詞An與預設關鍵詞Cj的相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1,並得到判斷出相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1後的預設參數的取值,並將該預設參數的數值作為匹配關聯詞的數量。

在對爬取到的多個網絡文本進行處理,得到多個關聯詞,並將多個關聯詞與預設關鍵詞進行匹配得到匹配關聯詞和匹配關聯詞的數量之後,計算匹配關鍵詞的數量與預設關鍵詞的數量的目標比值,並根據計算出的比值確定該待檢測關鍵詞的推廣程度。其中,若計算出的目標比值越大,則表明該待檢測關鍵詞的推廣程度越大,並且還表明該待檢測關鍵詞在網絡中的輿情與自身品牌的定位一致。

可選地,對爬取到的多個網絡文本進行處理,得到多個關聯詞包括如下步驟S1041至步驟S1045:

步驟S1041,基於文本語義對多個網絡文本進行分詞,得到多個分詞詞組,其中,不同的分詞詞組中所包含的網絡文本的文本語義不同。

步驟S1043,依次判斷每個分詞詞組中的網絡文本是否包含目標詞彙。

步驟S1045,刪除目標分詞詞組中的目標詞彙,得到多個關聯詞,其中,目標分詞詞組為判斷出的網絡文本包含目標詞彙的分詞詞組。

具體地,通過爬蟲系統獲取到的多個網絡文本包含大量的冗餘成分,因此,首先按照中文語義對多個網絡文本進行分詞,得到聚合的多個分詞詞組。其中,在分詞的過程中,若一個分詞詞組中包含相同的網絡文本,則將相同的網絡文本合併得到一個網絡文本。

多得到的聚合的分詞詞組進行進一步提煉,提煉出高度聚合的待檢測關鍵詞的關聯詞彙,即多個關聯詞。其中,通過刪除目標分詞詞組中網絡文本包含的目標詞彙,得到高度聚合的多個關聯詞。目標分詞組為系統判斷出的網絡文本包含目標詞彙的分詞詞組。在本申請實施例中,目標詞彙為日常用語和通用語氣詞等日常生活中較為常見的詞彙,例如,「他(她)們都說」、「大家的評價」和「非常好」等等通用詞彙。

可選地,依次判斷每個分詞詞組中的網絡文本是否包含目標詞彙包括如下步驟S7至步驟S9:

步驟S7,將每個分詞詞組中的網絡文本與目標詞庫進行對比,其中,目標詞庫為用於存儲目標詞彙的詞庫。

步驟S9,當對比出分詞詞組的網絡文本中包含與目標詞彙相同的詞彙時,確定在 分詞詞組中的網絡文本中包含目標詞彙。

具體地,用戶可預先將包含目標詞彙的詞庫存儲於資料庫中,然後分別將每個分詞詞組中的網絡文本與目標詞庫進行對比。若對比出分詞詞組中的某一網絡文本包含與目標詞彙相同的詞彙時,則確定該分詞詞組中的網絡文本中包含目標詞彙。其中,用戶可對目標詞庫中的目標詞彙進行更新,以便提煉出聚合程度較高的關聯詞。

需要說明的是,在本申請實施例中,對爬取到的多個網絡文本進行處理的方法並不限於本申請中所描述的方法,還可以採用其他的方法來對多個網絡文本進行處理,得到高度聚合的關聯詞。

本申請實施例還提供了一種檢測關鍵詞推廣程度的裝置,該裝置主要用於執行本申請實施例上述內容所提供的檢測關鍵詞推廣程度的方法,以下對本申請實施例送提供的檢測關鍵詞推廣程度的裝置做具體介紹。

圖2是根據本申請實施例的一種檢測關鍵詞推廣程度的裝置示意圖,如圖2所示,該檢測關鍵詞推廣程度的裝置示意圖主要包括爬取單元10、處理單元20、匹配單元30和計算單元40,其中:

爬取單元10,用於爬取包括待檢測關鍵詞的多個網絡文本。

具體地,通過爬取單元在社交媒體和搜尋引擎等信息庫中獲取包括待檢測關鍵詞的多個網絡文本。在本申請實施例中,待檢測關鍵詞為品牌詞或者產品詞等詞彙,例如,「雀巢」、「蘭蔻」和「耐克」等品牌詞彙。

處理單元20,用於對爬取到的多個網絡文本進行處理,得到多個關聯詞。

具體地,通過爬蟲系統獲取到的多個網絡文本中,包含大量的冗餘成分,因此,通過處理單元需對多個網絡文本進行處理,處理得到高度聚合的待檢測關鍵詞的相關詞彙,即多個關聯詞。

匹配單元30,用於將每個關聯詞與預設關鍵詞進行匹配,得到預設關鍵詞的匹配關聯詞和匹配關聯詞的數量,其中,匹配關聯詞為多個關聯詞中的詞,預設關鍵詞為與待檢測關鍵詞相關聯的關鍵詞。

具體地,通過匹配單元將每個關聯詞與預設關鍵詞進行匹配得到多個關聯詞,其中,預設關鍵詞為用戶預先設置與待檢測關鍵詞相關聯的關鍵詞。例如,待檢測關鍵詞為「蘭蔻」,則預設關鍵詞可以為「美白」、「保溼」、「提亮膚色」和「改善膚質」等詞彙,其中,預設關鍵詞的數量至少為一。

計算單元40,用於計算匹配關聯詞的數量和預設關鍵詞數量的目標比值,其中,目標比值用於表徵待檢測關鍵詞的推廣程度。

具體地,通過計算單元計算得到匹配關聯詞的數量和預設關鍵詞的數量的比值,即目標比值,通過該目標比值即可確定該待檢測關鍵詞的推廣程度,以便品牌主確定網絡中的輿情是否與該品牌的定位一致。

本申請提供的檢測關鍵詞推廣程度的裝置,通過爬蟲在目標信息庫中爬取待檢測關鍵詞的多個網絡文本,並根據獲取到的網絡文本進行提煉出多個關聯詞,並將該關聯詞與預設關鍵詞進行匹配,得到匹配關聯詞,以及匹配關聯詞的數量,進而根據該數量和預設關鍵詞數量計算待檢測關鍵詞的推廣程度的比值,相對於現有技術中僅爬取網絡文本,而無法自動對爬取到的關聯詞進行匹配分析,達到了自動檢測待檢測關鍵詞推廣程度的目的,從而實現了無需人工分析,通過自動匹配分析即可獲取待檢測關鍵詞的推廣程度的技術效果,進而解決了現有技術中無法自動對待檢測關鍵詞的推廣程度進行評估的技術問題。

可選地,預設關鍵詞為多個,匹配單元30包括:計算模塊,用於計算關聯詞Ai與預設關鍵詞Cj的相似度Bij,其中,i取1至n,n為關聯詞的數量,j依次取1至m,m為預設關鍵詞的數量;獲取模塊,用於獲取相似度B11至相似度Bnm中大於預設相似度的數量;確定模塊,用於根據獲取到的相似度B11至相似度Bnm中大於預設相似度數量確定匹配關聯詞的數量。

具體地,在本申請實施例中,通過計算模塊計算關聯詞Ai與預設關鍵詞Cj的相似度Bij,並通過獲取模塊獲取相似度B11至相似度Bnm中大於預設相似度的數量,進而通過確定模塊來確定匹配關聯詞的數量。其中,用戶可根據實際需要選取預設相似度的數值。

假設,關聯詞的數量n的值取3,預設關鍵詞的數量m的值取2,則計算出的關聯詞A1與預設關鍵詞C1至C2的相似度Bij分別為B11和B12;計算出的關聯詞A2與預設關鍵詞C1至C2的相似度Bij分別為B21和B22;計算出的關聯詞A3與預設關鍵詞C1至C2的相似度Bij分別為B31和B32。

判斷B11和B12中大於預設相似度的數量a,B21和B22中大於預設相似度的數量b,以及B31和B32中大於預設相似度的數量c,進而根據判斷出的a,b和c的值確定匹配關聯詞的數量。

可選地,獲取模塊包括:判斷子模塊,用於判斷獲取到的相似度B11至相似度B1m中大於預設相似度的數量是否大於或者等於1;增加子模塊,用於在判斷出獲取到的 相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1情況下,預設參數的數量由初始值開始累計增加預設數量,直至判斷獲取到的相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1;第一確定子模塊,用於確定在判斷出相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1後的預設參數的取值作為匹配關聯詞的數量。

具體地,在本申請實施例中,計算關聯詞A1與預設關鍵詞Cj的相似度Bij,得到多個相似度B11至相似度B1m,通過判斷子模塊判斷獲取到的相似度B11至相似度B1m中大於預設相似度的數量是否大於或者等於1。若判斷出得到的多個相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1,則確定該關聯詞A1為與預設關鍵詞匹配的匹配關聯詞,此時,通過增加子模塊將預設參數由初始值開始累計增加預設數量。例如,預設參數的初始值為0,當判斷出計算得到的多個相似度B11至相似度B1m中大於預設相似度的數量大於或者等於1的情況下,預設參數進行加1運算,得到加1運算後的預設參數,預設參數即為1。

繼續計算關聯詞A2與預設關鍵詞Cj的相似度Bij,得到多個相似度B21至相似度B2m,若計算得到的多個相似度B21至相似度B2m中大於預設相似度的數量大於或者等於1,則確定該關聯詞A2為與預設關鍵詞匹配的匹配關聯詞,此時,預設參數在1的基礎上繼續累計增加1,得到預設參數的數值為2。若計算得到的多個相似度B21至相似度B2m中大於預設相似度的數量等於0,則表明該關聯詞A2並非是預設關鍵詞的匹配關聯詞,預設參數不進行任何操作。

同樣地,對關聯詞A3至An分別進行上述操作,直到判斷最後一個關聯詞An與預設關鍵詞Cj的相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1,並得到判斷出相似度Bn1至相似度Bnm中大於預設相似度的數量是否大於或者等於1後的預設參數的取值,通過第一確定子模塊確定該預設參數的數值即為匹配關聯詞的數量。

在對爬取到的多個網絡文本進行處理,得到多個關聯詞,並將多個關聯詞與預設關鍵詞進行匹配得到匹配關聯詞和匹配關聯詞的數量之後,計算匹配關鍵詞的數量與預設關鍵詞的數量的目標比值,並根據計算出的比值確定該待檢測關鍵詞的推廣程度。其中,若計算出的目標比值越大,則表明該待檢測關鍵詞的推廣程度越大,並且還表明該待檢測關鍵詞在網絡中的輿情與自身品牌的定位一致。

可選地,處理單元包括:分詞模塊,用於基於文本語義對多個網絡文本進行分詞,得到多個分詞詞組,其中,不同的分詞詞組中所包含的網絡文本的文本語義不同;判斷模塊,用於依次判斷每個分詞詞組中的網絡文本是否包含目標詞彙;刪除模塊,用 於刪除目標分詞詞組中的目標詞彙,得到多個關聯詞,其中,目標分詞詞組為判斷出的網絡文本包含目標詞彙的分詞詞組。

具體地,通過爬蟲系統獲取到的多個網絡文本包含大量的冗餘成分,因此,首先通過分詞模塊按照中文語義對多個網絡文本進行分詞,得到聚合的多個分詞詞組。其中,在分詞的過程中,若一個分詞詞組中包含相同的網絡文本,則將相同的網絡文本合併得到一個網絡文本。

多得到的聚合的分詞詞組進行進一步提煉,提煉出高度聚合的待檢測關鍵詞的關聯詞彙,即多個關聯詞。其中,通過刪除模塊刪除目標分詞詞組中網絡文本包含的目標詞彙,得到高度聚合的多個關聯詞。目標分詞組為系統判斷出的網絡文本包含目標詞彙的分詞詞組。在本申請實施例中,目標詞彙為日常用語和通用語氣詞等日常生活中較為常見的詞彙,例如,「他(她)們都說」、「大家的評價」和「非常好」等等通用詞彙。

可選地,判斷模塊包括:對比子模塊,用於將每個分詞詞組中的網絡文本與目標詞庫進行對比,其中,目標詞庫為用於存儲目標詞彙的詞庫;第二確定子模塊,用於當對比出分詞詞組的網絡文本中包含與目標詞彙相同的詞彙時,確定在分詞詞組中的網絡文本中包含目標詞彙。

具體地,用戶可預先將包含目標詞彙的詞庫存儲於資料庫中,然後通過對比子模塊分別將每個分詞詞組中的網絡文本與目標詞庫進行對比。若對比出分詞詞組中的某一網絡文本包含與目標詞彙相同的詞彙時,則通過第二確定子模塊確定該分詞詞組中的網絡文本中包含目標詞彙。其中,用戶可對目標詞庫中的目標詞彙進行更新,以便提煉出聚合程度較高的關聯詞。

需要說明的是,在本申請實施例中,對爬取到的多個網絡文本進行處理的方法並不限於本申請中所描述的方法,還可以採用其他的方法來對多個網絡文本進行處理,得到高度聚合的關聯詞。

所述檢測關鍵詞推廣程度的裝置包括處理器和存儲器,上述爬取單元、處理單元、匹配單元和計算單元等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。

處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來自動檢測待檢測關鍵詞推廣程度,從而實現了無需人工分析,通過自動匹配分析即可獲取待檢測關鍵詞的推廣程度的技術效果,進而解決了現有技術中無法自動對待檢測關鍵詞的推廣程度進行評估的技術問題。

存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。

本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:爬取包括待檢測關鍵詞的多個網絡文本;對爬取到的多個網絡文本進行處理,得到多個關聯詞;將每個關聯詞與預設關鍵詞進行匹配,得到預設關鍵詞的匹配關聯詞和匹配關聯詞的數量,其中,匹配關聯詞為多個關聯詞中的詞,預設關鍵詞為與待檢測關鍵詞相關聯的關鍵詞;計算匹配關聯詞的數量和預設關鍵詞數量的目標比值,其中,目標比值用於表徵待檢測關鍵詞的推廣程度。

上述本申請實施例序號僅僅為了描述,不代表實施例的優劣。

在本申請的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。

在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。

所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、伺服器或者網絡設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程序代碼的介質。

以上所述僅是本申請的優選實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護範圍。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀