一種熱搜詞獲取方法及系統與流程
2023-11-11 17:48:42 1

本發明涉及,具體涉及一種熱搜詞獲取方法及系統。
背景技術:
隨著網際網路的迅猛發展,每天存在超過40億次的搜索請求,搜尋引擎已成為人們主動獲取所需信息的主要通道,越來越多的人們願意通過搜索來表達個人對輿情事件的關注點和興趣點。搜索詞的海量數據代表了中國網民最真實、最客觀的精神需求和信息尋求的行為特徵,搜索量的高低則反映了民眾對該關鍵詞所代表的事件的關注程度。網民的搜索各不相同,其中,不乏含有敏感信息,因而通過搜索詞的檢測可以知曉網民的關注點的同時找出對社會公共安全存在潛在威脅的因素,為正確引導搜索導向提供重要支持。
目前關於熱搜詞的檢測大都從詞頻和增長率上來分析,還沒有體現輿情相關度,不可避免會將大量誤搜、不具有實際含義的搜索詞排在前面,對實際分析搜索詞的熱度存在一定的幹擾,導致熱搜詞的準確性較低。
技術實現要素:
針對現有技術中的缺陷,本發明提供了一種熱搜詞獲取方法及系統,具有熱搜詞準確性高的優點。
本發明提出了一種熱搜詞獲取方法,包括:
獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相 關度從搜索詞中獲取熱搜詞。
可選的,所述獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據的步驟具體包括:
根據資料庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;
根據資料庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
可選的,在根據所述第一詞頻數據獲取搜索詞的輿情相關度的步驟之前,該方法還包括:
根據所述第一詞頻數據從搜索詞中篩選出詞頻大於預設閾值的搜索詞;
相應地,所述根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度的步驟具體包括:
根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,在根據所述第一詞頻數據獲取搜索詞的輿情相關度的步驟之前,該方法還包括:
檢測搜索詞中是否存在多個子搜索詞,若是,則對搜索詞進行分詞預處理,獲取多個子搜索詞;
相應地,所述根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度的步驟具體包括:
根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
根據所述第二詞頻數據中與各子搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,在所述根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度獲取熱搜詞的步驟之後,該方法還包括:
對獲取到的熱搜詞進行詞聚類處理獲取多類熱搜詞,並從每一類熱搜詞中篩選出代表詞。
本發明還提出了一種熱搜詞獲取系統,包括:
第一獲取模塊,用於獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
第二獲取模塊,用於根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
第三獲取模塊,用於根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度從搜索詞中獲取熱搜詞。
可選的,所述第一獲取模塊,具體用於根據資料庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;根據資料庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
可選的,該系統還包括:第一篩選模塊;
所述第一篩選模塊,用於在根據所述第一詞頻數據獲取搜索詞的輿情相關度之前,根據所述第一詞頻數據從搜索詞中篩選出詞頻大於預設閾值的搜索詞;
相應地,所述第二獲取模塊,還用於根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,該系統還包括:檢測模塊;
所述檢測模塊,用於在根據所述第一詞頻數據獲取搜索詞的輿情相關度之前,檢測搜索詞中是否存在多個子搜索詞,若是,則對搜索詞進行分詞預處理,獲取多個子搜索詞;
相應地,所述第二獲取模塊,還用於根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;根據所述第二詞頻數據中與各子搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
可選的,該系統還包括:第二篩選模塊;
所述第二篩選模塊,用於在所述根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度獲取熱搜詞之後,對獲取到的熱搜詞進行詞聚類處理獲取多類熱搜詞,並從每一類熱搜詞中篩選出代表詞
由上述技術方案可知,本發明提出的熱搜詞獲取方法基於輿情相關度對搜索詞和熱詞進行檢測,獲取熱搜詞,與現有技術相比,具有提高熱搜詞準確性的作用。
附圖說明
通過參考附圖會更加清楚的理解本發明的特徵和優點,附圖是示意性的而不應理解為對本發明進行任何限制,在附圖中:
圖1示出了一實施例提出的一種熱搜詞獲取方法的流程示意圖;
圖2示出了另一實施例提出的一種熱搜詞獲取方法的流程示意圖;
圖3示出了另一實施例提出的一種熱搜詞獲取方法的流程示意圖;
圖4示出了一實施例提出的一種熱搜詞獲取系統的流程示意圖;
圖5示出了另一實施例提出的一種熱搜詞獲取系統的流程示意圖。
具體實施方式
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明的一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
圖1為一實施例提出的一種熱搜詞獲取方法的流程示意圖,參照圖1,該熱搜詞獲取方法包括:
110、獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
需要說明的是,第一詞頻數據是基於搜索詞的統計獲取到的,第二次詞頻數據是基於新聞語料的熱詞統計獲取到的,例如,通過頁面抓取,對抓取到的新聞頁面進行聚類,形成新聞簇,從新聞簇的新聞頁面中提取熱詞及熱詞的時間,對熱詞和熱詞的時間進行統計並存儲,生成詞頻數據;
可理解的是,搜索詞的作用是反應當前時間段內網民的關注點和興趣點;熱詞的作用是反應當前的輿情內容。
120、根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
需要說明的是,本發明是基於輿情相關度獲取熱搜詞,與輿情相關度相關的因素包括多種;
可理解的是,詞頻用於評估一個詞在一個領域中的重要程度,由此本發明基於詞頻數據作為考慮輿情相關度的核心因素。
130、根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度從搜索詞中獲取熱搜詞。
需要說明的是,本發明基於輿情相關度對搜索詞和熱詞進行檢測,獲取熱搜詞,與現有技術相比,具有提高熱搜詞準確性的作用。
本實施例中,步驟110具體包括:
根據資料庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;
根據資料庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
可理解的是,資料庫通過累積計算的方式,獲取預設時間段內非停用詞、預設詞性的搜索詞以及實體詞出現的頻數,並基於頻數來建立詞頻數據。
為了進一步提高獲取到的熱搜詞準確度,本實施例中,在步驟120之前,該方法還包括:
檢測搜索詞中是否存在多個子搜索詞,若是,則對搜索詞進行分詞預處理,獲取多個子搜索詞;
需要說明的是,搜索詞可能以多個詞的形式出現,因此本發明通過單獨計算每個詞的輿情相關度,並基於搜索詞中每個詞的輿情相關度獲取該搜索詞的輿情相關度,由此達到提高熱搜詞準確度的目的。
本實施例中,步驟120具體包括:
根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
根據所述第二詞頻數據中與各子搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度;
需要說明的是,本發明分別對搜索詞的各子搜索詞進行計算以獲取該搜索詞的第二輿情相關度,以達到提高熱搜詞準確度的目的。
在一可行實施例中,在步驟130之後,本發明還包括:
對獲取到的熱搜詞進行詞聚類處理獲取多類熱搜詞,並從每一類熱搜詞中篩選出代表詞;
需要說明的是,本發明從每一類熱搜詞中篩選出一個代表詞,以將代表性的熱搜詞排在前面,降低誤搜、不具有實際含義的搜索詞對熱搜詞的影響。
圖2示出了另一實施例提出的一種熱搜詞獲取方法的流程示意圖,參照圖2,本發明包括:
210、獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
需要說明的是,步驟210與步驟110相似,此處不再進行贅述。
220、根據所述第一詞頻數據從搜索詞中篩選出詞頻大於預設閾值的搜索詞;
需要說明的是,本發明在對各搜索詞進行計算之前,需要從中篩選出詞頻大於一定閾值的搜索詞,以縮小搜索詞的範圍,降低計算量,提高獲取熱搜詞的效率;
230、根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;
240、根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度;
可理解的是,預建立的詞頻數據中存有各搜索詞、熱詞出現的頻數,並基於頻數計算獲取各搜索詞的輿情相關度,在一定條件下,頻數越高,輿情相關度越高;
其中,第一輿情相關度是基於搜索詞本身的頻數獲取的,第二相關度與步驟120中的與所述搜索詞對應的熱詞的輿情相關度相似,其是基於熱詞的頻數獲取的;
250、根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度從搜索詞中獲取熱搜詞;
需要說明的是,步驟250與步驟130相似,此處不再進行贅述。
圖3為另一實施例提出的一種熱搜詞獲取方法的流程示意圖,下 面參照圖3對本發明的原理進行詳細說明:
本發明的步驟包括:搜索詞的詞頻統計、基於新聞語料的熱詞統計、搜索詞的輿情相關度計算及排序、篩選輿情相關詞。
搜索詞統計:通過累積當前時間段內的非停用詞及特定詞性的頻數,來反映當前時間段內網民的關注點和興趣點。
基於新聞語料的熱詞統計:通過累積當前時間段內所出現的新聞中的高頻的實體詞,來反映當前的輿情內容。為搜索詞的輿情相關度計算提供支持。
利用word2vec對新聞語料進行訓練得到各個詞的向量表示。
搜索詞的輿情相關度計算及排序:首先提取詞頻大於一定閾值的搜索詞作為待檢測的對象;其次對搜索詞進行分詞預處理,該操作是為了將以多個詞出現的搜索內容進行切分,通過分別計算單個詞的輿情相關度並進行相加計算得到該搜索內容的輿情相關度。其中在分詞時,考慮到詞性粘連,即將以多個名詞或者簡稱出現的詞進行拼接,有助於詞的語義表示;第三,在新聞語料中獲取各切分後的詞的頻數,對屬於一個搜索詞的各詞進行頻數相加;第四,分別根據頻數對原搜索詞及輿情相關度計算後的搜索詞進行排序,將排序的順序數除以總的詞數作為得分進行相加後再次排序,即得到按照輿情相關度進行排序後的熱搜詞。
基於密度的詞聚類:輿情相關詞計算所得到的結果中多個詞之間相同或相似,或描述的是同一個事件,通過詞聚類的方式可獲取每個類的代表詞,去掉重複意義的多餘詞。
上述方法包括如下步驟:
(1)、統計搜索詞的詞頻,通過累積一段時間內的非停用詞、特定詞性的搜索詞,獲取網民大致的搜索對象。
(2)、統計新聞語料的熱詞詞頻:分詞考慮到歧義消解、實體名詞識別、詞性標註等,去除停用詞,統計特定詞性的詞。從新聞中 獲取輿情相關詞作為背景語料。
(3)利用word2vec對新聞語料進行訓練,得到每個詞的詞向量表示。
(4)對搜索詞排序,以排序的順序數除以詞的總數作為得分
(5)對搜索詞進行分詞,並在新聞語料中對一個搜索詞對應的
(6)各詞的頻數求和並排序,以排序的順序數除以詞的總數作
為得分。
將(4)和(5)中相同詞的得分求和並排序即得到輿情相關熱搜詞。
(7)對輿情相關詞進行詞聚類,篩選出輿情得分高的詞作為每一類的代表詞。聚類方式可選用基於密度的詞聚類,每個詞的表示來源於利用word2vec對新聞語料訓練出的詞向量。
對於方法實施方式,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施方式並不受所描述的動作順序的限制,因為依據本發明實施方式,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施方式均屬於優選實施方式,所涉及的動作並不一定是本發明實施方式所必須的。
圖4為一實施例提出的一種熱搜詞獲取系統的流程示意圖,參照圖4,該熱搜詞獲取系統,包括:
第一獲取模塊410,用於獲取預設時間段內搜索詞的第一詞頻數據和熱詞的第二詞頻數據;
第二獲取模塊420,用於根據所述第一詞頻數據獲取搜索詞的輿情相關度,根據所述第二詞頻數據獲取與所述搜索詞對應的熱詞的輿情相關度;
第三獲取模塊430,用於根據搜索詞的輿情相關度和所述與搜索詞對應的熱詞的輿情相關度從搜索詞中獲取熱搜詞。
本發明基於輿情相關度對搜索詞和熱詞進行檢測,獲取熱搜詞,與現有技術相比,具有提高熱搜詞準確性的作用。
本實施例中,所述第一獲取模塊110,具體用於根據資料庫中存有的預設時間段內非停用詞、預設詞性的搜索詞的出現頻數獲取第一詞頻數據;根據資料庫中存有的預設時間段內實體詞的出現頻數獲取第二詞頻數據。
圖5為另一實施例提出的一種熱搜詞獲取系統的流程示意圖,參照圖5,該系統包括第一獲取模塊510、第一篩選模塊520、檢測模塊530、第二獲取模塊540、第三獲取模塊550、第二篩選模塊560;
其中,第一獲取模塊510與第一獲取模塊410相似,第二獲取模塊540與第二獲取模塊420相似,第三獲取模塊550與第三獲取模塊430相似,此處不再進行贅述。
本實施例中,第一篩選模塊520,用於在根據所述第一詞頻數據獲取搜索詞的輿情相關度之前,根據所述第一詞頻數據從搜索詞中篩選出詞頻大於預設閾值的搜索詞;
與第二獲取模塊410不同的是,本實施例的第二獲取模塊540,還用於根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;根據所述第二詞頻數據中與搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
本實施例中,檢測模塊530用於在根據所述第一詞頻數據獲取搜索詞的輿情相關度之前,檢測搜索詞中是否存在多個子搜索詞,若是,則對搜索詞進行分詞預處理,獲取多個子搜索詞;
與第二獲取模塊420不同的是,本實施例中的第二獲取模塊540,還用於根據所述第一詞頻數據中搜索詞的出現頻數,獲取搜索詞的第一輿情相關度;根據所述第二詞頻數據中與各子搜索詞對應的熱詞的出現頻數,獲取搜索詞的第二輿情相關度。
本實施例中,第二篩選模塊560用於在所述根據搜索詞的輿情相 關度和所述與搜索詞對應的熱詞的輿情相關度獲取熱搜詞之後,對獲取到的熱搜詞進行詞聚類處理獲取多類熱搜詞,並從每一類熱搜詞中篩選出代表詞。
對於裝置實施方式而言,由於其與方法實施方式基本相似,所以描述的比較簡單,相關之處參見方法實施方式的部分說明即可。
應當注意的是,在本發明的裝置的各個部件中,根據其要實現的功能而對其中的部件進行了邏輯劃分,但是,本發明不受限於此,可以根據需要對各個部件進行重新劃分或者組合。
本發明的各個部件實施方式可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模塊實現,或者以它們的組合實現。本裝置中,pc通過實現網際網路對設備或者裝置遠程控制,精準的控制設備或者裝置每個操作的步驟。本發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程序(例如,電腦程式和電腦程式產品)。這樣實現本發明的程序可以存儲在計算機可讀介質上,並且程序產生的文件或文檔具有可統計性,產生數據報告和cpk報告等,能對功放進行批量測試並統計。應該注意的是上述實施方式對本發明進行說明而不是對本發明進行限制,並且本領域技術人員在不脫離所附權利要求的範圍的情況下可設計出替換實施方式。在權利要求中,不應將位於括號之間的任何參考符號構造成對權利要求的限制。單詞「包含」不排除存在未列在權利要求中的元件或步驟。位於元件之前的單詞「一」或「一個」不排除存在多個這樣的元件。本發明可以藉助於包括有若干不同元件的硬體以及藉助於適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬體項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可以在不脫離本發明的精神和範圍的情況下做出各種修改和變型,這樣 的修改和變型均落入由所附權利要求所限定的範圍之內。