關聯詞語集合的處理方法及裝置與流程
2024-02-18 17:34:15 1

本申請涉及網際網路領域,具體而言,涉及一種關聯詞語集合的處理方法及裝置。
背景技術:
在企業發布產品、推出服務時,或政府部門頒布某項政策,以及發生某一引起社會關注的即時事件時,網際網路上勢必會出現一些網絡媒體報導的相關的新聞等內容,這些網絡新聞將會引起網民的關注和探討。在針對某一分析對象(如:時事、產品、人物、政策等)的網絡輿情內容(即與對象相關的網絡文本)的搜集過程中,若採用網絡爬蟲爬取與分析對象有關的網絡文本的方式,來收集信息,由於在爬取時並不對內容是否與分析對象有關加以區分,則在爬取得到網絡文本之後,需要對其進行篩選,以過濾出和待分析對象相關的內容。
一般在篩選和過濾網絡文本的過程中,通過設定某些判斷條件來判斷一段網絡文本是否為待分析對象的相關內容,將與待分析對象相關的內容的集合作為「詞包」,將「詞包」中的內容來代替分析對象,來對網絡文本進程篩選與過濾,這一過程也可以稱之為詞包積累。
現有的詞包積累的基本方法為人工聯想手動輸入,多採用以下詞彙的組合方法:以待分析對象名稱作為詞包;以待分析對象名稱和同義詞的組合作為詞包;以及以待分析對象名稱和競品詞的組合作為詞包。可以看出現有詞包積累方法的缺點在於:詞彙量偏少;詞彙與分析對象之間的關係是否緊密無法量化衡量;人工參與詞彙積累所需時間較長,效率偏低;以及可擴展性差。
針對上述現有的詞包積累的方法詞彙量偏少的問題,目前尚未提出有效的解決方案。
技術實現要素:
本申請實施例提供了一種關聯詞語集合的處理方法及裝置,以至少解決現有的詞包積累的方法詞彙量偏少的技術問題。
根據本申請實施例的一個方面,提供了一種關聯詞語集合的處理方法,該處理方 法包括:基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本;對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙的關聯指標數據和/或各個文本詞彙的詞性信息,關聯指標數據用於指示各個文本詞彙與關聯詞語的關聯度;按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙;使用篩選出的關聯詞彙更新關聯詞語集合。
進一步地,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息包括:在對網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典;按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據,和/或提取文本詞典中各個文本詞彙的詞性信息。
進一步地,按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據包括:若預設關聯條件為一個,則獲取各個文本詞彙對應預設關聯條件的關聯性數值,得到各個文本詞彙的關聯指標數據;若預設關聯條件為多個,則獲取每個文本詞彙對應各個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,其中,融合操作包括加權計算、加和計算以及乘除計算中的至少之一。
進一步地,按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據包括:將各個文本詞彙符合預設關聯條件的次數作為各個文本詞彙的關聯指標數據,其中,預設關聯條件包括:各個文本詞彙與關聯詞語在網絡文本的同一語句中同時出現;和/或各個文本詞彙與關聯詞語在網絡文本內以相同詞性出現在網絡文本的語句中的相同位置。
進一步地,按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙包括:將關聯指標數據在預設範圍內的文本詞彙作為篩選出的關聯詞彙;或在多個文本詞彙的關聯指標數據中關聯指標數據排名在前N名的文本詞彙作為篩選出的關聯詞彙;或將詞彙信息為預設詞性的文本詞彙作為篩選出的關聯詞彙。
進一步地,使用篩選出的關聯詞彙更新關聯詞語集合包括:使用篩選出的關聯詞彙替換關聯詞語,以更新關聯詞語集合;或將篩選出的關聯詞彙添加入關聯詞語集合,以更新關聯詞語集合。
根據本申請實施例的另一方面,還提供了一種關聯詞語集合的處理裝置,該處理裝置包括:爬取單元,用於基於待分析對象的關聯詞語集合中的關聯詞語從目標數據 源上爬取網絡文本;處理單元,用於對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙的關聯指標數據和/或各個文本詞彙的詞性信息,關聯指標數據用於指示各個文本詞彙與關聯詞語的關聯度;篩選單元,用於按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙;更新單元,用於使用篩選出的關聯詞彙更新關聯詞語集合。
進一步地,處理單元包括:創建模塊,用於在對網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典;確定模塊,用於按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據,和/或提取文本詞典中各個文本詞彙的詞性信息。
進一步地,確定模塊包括:第一計算子模塊,用於若預設關聯條件為一個,則獲取各個文本詞彙對應預設關聯條件的關聯性數值,得到各個文本詞彙的關聯指標數據;第二計算子模塊,用於若預設關聯條件為多個,則獲取每個文本詞彙對應各個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,其中,融合操作包括加權計算、加和計算以及乘除計算中的至少之一。
進一步地,確定模塊包括:確定子模塊,用於將各個文本詞彙符合預設關聯條件的次數作為各個文本詞彙的關聯指標數據,其中,預設關聯條件包括:各個文本詞彙與關聯詞語在網絡文本的同一語句中同時出現;和/或各個文本詞彙與關聯詞語在網絡文本內以相同詞性出現在網絡文本的語句中的相同位置。
在本申請實施例中,在網絡爬蟲基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本之後,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,並且按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,在篩選得到篩選出的關聯詞彙之後,使用篩選出的關聯詞彙更新關聯詞語集合。通過上述實施例,可以對無差別爬取到的網絡文本進行分詞和篩選,得到篩選出的關聯詞彙以更新關聯詞語集合,再重複進行分詞和篩選,不斷擴充和更新關聯詞語集合,從而解決了現有的詞包積累的方法詞彙量偏少的問題,達到完善待分析對象的關聯詞語集合的效果。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖 中:
圖1是根據本申請實施例的一種關聯詞語集合的處理方法的流程圖;
圖2是根據本申請實施例的另一種可選的關聯詞語集合的處理方法的流程圖;以及
圖3是根據本申請實施例的一種關聯詞語集合的處理裝置的示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。
需要說明的是,本申請的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本申請的實施例能夠以除了在這裡圖示或描述的那些以外的順序實施。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
名詞解釋:
分析對象:以網絡文本內容為基礎,欲分析其輿情內容的對象。可能是時事、產品、人物、政策等。
語料庫:爬蟲爬取的網絡文本。
詞典詞彙:對語料庫內的文本進行分詞後,以單個詞彙及詞彙間關係形式存儲的詞彙庫。
關聯性:指多個對象(詞彙)之間的緊密程度。
篩選邏輯:用以篩選詞彙的條件算法。
詞包:用以替代分析對象,作為對語料庫內的網絡文本進行篩選,將其中與分析對象有關係的內容過濾出來的詞彙組成的集合。
實施例1
根據本申請實施例,提供了一種關聯詞語集合的處理方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
圖1是根據本申請實施例的一種關聯詞語集合的處理方法的流程圖,如圖1所示,該處理方法包括如下步驟:
步驟S102,基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本。
步驟S104,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙的關聯指標數據和/或各個文本詞彙的詞性信息,關聯指標數據用於指示各個文本詞彙與關聯詞語的關聯度。
步驟S106,按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙。
步驟S108,使用篩選出的關聯詞彙更新關聯詞語集合。
採用本申請實施例,在網絡爬蟲基於待分析對象的關聯詞語集合中的當前的關聯詞語從目標數據源上爬取網絡文本之後,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,並且按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,在篩選得到篩選出的關聯詞彙之後,使用篩選出的關聯詞彙更新關聯詞語集合。
通過上述實施例,可以對無差別爬取到的網絡文本進行分詞和篩選,得到篩選出的關聯詞彙以更新關聯詞語集合,再重複進行分詞和篩選,不斷擴充和更新關聯詞語集合,從而解決了現有的詞包積累的方法詞彙量偏少的問題,達到完善待分析對象的關聯詞語集合的效果。
上述實施例中,可以通過以無差別爬取的大量網絡文本為基礎,建立初始語料庫。對該初始語料庫內網絡文本進行分詞後,以一定方法測算分詞後的詞典詞彙(即上述的文本詞彙)與分析對象名稱(即上述的關聯詞語)之間的關聯性,並通過合理的詞彙篩選邏輯,篩選出符合條件的詞典詞彙(即上述符合預設篩選條件的文本詞彙,也即上述的關聯詞彙)組成詞包。該詞包可通過重複以上步驟,不斷擴充,完善針對分析對象的詞包內容(即上述的關聯詞語集合)。
具體地,無差別爬取可以指不設置特定關鍵詞,將一段時間內網站更新的內容全部爬下來。比如每天爬一次,即將網站上前一天新增的文章、評論等內容全部爬取下來,對於已經爬過的內容,不再重複爬取。
可選地,在基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本的之前,可以先確定分析對象名稱(即上述待分析對象的關聯詞語集合中的關聯詞語),具體地,確定要分析的對象,可以將其名稱作為最初詞包內容。
在一個可選的實施例中,在爬取得到網絡文本之後,可以建立初始語料庫。針對確定的待分析對象(即上述的待分析對象的關聯詞語集合中的關聯詞語),從其目標數據源(例如,網站、論壇、貼吧等)上無差別爬取一定量的文本內容(即上述的網絡文本),作為針對分析對象的初始語料庫。初始語料庫所含文本量越大,越有利於提高下述關聯性計算的準確性。
可選地,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息包括:在對網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典;按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據,和/或提取文本詞典中各個文本詞彙的詞性信息。
在上述實施例中,在對從目標數據源上爬取到的網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典,並按照預設關聯條件確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據,或者提取文本詞典中各個文本詞彙的詞性信息,或者在按照預設關聯條件確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據的同時,提取文本詞典中各個文本詞彙的詞性信息。然後按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙,再使用篩選出的關聯詞彙更新關聯詞語集合。
通過上述實施例,可以通過分詞後創建文本詞典來記錄文本詞彙的詞彙信息,從而方便了對文本詞彙的詞彙信息的提取,實現了快速準確地獲取信息和進行詞包積累的效果。
具體地,可以將爬取到的網絡文本作為初始語料庫,然後對該初始語料庫內的文本內容(即網絡文本)進行分詞,構建包含文本(即網絡文本)內所有詞彙(即文本詞彙)的詞典(即文本詞典)。
可選地,按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據包括:若預設關聯條件為一個,則獲取各個文本詞彙對應預設關聯條件的關聯性數值,得到各個文本詞彙的關聯指標數據;若預設關聯條件為多個,則獲取每個文本詞彙對應各 個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,其中,融合操作包括加權計算、加和計算以及乘除計算中的至少之一。
在上述實施例中,在對從目標數據源上爬取到的網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典,可以按照預設關聯條件確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據,並且,若預設關聯條件為一個,則通過預設關聯條件計算各個文本詞彙的關聯性數值,得到各個文本詞彙與當前的關聯詞語的關聯指標數據;若預設關聯條件為多個,則獲取每個文本詞彙對應各個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,然後按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙,再使用篩選出的關聯詞彙更新關聯詞語集合。
通過上述實施例,可以採用不同權重的預設關聯條件來獲取各個文本詞彙與當前的關聯詞語的關聯指標數據,從而可以達到靈活地獲得關聯指標數據的效果。
具體地,在上述實施例中融合操作可以包括加權計算、加和計算以及乘除計算中的至少之一。例如,在融合操作包括加權計算時,即若預設關聯條件為多個,則可以獲取預設關聯條件的條件權重,通過各個預設關聯條件計算各個文本詞彙的關聯性數值,對各個條件權重和對應的關聯性數值作加權計算,得到各個文本詞彙的關聯指標數據。
可選地,按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據可以包括:將各個文本詞彙符合預設關聯條件的次數作為各個文本詞彙的關聯指標數據,其中,預設關聯條件包括:各個文本詞彙與關聯詞語在網絡文本的同一語句中同時出現;和/或各個文本詞彙與關聯詞語在網絡文本內以相同詞性出現在網絡文本的語句中的相同位置。
在上述實施例中,確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據所參照的預設關聯條件,可以包括:各個文本詞彙與當前的關聯詞語在網絡文本的同一語句中同時出現的次數;或者各個文本詞彙與當前的關聯詞語在網絡文本內以相同詞性出現在在網絡文本的語句中相同位置的次數;或者上述兩個預設關聯條件的組合,即為各個文本詞彙與當前的關聯詞語在網絡文本的同一語句中同時出現的次數,和各個文本詞彙與當前的關聯詞語在網絡文本內以相同詞性出現在在網絡文本的語句中相同位置的次數。通過上述實施例,可以通過上述預設關聯條件有效且準確的確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據。
上述實施例中的相同位置具體可以為:在網絡文本的各個語句中與相同詞語的距離相同的位置,如文本詞彙(如蛀牙)在語句中與相同的當前關聯詞(如可口可樂)的距離在五個字之內的位置,則可以把不同語句中的文本詞彙(如蛀牙)的位置視為相同的位置;或者,上述實施例中的相同位置具體還可以為:在網絡文本的各個語句中的相同詞語範圍內的位置,如在不同語句中,相同的文本詞彙均出現在語句的前五個詞內,則可以將該文本詞彙看作具有相同的位置。
具體地,在對詞典詞彙(即上述的各個文本詞彙)與分析對象名稱(即上述關聯詞語)關聯性(即上述關聯指標數據)計算時,可以通過預設關聯條件來計算文本詞典內所含文本詞彙與分析對象名稱(即上述關聯詞語)之間的關聯性(即上述關聯指標數據),預設關聯條件可以包含但不限於以下預設關聯條件:
預設關聯條件1:詞典詞彙(即上述的各個文本詞彙)與分析對象名稱(即上述關聯詞語)在網絡文本的一句話(或一段話、一篇文章等)內同時出現。
例如,關聯詞語為可口可樂,詞典中的文本詞彙包括雪碧,則該預設關聯條件為:雪碧與可口可樂在同一句話中同時出現,統計雪碧與可口可樂在同一句話中同時出現的情況的次數,將該次數作為關聯指標數據。若在網絡文本中的語句中,雪碧與可口可樂在同一句話的同時出現的情況出現了5次,則雪碧與可口可樂的關聯指標數據為5。
預設關聯條件2:詞典詞彙(即上述的各個文本詞彙)與分析對象名稱(即上述關聯詞語)在網絡文本內以同一詞性出現在句子同一位置的情況。
例如,若關聯詞語為可口可樂,詞典中的文本詞彙包括雪碧,在網絡文本的第一個語句中出現了「可口可樂好」,第二語句中出現了「雪碧不好」,則雪碧與可口可樂在網絡文本中以同一詞性(如名詞)出現在句子的同一位置(如句子的首部),此時,統計所有符合上述情況的詞語(如雪碧)的次數。
計算關聯指標數據的預設關聯條件可以選取以上一個預設關聯條件,或以多個預設關聯條件進行組合,設定不同權重計算出最終關聯性數值(即上述關聯指標數據),其中,關聯性數值與相關性的關係為:關聯性數值越高則文本詞彙與關聯詞語的關聯性越大。
可選地,按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙包括:將關聯指標數據在預設範圍內的文本詞彙作為篩選出的關聯詞彙;或在多個文本詞彙的關聯指標數據中關聯指標數據排名在前N名的文本詞彙作為篩選出的關聯詞彙;或將詞彙信息為預設詞性的文本詞彙 作為篩選出的關聯詞彙。
在上述實施例中,在網絡爬蟲基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本之後,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,按照預設篩選條件對多個文本詞彙的關聯指標數據進行篩選,或對多個文本詞彙的詞性信息進行篩選,或對多個文本詞彙的關聯指標數據和多個文本詞彙的詞性信息進行篩選,其中,篩選可以通過將關聯指標數據在預設範圍內的文本詞彙作為篩選出的關聯詞彙來進行,或將在多個文本詞彙的關聯指標數據中關聯指標數據排名在前N名的文本詞彙作為篩選出的關聯詞彙,或將詞彙信息為預設詞性的文本詞彙作為篩選出的關聯詞彙,然後使用篩選出的關聯詞彙更新關聯詞語集合。通過上述實施例,可以設置不同的預設篩選條件來對關聯詞彙進行篩選,從而可以實現靈活有效的篩選,同時可以滿足客戶不同的篩選需求。
具體地,確定詞包詞彙(即上述關聯詞語集合)的預設篩選條件可以包含但不限於下述條件:
第一個可選的預設篩選條件為:關聯性數值(即上述關聯指標數據)在某一區間內的所有文本詞彙(如關聯指標數據的值大於某閾值,或關聯指標數據的值在兩個預設的數值之間等情況)。
第二個可選的預設篩選條件為:關聯性(即上述關聯指標數據)排名在前N名的所有文本詞彙。
第三個可選的預設篩選條件為:某種指定詞性的文本詞彙。
按照上述的預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,其中,選取的預設篩選條件可以是以上預設篩選條件之一,也可以是多個預設篩選條件並用,並取篩選出的關聯詞彙的交集作為關聯詞語集合。
在一個可選的實施例中,在按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選之前,可以對詞典詞彙(即上述的各個文本詞彙)與分析對象名稱(即上述關聯詞語)的關聯性測算值(即上述的關聯指標數據)進行排序。具體地,將文本詞典內文本詞彙以預設關聯條件獲取得到的關聯性指標(即上述關聯指標數據)從高到低進行排序,作為後續的篩選內容。
可選地,使用篩選出的關聯詞彙更新關聯詞語集合包括:使用篩選出的關聯詞彙替換關聯詞語,以更新關聯詞語集合;或將篩選出的關聯詞彙添加入關聯詞語集合,以更新關聯詞語集合。
具體地,以篩選出的關聯詞彙作為詞包詞彙,建立針對待分析對象的詞包(即上述的關聯詞語集合)。該詞包(即上述的關聯詞語集合)也可用於在下一次循環上述過程時,替代分析對象名稱(即上述的關聯詞語),用以對詞典詞彙(即上述的文本詞彙)計算關聯性,更大程度的擴充分析對象詞包(即上述的關聯詞語集合),且不斷提高關聯性(關聯指標數據)計算的準確性。
在一個可選的實施例中,如圖2所示,關聯詞語集合的處理方法具體可以包括如下步驟:
步驟S202,確定待分析對象的關聯詞語集合中的關聯詞語。
具體地,確定要待分析對象,可以將待分析對象的名稱作為最初詞包內容(即關聯詞語集合中的當前的關聯詞語)。
步驟S203,爬取網絡文本,建立初始語料庫。
具體地,可以基於待分析對象的關聯詞語集合中的當前的關聯詞語從目標數據源上爬取網絡文本,其中,目標數據源可以包括網站、論壇以及貼吧等。
步驟S204,對網絡文本進行分詞,構建文本詞典。
具體地,可以對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙與當前的關聯詞語的關聯指標數據和/或各個文本詞彙的詞性信息,然後構建包含網絡文本內所有文本詞彙的文本詞典。
步驟S205,測算文本詞典中的各個文本詞彙與關聯詞語的關聯指標數據。
具體地,可以按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙。
步驟S206,對文本詞典中的各個文本詞彙的關聯指標數據進行排序。
具體地,可以將文本詞典中的各個文本詞彙的關聯指標數據的測算值按照從高到低的順序排序,以便於後續的篩選過程。
可選地,在對詞典詞彙(即上述的各個文本詞彙)與分析對象名稱(即上述關聯詞語)關聯性(即上述關聯指標數據)計算時,可以通過預設關聯條件來計算文本詞典內所含文本詞彙與分析對象名稱(即上述關聯詞語)之間的關聯性(即上述關聯指標數據),預設關聯條件可以包含但不限於:
與分析對象名稱(即上述關聯詞語)在網絡文本的一句話(或一段話、一篇文章等)內同時出現的次數。
與分析對象名稱(即上述關聯詞語)在網絡文本內以同一詞性出現在句子同一位置的情況次數。
計算關聯指標數據的預設關聯條件可以選取以上一個預設關聯條件,或以多個預設關聯條件進行組合,設定不同權重計算出最終關聯性數值(即上述關聯指標數據),其中,關聯性數值與相關性的關係為:關聯性數值越高則文本詞彙與當前的關聯詞語的關聯性越大。
步驟S207,設定預設篩選條件,對文本詞典中的文本詞彙進行篩選。
具體地,確定詞包詞彙(即上述關聯詞語集合)的預設篩選條件可以包含但不限於下述條件:
第一個可選的預設篩選條件為:關聯性數值(即上述關聯指標數據)在某一區間內的所有文本詞彙(如關聯指標數據的值大於某閾值,或關聯指標數據的值在兩個預設的數值之間等情況)。
第二個可選的預設篩選條件為:關聯性(即上述關聯指標數據)排名在前N名的所有文本詞彙。
第三個可選的預設篩選條件為:某種指定詞性的文本詞彙。
按照上述的預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,其中,選取的預設篩選條件可以是以上預設篩選條件之一,也可以是多個預設篩選條件並用,並取篩選出的關聯詞彙的交集作為關聯詞語集合。
步驟S208,建立關聯詞語集合。
具體地,可以使用篩選出的關聯詞彙更新關聯詞語集合。
與現有的詞包積累方法相比較,本申請上述實施例的採用的詞包積累的方法的優勢在於:關聯詞語集合中的詞彙量增長速度快,詞包積累效率明顯提升;詞包詞彙(即關聯詞彙)與分析對象(即關聯詞語)之間是否真正存在關聯可以量化衡量;詞包詞彙(即關聯詞彙)與分析對象(即關聯詞語)之間的關聯性計算的預設關聯條件可靈活設定,且可以以條件組合的形式進行計算;可以按照關聯指標數據的值排序後再進行篩選,從而可靈活設定其預設篩選條件,且可以以組合預設篩選條件的形式進行篩選;也可通過對上述詞包積累過程進行循環操作,以上一周期的產出的詞包(即關聯詞語集合)代替本次周期的分析對象名稱(關聯詞語),可以反覆迭代進行的詞包積累流程,從而實現不斷擴充詞包內容(即關聯詞語集合的內容),提高詞包內容準確性並擴大其覆蓋面的效果。
實施例2
根據本申請實施例,還提供了一種關聯詞語集合的處理裝置的實施例,如圖3所示,該處理裝置包括:爬取單元10、處理單元30、篩選單元50以及更新單元70。
其中,爬取單元10,用於基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本。
處理單元30,用於對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙的關聯指標數據和/或各個文本詞彙的詞性信息,關聯指標數據用於指示各個文本詞彙與關聯詞語的關聯度。
篩選單元50,用於按照預設篩選條件對多個文本詞彙的關聯指標數據和/或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙。
更新單元70,用於使用篩選出的關聯詞彙更新關聯詞語集合。
可選地,處理單元包括:創建模塊和確定模塊。
其中,創建模塊,用於在對網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典;確定模塊,用於按照預設關聯條件確定文本詞典中各個文本詞彙的關聯指標數據,和/或提取文本詞典中各個文本詞彙的詞性信息。
採用本申請實施例,在網絡爬蟲基於待分析對象的關聯詞語集合中的當前的關聯詞語從目標數據源上爬取網絡文本之後,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,並且按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,在篩選得到篩選出的關聯詞彙之後,使用篩選出的關聯詞彙更新關聯詞語集合。通過上述實施例,可以對無差別爬取到的網絡文本進行分詞和篩選,得到篩選出的關聯詞彙以更新關聯詞語集合,再重複進行分詞和篩選,不斷擴充和更新關聯詞語集合,從而解決了現有的詞包積累的方法詞彙量偏少的問題,達到完善待分析對象的關聯詞語集合的效果。
可選地,確定模塊包括:第一計算子模塊和第二計算子模塊。
其中,第一計算子模塊,用於若預設關聯條件為一個,則獲取各個文本詞彙對應預設關聯條件的關聯性數值,得到各個文本詞彙的關聯指標數據;第二計算子模塊,用於若預設關聯條件為多個,則獲取每個文本詞彙對應各個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,其中,融合操作包括加權計算、加和計算以及乘除計算中的至少之一。
在上述實施例中,在對從目標數據源上爬取到的網絡文本進行分詞得到多個文本詞彙之後,創建多個文本詞彙的文本詞典,可以按照預設關聯條件確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據,並且,若預設關聯條件為一個,則通過預設關聯條件計算各個文本詞彙的關聯性數值,得到各個文本詞彙與當前的關聯詞語的關聯指標數據;若預設關聯條件為多個,則獲取每個文本詞彙對應各個預設關聯條件的關聯性數值,對每個文本詞彙的所有關聯性數值作融合操作,將融和結果作為每個文本詞彙的關聯指標數據,然後按照預設篩選條件對多個文本詞彙的關聯指標數據或多個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙,再使用篩選出的關聯詞彙更新關聯詞語集合。通過上述實施例,可以採用不同權重的預設關聯條件來獲取各個文本詞彙與當前的關聯詞語的關聯指標數據,從而可以達到靈活地獲得關聯指標數據的效果。
可選地,確定模塊可以包括:確定子模塊,用於將各個文本詞彙符合預設關聯條件的次數作為各個文本詞彙的關聯指標數據,其中,預設關聯條件包括:各個文本詞彙與關聯詞語在網絡文本的同一語句中同時出現;和/或各個文本詞彙與關聯詞語在網絡文本內以相同詞性出現在網絡文本的語句中的相同位置。
在上述實施例中,確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據所參照的預設關聯條件,可以包括:各個文本詞彙與當前的關聯詞語在網絡文本的同一語句中同時出現的次數;或者各個文本詞彙與當前的關聯詞語在網絡文本內以相同詞性出現在在網絡文本的語句中相同位置的次數;或者上述兩個預設關聯條件的組合,即為各個文本詞彙與當前的關聯詞語在網絡文本的同一語句中同時出現的次數,和各個文本詞彙與當前的關聯詞語在網絡文本內以相同詞性出現在在網絡文本的語句中相同位置的次數。通過上述實施例,可以通過上述預設關聯條件有效且準確的確定文本詞典中各個文本詞彙與當前的關聯詞語的關聯指標數據。
可選地,篩選單元可以包括:第一篩選模塊、第二篩選模塊以及第三篩選模塊。其中,第一篩選模塊,用於將關聯指標數據在預設範圍內的文本詞彙作為篩選出的關聯詞彙;或第二篩選模塊,用於在多個文本詞彙的關聯指標數據中關聯指標數據排名在前N名的文本詞彙作為篩選出的關聯詞彙;或第三篩選模塊,用於將詞彙信息為預設詞性的文本詞彙作為篩選出的關聯詞彙。
在上述實施例中,在網絡爬蟲基於待分析對象的關聯詞語集合中的當前的關聯詞語從目標數據源上爬取網絡文本之後,對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,按照預設篩選條件對多個文本詞彙的關聯指標數據進行篩選,或對多個文本詞彙的詞性信息進行篩選,或對多個文本詞彙的關聯指標數據和 多個文本詞彙的詞性信息進行篩選,其中,篩選可以通過將關聯指標數據在預設範圍內的文本詞彙作為篩選出的關聯詞彙來進行,或將在多個文本詞彙的關聯指標數據中關聯指標數據排名在前N名的文本詞彙作為篩選出的關聯詞彙,或將詞彙信息為預設詞性的文本詞彙作為篩選出的關聯詞彙,然後使用篩選出的關聯詞彙更新關聯詞語集合。通過上述實施例,可以設置不同的預設篩選條件來對關聯詞彙進行篩選,從而可以實現靈活有效的篩選,同時可以滿足客戶不同的篩選需求。
可選地,更新單元包括:第一更新模塊和第二更新模塊。
第一更新模塊,用於使用篩選出的關聯詞彙替換關聯詞語,以更新關聯詞語集合;或第二更新模塊,用於將篩選出的關聯詞彙添加入關聯詞語集合,以更新關聯詞語集合。
具體地,以篩選出的關聯詞彙作為詞包詞彙,建立針對待分析對象的詞包(即上述的關聯詞語集合)。該詞包(即上述的關聯詞語集合)也可用於在下一次循環上述過程時,替代分析對象名稱(即上述的關聯詞語),用以對詞典詞彙(即上述的文本詞彙)計算關聯性,更大程度的擴充分析對象詞包(即上述的關聯詞語集合),且不斷提高關聯性(關聯指標數據)計算的準確性。
關聯詞語集合的處理裝置包括處理器和存儲器,上述爬取單元10、處理單元30、篩選單元50和更新單元70等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。
處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來對無差別爬取到的網絡文本進行分詞和篩選,得到篩選出的關聯詞彙以更新關聯詞語集合,再重複進行分詞和篩選,不斷擴充和更新關聯詞語集合,從而解決了現有的詞包積累的方法詞彙量偏少的問題,達到完善待分析對象的關聯詞語集合的效果。
存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。
本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:基於待分析對象的關聯詞語集合中的關聯詞語從目標數據源上爬取網絡文本;對網絡文本進行分詞得到多個文本詞彙,並獲取各個文本詞彙的詞彙信息,其中,詞彙信息包括各個文本詞彙與關聯詞語的關聯指標數據和/或各個文本詞彙的詞性信息;按照預設篩選條件對多個文本詞彙的關聯指標數據或多 個文本詞彙的詞性信息進行篩選,得到篩選出的關聯詞彙;使用篩選出的關聯詞彙更新關聯詞語集合。
上述本申請實施例序號僅僅為了描述,不代表實施例的優劣。
在本申請的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、伺服器或者網絡設備等)執行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程序代碼的介質。
以上所述僅是本申請的優選實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護範圍。