一種為文本添加超級連結的方法和裝置與流程
2023-06-09 03:46:11
本發明涉及文本處理技術,特別涉及一種為文本添加超級連結的方法和裝置。
背景技術:
超級連結,是指網際網路中指向某個特定目標的連接,點擊超級連結後,將自動跳轉到指定目標。通過在文本中添加超級連結,可將不同的文本聯繫在一起。如圖1所示,圖1為現有添加了超級連結的文本示意圖。其中的「太和殿」、「中和殿」、「保和殿」等詞即添加了超級連結。在實際應用中,通常將添加了超級連結的詞稱為超鏈詞,用帶下劃線的藍色字體表示。現有技術中,通常採用以下方式來為文本添加超級連結:1)針對待添加超級連結的文本,人工確定對其中的哪些詞添加超級連結;2)預先生成一個超鏈詞列表,針對待添加超級連結的文本,通過與超鏈詞列表進行匹配,為在超鏈詞列表中出現的詞添加超級連結。但是,上述兩種方式在實際應用中均會存在一定的問題:對於方式1),由於需要人工進行操作,因此實現起來很不方便,尤其是當需要對大規模文本添加超級連結時;對於方式2),雖然實現起來比較方便,但只是簡單地為匹配上的詞添加超級連結,可能導致所添加的超級連結與文本的相關性較低。
技術實現要素:
有鑑於此,本發明提供了一種為文本添加超級連結的方法以及一種為文本添加超級連結的裝置,能夠提高所添加的超級連結與文本的相關性,且實現起來簡單方便。為達到上述目的,本發明的技術方案是這樣實現的:一種為文本添加超級連結的方法,包括:預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。一種為文本添加超級連結的裝置,包括:預處理模塊,用於預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;添加模塊,用於針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。可見,採用本發明所述方案,通過統計收集到的文本中的詞與詞之間的共現關係,得到詞與詞之間的相關性,進而根據從待添加超級連結的文本中提取出的各超鏈詞與提取出的各特徵詞的共性頻率等得到提取出的各超鏈詞的最終權重,並為最終權值較大的超鏈詞添加超級連結,從而提高了所添加的超級連結與文本的相關性;而且,採用本發明所述方案後,可自動確定出為哪些詞添加超級連結,無需人工操作,實現起來簡單方便。附圖說明圖1為現有添加了超級連結的文本示意圖。圖2為本發明為文本添加超級連結的方法實施例的流程圖。圖3為本發明為文本添加超級連結的裝置實施例的組成結構示意圖。具體實施方式針對現有技術中存在的問題,本發明中提出一種為文本添加超級連結的方案,能夠提高所添加的超級連結與文本的相關性,且實現起來簡單方便。為使本發明的技術方案更加清楚、明白,以下參照附圖並舉實施例,對本發明所述方案作進一步地詳細說明。圖2為本發明為文本添加超級連結的方法實施例的流程圖。如圖2所示,包括:步驟21:預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率。本步驟中,首先生成一個超鏈詞列表,其中具體包括哪些超鏈詞可根據實際需要而定,該列表可由人工編輯生成,也可由機器通過某種方式自動生成,如何生成不作限制。之後,可從網際網路中收集各種文本,用來生成特徵詞列表以及統計詞與詞之間的共現關係。如何收集文本為現有技術,理論上來說,收集的文本數越多越好,具體數目可根據實際需要而定。上述生成特徵詞列表以及統計詞與詞之間的共現關係的具體過程可包括:1)針對收集到的每個文本,分別對其進行切詞處理;2)將切詞得到的所有不重複詞均作為特徵詞,組成一個特徵詞列表,或者,為減少後續的處理工作量,也可先從切詞得到的所有不重複詞中去除高頻詞、停用詞和低頻詞等,將剩餘詞作為特徵詞,組成一個特徵詞列表;如何進行切詞以及如何區分哪些詞為高頻詞、停用詞和低頻詞均為現有技術;另外,在得到特徵詞列表之後,還需要針對每個特徵詞,分別確定其逆文本頻率(IDF,InverseDocumentFrequency)值,IDF值通過用收集到的所有文本的個數除以出現了該特徵詞的文本個數,再將得到的商取對數得到;3)針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率:針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x|y)=xy共現次數/y出現次數:(1)其中,xy共現次數表示在收集到的所有文本中,同時出現了特徵詞y和超鏈詞x的文本的個數,y出現次數表示在收集到的所有文本中,出現了特徵詞y的文本的個數;或者,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x/y)=H(x,y)/I(x,y)=H(x,y)/(H(x)+H(y)-H(x,y));(2)其中,H表示信息熵,I表示互信息,H和I的具體計算方式均為本領域公知;在實際應用中,可根據實際需要選擇使用以上兩種方式中的一種。步驟22:針對每個待添加超級連結的文本X,分別按照步驟23~26所示過程進行處理。為便於表述,用文本X來代表任意一個需要添加超級連結的文本。步驟23:對文本X進行切詞處理。步驟24:從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值。將切詞結果與步驟21中生成的超鏈詞列表以及特徵詞列表進行匹配,從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞。並且,針對每個提取出的超鏈詞H,分別計算其權值WH:WH=TFH*IDFH;(3)其中,TFH表示超鏈詞H的詞頻(TF,TermFrequency)值,即超鏈詞H在文本X中的出現次數,IDFH表示超鏈詞H的IDF值;針對每個提取出的特徵詞F,分別計算其權值WF:WF=TFF*IDFF;(4)其中,TFF表示特徵詞F的TF值,IDFF表示特徵詞F的IDF值。各IDF值已在步驟21中計算得到。步驟25:根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值。本步驟中,針對每個提取出的超鏈詞H,分別計算其最終權值WH』:其中,n表示提取出的特徵詞的個數。P(H/Fi)值已在步驟21中計算得到。步驟26:按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。K的具體取值可根據實際需要而定。另外,如何為超鏈詞添加超級連結為現有技術。至此,即完成了關於本發明方法實施例的介紹。基於上述介紹,圖3為本發明為文本添加超級連結的裝置實施例的組成結構示意圖。如圖3所示,包括:預處理模塊,用於預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;添加模塊,用於針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。其中,預處理模塊中可具體包括:第一處理單元,用於生成一個超鏈詞列表;第二處理單元,用於收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率。第二處理單元中又可具體包括(為簡化附圖,未圖示):第一處理子單元,用於收集各種文本;第二處理子單元,用於對各文本進行切詞處理,將切詞得到的所有不重複詞均作為特徵詞,組成一個特徵詞列表,或者,從切詞得到的所有不重複詞中去除高頻詞、停用詞和低頻詞,將剩餘詞作為特徵詞,組成一個特徵詞列表;並且,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x|y)=xy共現次數/y出現次數;(1)其中,xy共現次數表示在收集到的所有文本中,同時出現了特徵詞y和超鏈詞x的文本的個數,y出現次數表示在收集到的所有文本中,出現了特徵詞y的文本的個數;或者,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x/y)=H(x,y)/I(x,y);(2)其中,H表示信息熵,I表示互信息。添加模塊中可具體包括:第三處理單元,用於對文本X進行切詞處理;第四處理單元,用於從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;第五處理單元,用於按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。另外,第二處理子單元還可進一步用於,針對每個特徵詞,分別確定其IDF值,IDF值通過用收集到的所有文本的個數除以出現了該特徵詞的文本個數,再將得到的商取對數得到;第四處理單元中又可進一步包括(為簡化附圖,未圖示):第三處理子單元,用於從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞;並針對每個提取出的超鏈詞H,分別計算其權值WH:WH=TFH*IDFH;(3)其中,TFH表示超鏈詞H的TF值,即超鏈詞H在文本X中的出現次數,IDFH表示超鏈詞H的IDF值;針對每個提取出的特徵詞F,分別計算其權值WF:WF=TFF*IDFF;(4)其中,TFF表示特徵詞F的TF值,IDFF表示特徵詞F的IDF值;第四處理子單元,用於針對每個提取出的超鏈詞H,分別計算其最終權值WH』:其中,n表示提取出的特徵詞的個數。圖3所示裝置實施例的具體工作流程請參照圖2所示方法實施例中的相應說明,此處不再贅述。以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。