新四季網

一種為文本添加超級連結的方法和裝置與流程

2023-06-09 03:46:11


本發明涉及文本處理技術,特別涉及一種為文本添加超級連結的方法和裝置。

背景技術:
超級連結,是指網際網路中指向某個特定目標的連接,點擊超級連結後,將自動跳轉到指定目標。通過在文本中添加超級連結,可將不同的文本聯繫在一起。如圖1所示,圖1為現有添加了超級連結的文本示意圖。其中的「太和殿」、「中和殿」、「保和殿」等詞即添加了超級連結。在實際應用中,通常將添加了超級連結的詞稱為超鏈詞,用帶下劃線的藍色字體表示。現有技術中,通常採用以下方式來為文本添加超級連結:1)針對待添加超級連結的文本,人工確定對其中的哪些詞添加超級連結;2)預先生成一個超鏈詞列表,針對待添加超級連結的文本,通過與超鏈詞列表進行匹配,為在超鏈詞列表中出現的詞添加超級連結。但是,上述兩種方式在實際應用中均會存在一定的問題:對於方式1),由於需要人工進行操作,因此實現起來很不方便,尤其是當需要對大規模文本添加超級連結時;對於方式2),雖然實現起來比較方便,但只是簡單地為匹配上的詞添加超級連結,可能導致所添加的超級連結與文本的相關性較低。

技術實現要素:
有鑑於此,本發明提供了一種為文本添加超級連結的方法以及一種為文本添加超級連結的裝置,能夠提高所添加的超級連結與文本的相關性,且實現起來簡單方便。為達到上述目的,本發明的技術方案是這樣實現的:一種為文本添加超級連結的方法,包括:預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。一種為文本添加超級連結的裝置,包括:預處理模塊,用於預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;添加模塊,用於針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。可見,採用本發明所述方案,通過統計收集到的文本中的詞與詞之間的共現關係,得到詞與詞之間的相關性,進而根據從待添加超級連結的文本中提取出的各超鏈詞與提取出的各特徵詞的共性頻率等得到提取出的各超鏈詞的最終權重,並為最終權值較大的超鏈詞添加超級連結,從而提高了所添加的超級連結與文本的相關性;而且,採用本發明所述方案後,可自動確定出為哪些詞添加超級連結,無需人工操作,實現起來簡單方便。附圖說明圖1為現有添加了超級連結的文本示意圖。圖2為本發明為文本添加超級連結的方法實施例的流程圖。圖3為本發明為文本添加超級連結的裝置實施例的組成結構示意圖。具體實施方式針對現有技術中存在的問題,本發明中提出一種為文本添加超級連結的方案,能夠提高所添加的超級連結與文本的相關性,且實現起來簡單方便。為使本發明的技術方案更加清楚、明白,以下參照附圖並舉實施例,對本發明所述方案作進一步地詳細說明。圖2為本發明為文本添加超級連結的方法實施例的流程圖。如圖2所示,包括:步驟21:預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率。本步驟中,首先生成一個超鏈詞列表,其中具體包括哪些超鏈詞可根據實際需要而定,該列表可由人工編輯生成,也可由機器通過某種方式自動生成,如何生成不作限制。之後,可從網際網路中收集各種文本,用來生成特徵詞列表以及統計詞與詞之間的共現關係。如何收集文本為現有技術,理論上來說,收集的文本數越多越好,具體數目可根據實際需要而定。上述生成特徵詞列表以及統計詞與詞之間的共現關係的具體過程可包括:1)針對收集到的每個文本,分別對其進行切詞處理;2)將切詞得到的所有不重複詞均作為特徵詞,組成一個特徵詞列表,或者,為減少後續的處理工作量,也可先從切詞得到的所有不重複詞中去除高頻詞、停用詞和低頻詞等,將剩餘詞作為特徵詞,組成一個特徵詞列表;如何進行切詞以及如何區分哪些詞為高頻詞、停用詞和低頻詞均為現有技術;另外,在得到特徵詞列表之後,還需要針對每個特徵詞,分別確定其逆文本頻率(IDF,InverseDocumentFrequency)值,IDF值通過用收集到的所有文本的個數除以出現了該特徵詞的文本個數,再將得到的商取對數得到;3)針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率:針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x|y)=xy共現次數/y出現次數:(1)其中,xy共現次數表示在收集到的所有文本中,同時出現了特徵詞y和超鏈詞x的文本的個數,y出現次數表示在收集到的所有文本中,出現了特徵詞y的文本的個數;或者,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x/y)=H(x,y)/I(x,y)=H(x,y)/(H(x)+H(y)-H(x,y));(2)其中,H表示信息熵,I表示互信息,H和I的具體計算方式均為本領域公知;在實際應用中,可根據實際需要選擇使用以上兩種方式中的一種。步驟22:針對每個待添加超級連結的文本X,分別按照步驟23~26所示過程進行處理。為便於表述,用文本X來代表任意一個需要添加超級連結的文本。步驟23:對文本X進行切詞處理。步驟24:從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值。將切詞結果與步驟21中生成的超鏈詞列表以及特徵詞列表進行匹配,從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞。並且,針對每個提取出的超鏈詞H,分別計算其權值WH:WH=TFH*IDFH;(3)其中,TFH表示超鏈詞H的詞頻(TF,TermFrequency)值,即超鏈詞H在文本X中的出現次數,IDFH表示超鏈詞H的IDF值;針對每個提取出的特徵詞F,分別計算其權值WF:WF=TFF*IDFF;(4)其中,TFF表示特徵詞F的TF值,IDFF表示特徵詞F的IDF值。各IDF值已在步驟21中計算得到。步驟25:根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值。本步驟中,針對每個提取出的超鏈詞H,分別計算其最終權值WH』:其中,n表示提取出的特徵詞的個數。P(H/Fi)值已在步驟21中計算得到。步驟26:按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。K的具體取值可根據實際需要而定。另外,如何為超鏈詞添加超級連結為現有技術。至此,即完成了關於本發明方法實施例的介紹。基於上述介紹,圖3為本發明為文本添加超級連結的裝置實施例的組成結構示意圖。如圖3所示,包括:預處理模塊,用於預先生成一個超鏈詞列表,並收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率;添加模塊,用於針對每個待添加超級連結的文本X,分別進行如下處理:對文本X進行切詞處理;從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。其中,預處理模塊中可具體包括:第一處理單元,用於生成一個超鏈詞列表;第二處理單元,用於收集各種文本,通過對各文本進行切詞處理,生成一個特徵詞列表,針對每個特徵詞,分別確定其與每個超鏈詞的共現頻率。第二處理單元中又可具體包括(為簡化附圖,未圖示):第一處理子單元,用於收集各種文本;第二處理子單元,用於對各文本進行切詞處理,將切詞得到的所有不重複詞均作為特徵詞,組成一個特徵詞列表,或者,從切詞得到的所有不重複詞中去除高頻詞、停用詞和低頻詞,將剩餘詞作為特徵詞,組成一個特徵詞列表;並且,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x|y)=xy共現次數/y出現次數;(1)其中,xy共現次數表示在收集到的所有文本中,同時出現了特徵詞y和超鏈詞x的文本的個數,y出現次數表示在收集到的所有文本中,出現了特徵詞y的文本的個數;或者,針對每個特徵詞y和每個超鏈詞x,分別計算兩者的共現頻率P(x|y):P(x/y)=H(x,y)/I(x,y);(2)其中,H表示信息熵,I表示互信息。添加模塊中可具體包括:第三處理單元,用於對文本X進行切詞處理;第四處理單元,用於從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞,並確定每個提取出的超鏈詞和每個提取出的特徵詞的權值;根據每個提取出的特徵詞與每個提取出的超鏈詞的共現頻率以及每個確定出的權值,分別得到每個提取出的超鏈詞的最終權值;第五處理單元,用於按照最終權值由大到小的順序對提取出的各超鏈詞進行排序,為排序後處於前K位的超鏈詞添加超級連結,K為正整數。另外,第二處理子單元還可進一步用於,針對每個特徵詞,分別確定其IDF值,IDF值通過用收集到的所有文本的個數除以出現了該特徵詞的文本個數,再將得到的商取對數得到;第四處理單元中又可進一步包括(為簡化附圖,未圖示):第三處理子單元,用於從切詞結果中提取出在超鏈詞列表中出現的超鏈詞以及在特徵詞列表中出現的特徵詞;並針對每個提取出的超鏈詞H,分別計算其權值WH:WH=TFH*IDFH;(3)其中,TFH表示超鏈詞H的TF值,即超鏈詞H在文本X中的出現次數,IDFH表示超鏈詞H的IDF值;針對每個提取出的特徵詞F,分別計算其權值WF:WF=TFF*IDFF;(4)其中,TFF表示特徵詞F的TF值,IDFF表示特徵詞F的IDF值;第四處理子單元,用於針對每個提取出的超鏈詞H,分別計算其最終權值WH』:其中,n表示提取出的特徵詞的個數。圖3所示裝置實施例的具體工作流程請參照圖2所示方法實施例中的相應說明,此處不再贅述。以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀