新四季網

用於比較文本的設備和方法

2023-09-18 15:29:00

用於比較文本的設備和方法
【專利摘要】本發明提供了一種用於比較文本的設備,包括:第一提取單元,被配置為從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中;第二提取單元,被配置為從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中;比較單元,被配置為將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較;以及輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數據。本發明還提供了一種用於比較文本的方法。本發明節省了比較文本所需的時間,提高了效率。
【專利說明】用於比較文本的設備和方法
【技術領域】
[0001]本發明涉及信息處理領域,更具體地,涉及一種用於比較文本的設備和一種用於比較文本的方法。
【背景技術】
[0002]校對過程(文本比較過程)主要應用在出版領域。一般由經過專業訓練的校對人員對稿件進行校對。軟體開發過程中,由於設計到本地化的問題,需要對其中使用的語言進行翻譯然後進行校對。這些專業校對人員可以完成語義和語法的校對,但對於其中涉及的格式化信息一般很難進行正確的校對。目前常用的方式是:專業校對人員完成語義和語法等校對,然後交由軟體開發工程師,完成格式化信息的校對。
[0003]格式化信息可以理解為是為了對字符串中的部分內容進行動態替換而定義的格式化字符串。具體地,格式化字符串可以包含一些佔位符,表示在運行時要使用可變信息替換的數據。例如,「He I 1 everyone, my name is% l$s」是格式化字符串,其中的佔位符的定義如下:使用% [index] $ [type]格式進行標記,index標記替換資源中第index個資源對應的位置,type則標示所要替換的資源的類型(s表示資源為字符串格式)。
[0004]然而,這種校對方式將佔用軟體開發工程師的大量時間,並且隨著語言版本的增多,工作量將隨之增加。

【發明內容】

[0005]為了解決上述問題,本發明提供了一種用於比較文本的設備和一種用於比較文本的方法。本發明首先提取格式化模板中的格式化信息,然後和待比較的文本進行比較,最後輸出包含錯誤格式化信息的文本數據。
[0006]具體地,根據本發明的第一方案,提供了一種用於比較文本的設備,包括:第一提取單元,被配置為從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中;第二提取單元,被配置為從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中;比較單元,被配置為將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較;以及輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數據。
[0007]在一個實施例中,所述第一提取單元和所述第二提取單元均被配置為:將文本數據的ID和文本數據的值保存到所述數據表中。
[0008]在一個實施例中,所述比較單元還被配置為:針對第一數據表中的每一項文本數據,將所述文本數據包含的格式化信息保存在第一數組中,並將第二數據表中的對應文本數據所包含的格式化信息保存在第二數組中;以及比較第一數組和第二數組中的每個元素,只有兩個數組中的元素完全相同,才確定該文本數據包含的格式化信息相同。
[0009]在一個實施例中,所述輸出單元還被配置為:針對每一項具有不同格式化信息的文本數據,輸出該文本數據的ID、第一數據表中該文本數據的值以及第二數據表中該文本數據的值。
[0010]根據本發明的第二方案,提供了一種用於比較文本的方法,包括:從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中;從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中;將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較;以及輸出通過比較步驟獲得的、格式化信息不完全相同的文本數據。
[0011]在一個實施例中,將文本數據的ID和文本數據的值保存到所述數據表中。
[0012]在一個實施例中,針對第一數據表中的每一項文本數據,將所述文本數據包含的格式化信息保存在第一數組中,並將第二數據表中的對應文本數據所包含的格式化信息保存在第二數組中;以及比較第一數組和第二數組中的每個元素,只有兩個數組中的元素完全相同,才確定該文本數據包含的格式化信息相同。
[0013]在一個實施例中,針對每一項具有不同格式化信息的文本數據,輸出該文本數據的ID、第一數據表中該文本數據的值以及第二數據表中該文本數據的值。
[0014]通過本發明的方法,可以自動實現新增語言版本中的格式化信息的比較,從而節省了時間成本,提高了效率。
【專利附圖】

【附圖說明】
[0015]通過下面結合【專利附圖】

【附圖說明】本發明的優選實施例,將使本發明的上述及其它目的、特徵和優點更加清楚,其中:
[0016]圖1是示出了根據本發明的一個實施例的用於比較文本的設備的框圖。
[0017]圖2是示出了根據本發明的一個實施例的用於比較文本的方法的流程圖。
[0018]在本發明的所有附圖中,相同或相似的結構均以相同或相似的附圖標記標識。
【具體實施方式】
[0019]下面參照附圖對本發明的優選實施例進行詳細說明,在描述過程中省略了對於本發明來說是不必要的細節和功能,以防止對本發明的理解造成混淆。
[0020]圖1是示出了根據本發明的一個實施例的用於比較文本的設備10的框圖。如圖1所示,設備10包括第一提取單元110、第二提取單元120、比較單元130和輸出單元140。下面,對圖1所示的設備10的各個組件進行詳細描述。
[0021]第一提取單元110被配置為從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中。模板可以是任何語言版本,下文以英語版本作為示例。對於模板,需要經過嚴格的測試,保證其中的格式化信息完全正確。第一提取單元110通過遍歷的方式,依次讀取模板中的每一項文本數據。如果其中包含格式化信息,就保存下來。保存時,可以以文本的標識(ID)作為關鍵字(key),以具體的文本數據為值(value),保存為哈希表中的一項,直至讀取模板中的所有文本數據。
[0022]第二提取單元120被配置為從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中。這裡假設待比較的文本是簡體中文文本。同樣,第二提取單元120通過遍歷的方式,依次讀取每一項文本數據。如果其中包含格式化信息,就保存下來,保存方式與上文描述的第一提取單兀110的方式相同。
[0023]比較單元130被配置為將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較。在一個實施例中,比較單元130針對第一數據表中的每一項文本數據,將所述文本數據包含的格式化信息保存在第一數組中,並將第二數據表中的對應文本數據所包含的格式化信息保存在第二數組中。然後,比較單元130比較第一數組和第二數組中的每個元素,只有兩個數組中的元素完全相同,才確定該文本數據包含的格式化信息相同。
[0024]輸出單元140被配置為輸出通過比較單元130獲得的、格式化信息不完全相同的文本數據。例如,輸出單元140可以針對每一項具有不同格式化信息的文本數據,輸出該文本數據的ID、第一數據表中該文本數據的值以及第二數據表中該文本數據的值。
[0025]下面,通過一個示例應用場景,詳細描述圖1所示的設備10的各個組件的操作。首
先,假設模板包括以下字符串數據:
[0026]
By clicking Startf you agree to the %l$s
<string name="fe-ture—new—ti亡JeTs New?
%l$d/%2$d 〈string name="sms_progress_white_text_firstn>SHS Capacity: %l$d%% used (Total 名2$己)
TotaI of %l$d messages imported
[0027]以「〈string >What\,s New ?〈/string〉」為例,其中 name = " feature—new—title "中的 feature—new—title 為本條字符串數據的 ID,What\- s New ?為本條字符串的值。
[0028]第一提取單元110判斷當前字符串的值中是否包含格式化信息。例如,可以採用正則表達式"% [0-9]*[$]*[0-9]*[a-z]"來判斷格式化信息。如果符合此正則表達式,則第一提取單元110將(ID,值)作為一個鍵值對,存入數據表中。遍歷上述數據,則得到的數據表如下:
【權利要求】
1.一種用於比較文本的設備,包括: 第一提取單元,被配置為從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中; 第二提取單元,被配置為從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中; 比較單元,被配置為將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較;以及 輸出單元,被配置為輸出通過比較單元獲得的、格式化信息不完全相同的文本數據。
2.根據權利要求1所述的設備,其中,所述第一提取單元和所述第二提取單元均被配置為:將文本數據的ID和文本數據的值保存到所述數據表中。
3.根據權利要求1所述的設備,其中,所述比較單元還被配置為: 針對第一數據表中的每一項文本數據, 將所述文本數據包含的格式化信息保存在第一數組中,並將第二數據表中的對應文本數據所包含的格式化信息保存在第二數組中;以及 比較第一數組和第二數組中的每個元素,只有兩個數組中的元素完全相同,才確定該文本數據包含的格式化信息相同。
4.根據權利要求1所述的設備,其中,所述輸出單元還被配置為:針對每一項具有不同格式化信息的文本數據,輸出該文本數據的ID、第一數據表中該文本數據的值以及第二數據表中該文本數據的值。
5.一種用於比較文本的方法,包括: 從模板中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第一數據表中; 從待比較的文本數據中提取包含格式化信息的文本數據,並將所提取的文本數據保存到第二數據表中; 將第一數據表中的每一項文本數據所包含的格式化信息與第二數據表中的對應文本數據所包含的格式化信息進行比較;以及 輸出通過比較步驟獲得的、格式化信息不完全相同的文本數據。
6.根據權利要求5所述的方法,其中,將文本數據的ID和文本數據的值保存到所述數據表中。
7.根據權利要求5所述的方法,其中,針對第一數據表中的每一項文本數據, 將所述文本數據包含的格式化信息保存在第一數組中,並將第二數據表中的對應文本數據所包含的格式化信息保存在第二數組中;以及 比較第一數組和第二數組中的每個元素,只有兩個數組中的元素完全相同,才確定該文本數據包含的格式化信息相同。
8.根據權利要求5所述的方法,其中,針對每一項具有不同格式化信息的文本數據,輸出該文本數據的ID、第一數據表中該文本數據的值以及第二數據表中該文本數據的值。
【文檔編號】G06F17/22GK103440231SQ201310392331
【公開日】2013年12月11日 申請日期:2013年9月2日 優先權日:2013年9月2日
【發明者】李明 申請人:北京網秦天下科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀