一種根據中文語言模型構建輸入法詞庫的方法與流程
2023-09-23 09:26:10 1
本發明涉及計算機輸入法領域,特別是涉及根據中文語言模型自動生成的輸入法詞庫。
背景技術:
在中文輸入法領域,漢字編碼技術和詞庫技術是兩大核心技術。經過上世紀80年代以來30多年的發展,漢字編碼技術已經趨於成熟和穩定,目前輸入法創新發展的空間和潛力已集中到輸入法詞庫技術上,但就目前輸入法詞庫技術發展現狀看,無論是面向桌上型電腦標準鍵盤開發的輸入法,還是面向移動終端如手機觸控螢幕開發的輸入法,以及面向語音識別領域開發的輸入法,其詞庫均存在五個方面的問題:
一是詞庫「小而不全」。詞庫詞語主要來源於各類詞典中的通用詞語,以及日常人工積累的各類詞語,其詞庫規模通常在幾萬條至十幾萬條之間,由於規模小,且絕大部分是規範的、「詞典」類的靜態詞語,因而滿足不了漢語言靈活多樣的動態交流需求,錄入者無法以字詞組合式整體錄入,導致錄入體驗差、效率低。這類「小而不全」的代表性的輸入法有以王碼五筆輸入法為代表的各類形碼輸入法,以及拼音輸入法領域的全拼輸入法、智能abc拼音輸入法、紫光拼音輸入法、拼音加加輸入法等等;
二是詞庫「大而不全」。代表性的輸入法有搜狗拼音輸入法、百度輸入法等,這類輸入法詞庫通常是基於「詞典類通用詞語+搜尋引擎發現新詞熱詞」構建的,詞典類通用詞語來源於各類辭書及日常積累,「搜尋引擎發現新詞熱詞」是通過已有專利如《一種獲取新詞的方法、裝置以及一種輸入法系統》(公開號:cn1924858b)、《網際網路熱詞挖掘方法及裝置》(公開號:cn104679738a)、《提供新詞或熱詞的方法及系統》(公開號:cn102163198a)、《詞庫生成方法及其系統、輸入法及輸入系統》(公開號:cn103853746a)等專利技術實現的,其基本原理是通過搜尋引擎收集網頁上的用戶輸入框中的內容,然後經過分詞技術處理,並與後臺語料庫比較並達到某頻率閾值後,確定為熱詞、新詞,最終收錄進輸入法詞庫。隨著新詞、熱詞的不斷積累,詞庫規模通常在幾十萬條至近百萬條之間,如果再加上「雲」詞語,能供用戶檢索的詞庫能夠達到幾百萬條甚至近千萬條之巨,雖然規模空前擴張,但由於採用的是從用戶輸入框中的海選技術,而用戶在輸入框中搜索的往往是一些熱門的人名、地名、新聞事件,以及網絡流行語等,很少有人在輸入法框中搜索「在此基礎上、難道是、不是說、越說越快、吃過飯後、說都說不清、飛了、跑了、一輛接一輛、反咬一口」這樣的詞語,因此,通過搜尋引擎技術很難收集到這些最接近漢語言本質核心、最具普遍性應用的「大塊頭」、高質量的輸入法詞語。再看所謂的新詞、熱詞,其實它們在使用上存在很大的局限性,其一是生命周期非常短,當時比較熱門的詞語,有可能沒過多久就被無情地淘汰了,如「我的爸爸是李剛、中國式過馬路、apec藍、元芳體……」等等;其二是使用範圍非常窄,在人們日常輸入文檔及對話交流中,遇到所謂新詞、熱詞的機率非常小,因此靠新詞、熱詞來提高輸入效率和輸入體驗效果是非常有限的;其三是熱衷於使用新詞熱詞的人群規模也有限。《語言文字報》2016年1月6日第2版(總第953期)刊文《小學高段學生使用年度新詞語情況調查》(劉海平、楊傳鑫)顯示,「在使用年度新詞語的態度上,明確表示『喜歡』的佔28.76%,而『無所謂』和『說不清』態度分別佔45.15%和19.40%;持『不喜歡』態度的為6.69%」,「在使用年度新詞語的頻率上,17.57%的學生『經常使用』年度新詞語,55.85%的學生『偶爾使用』,而『幾乎不用』『從未使用』的比例分別為16.72%和10.37%」。綜上所述,搜尋引擎發現新詞熱詞方法並不適合於構建輸入法核心詞庫,只適合於作為一種補充,單純地利用 這種技術構建輸入法詞庫,會導致許多真正有價值的輸入法詞語並沒有真正挖掘出來,甚全混進了大量的無用的「垃圾」詞語,出現「大而不全」的現象;
三是詞庫內容難以記憶。無論對於「小而不全」詞庫,還是對於「大而不全」的詞庫,都需要人為地記憶詞庫裡面包含了哪些詞語,沒包含哪些詞語,這樣,在使用輸入法時才能按照詞語方式進行錄入。可面對輸入法詞庫裡小到幾萬、十幾萬,大到近百萬甚至上千萬而又沒有任何語言規律和特徵的詞語,用戶很難記憶,因而為高效使用詞庫造成了極大障礙;
四是詞庫詞語「收而難管」。目前的輸入法詞庫,基本上是漢語語料的簡單堆砌,詞語上面沒有附帶任何語言信息和詞庫管理信息,因而無法對詞庫中的詞語進行分類、挑選、增刪、排序等必要的管理,導致輸入法詞庫升級改造難、定向定製功能差、重複維護工作量大,不利於輸入法詞庫發展;
五是輸入體驗差、效率低。由於現有的輸入法詞庫或是照抄照搬辭書詞語、或是一味追求網絡新詞熱詞,沒有從漢語言交流本質上研究字詞組合規律,因而很難做到按照語言交流時的語音停頓規律和語義完整性要求進行輸入,直接導致了文字錄入和語言交流相脫節、錄入效率低下的問題。
技術實現要素:
本發明的目的是為了解決上述輸入法詞庫內容「小而不全、大而不全、難以記憶、詞庫內容難以管理、錄入者輸入體驗差、效率低」等問題,
為實現以上目的,本發明是通過以下技術方案來實現的:
一種根據中文語言模型構建輸入法詞庫的方法,由中文語言模型模塊和造詞模塊組成,
所述的中文語言模型模塊,用於為造詞模塊批量生成詞語時提供構詞信息以及為最終生成的詞庫提供詞庫管理信息;所述造詞模塊用於根據中文語言模型模塊提供的構詞信息自動批量生成詞語。
所述的中文語言模型模塊由模型標識子模塊和模型構詞信息子模塊組成,模型標識子模塊收錄中文語言模型,中文語言模型由代表造詞主體的字符串標識、前綴、插入成分和後綴組成,附加在造詞主體前面的為前綴,附加在造詞主體後面的為後綴,插入造詞主體中間的為插入成分,前綴、插入成分和後綴可以只出現其一,也可以共現,另外,插入成分可以包含一個或多個;所述的造詞主體指的是造詞模塊中的造詞主體子模塊所收錄的用於造詞用的基礎詞語;模型構詞信息子模塊主要由按照口語、書面語、專業用語等進行分類的語言性質信息數據表,及按照主謂、動賓、定心等進行分類的詞語結構類型信息數據表,及按照表時間、空間、數量、程度等進行分類的語義範疇信息數據表,及按照疑問、陳述、祈使、感嘆進行分類的語氣類型信息數據表,及按照主動、被動、使動等進行分類的語態類型信息數據表,以及修飾層級、排序權重信息數據表等組成;所述的中文語言模型模塊中的中文語言模型根據中文語音停頓特點和語義完整性要求進行開發。
所述的造詞模塊由造詞主體子模塊、詞類標註子模塊和詞語結構標註子模塊組成,造詞主體子模塊收錄供造詞用的基礎詞語,這些基礎詞語稱為造詞主體;詞類標註子模塊將造詞主體子模塊中的基礎詞語進行詞類標註,劃分為名詞、動詞、形容詞、代詞、副詞、數詞、量詞、介詞、連詞、助詞、嘆詞、擬聲詞等具體數據表;詞語結構標註子模塊將造詞主體子模塊中的基礎詞語進行詞語結構標註,劃分為主謂、述賓、述補、定心、狀心、量心、數量、並列、反序、重疊、順遞、復指、雜糅、介詞短語以及同義詞、反義詞、平行詞等具體數據表。所述的造詞模塊中的詞類標註子模塊和詞語結構標註子模塊中的數據表均為造詞主體設置斷點信息,用於造詞時對造詞主體執行插入操作以及對造詞主體前後兩部分分別加以處理。
為了實現本發明的目的,本發明提供了一種根據中文語言模型批量生成輸入法詞庫詞語的方法,包括以下三個步驟:
步驟1:提煉中文語言模型,並以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:通過《現代漢語詞典》等工具書及人工收集方式,選取基礎性、通用性的造詞素材,並以此為基礎構建造詞主體子模塊、詞類標註子模塊和詞語結構標註子模塊;
步驟3:利用資料庫處理軟體,將中文語言模型模塊中的模型構詞信息子模塊和造詞模塊中相應數據表的信息相關聯,利用資料庫查詢語句批量生成輸入法詞庫詞語。
為了實現本發明的目的,進一步將本發明拓展到各專業輸入領域,本發明還提供了一種根據中文語言模型構建專業詞庫的方法,包括以下四個步驟:
步驟1:提煉中文語言模型,並以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:建立專業詞語造詞素材庫;
步驟3:以上述專業詞語造詞素材庫為基礎,構建造詞主體子模塊、詞類標註子模塊和詞語結構標註子模塊;
步驟4:利用資料庫處理軟體,將中文語言模型模塊中的模型構詞信息子模塊和造詞模塊中相應數據表的信息相關聯,利用資料庫查詢語句批量生成輸入法專業詞語。
為了實現本發明的目的,本發明還提供了一種基於中文語言模型對詞庫內容實施有效管理的方法,由語料模塊和詞庫信息模塊組成,其中,語料模塊收錄中文語言模型模塊中的造詞模塊生成的全部詞語;詞庫信息模塊的構成與中文語言模型模塊中的模型構詞信息子模塊完全相同,並由其傳遞數據信息。
為了實現本發明的目的,本發明還提供了一種在輸入法提示框中提示模型詞語的方法,包括以下三個步驟:
步驟1:在輸入法碼錶中,增加中文語言模型信息,使碼錶中的每條詞語和中文語言模型形成一一對應關係;
步驟2:在輸入法引擎中增加搜索碼錶時,按照中文語言模型查找所對應的詞語的功能;
步驟3:在輸入法提示框中增加查看模型詞語的圖標或按鈕,或其他類似的提示性標誌,當正在輸入的編碼對應的是一組模型詞語時,激活該標誌,當把滑鼠光標移動到該標誌上面時,顯示中文語言模型,當用滑鼠單擊或按下預先定義的鍵盤按鍵時,顯示該中文語言模型對應的全部詞語。
有益效果
通過本發明構建的輸入法詞庫,充分反映了漢語言句法和詞法特點,特別是語言交流中的字詞組合規律,使錄入者可以採用接近自然語言交流中的語音停頓方式和語義完整性進行輸入,創造了一種仿真的自然語言交流環境,提高了錄入體驗;
通過本發明構建的輸入法詞庫,實現了以中文語言模型為統領,對語言交流中各種字詞組合規律進行全面系統概括,從而建立起了統一規範的輸入法詞庫收詞標準,保證所構建的詞庫詞語應心盡收,解決了以往輸入法詞庫收集詞語不全面、不系統、無標準的問題,杜絕了用戶對詞庫內容無從把握、錄入中因缺少詞語而打空碼進而回刪現象的發生;
通過本發明構建的輸入法詞庫,是以漢語言內在規律為根本,以本求源,有目標、有重點地「主動」生成詞語的過程,與通過搜尋引擎「海撈」新詞熱詞方向截然相反,並有著本質的區別,其準確性、普適性、實用性全面提高,並能有效阻斷「垃圾」詞語進入,因而在詞庫使用過程中節省了計算機資源,提高了檢索效率,杜絕了垃圾詞語對錄入者的影響;
通過本發明構建的輸入法詞庫,錄入中使漢語言字詞組合率大幅提升,單字錄入現象趨近於零,錄入者在輸入過程中避免了以往「擠牙膏」式單字錄入方式,實現了「大塊頭」整體錄入,錄入效率可以提高30%以上,創造了可觀的工作效率和社會效率與效益;
通過本發明構建的輸入法詞庫,由於裡面的絕大部分詞語都是基於中文語言模型生成的,錄入時用戶只要記住其中的一條詞語,那麼就可斷定與之具有相同特徵的所有詞語都被收錄 了,比如,嘗試將「吃完飯後」整體錄入成功了,那麼與此相似的「洗完澡後、交完錢後、吵完架後、買完菜後……」等等都可以作為一個詞語放心大膽地整體錄入了,這種特徵使用戶從記憶輸入法詞庫中數量繁多的詞語向記憶數量有限的中文語言模型的轉變,記憶量大幅減少,如果再配合輸入法提示框中的中文語言模型提示功能,就能更加方便地掌握詞庫中收錄的詞語,進一步增強錄入體驗和效率;
通過本發明構建的輸入法詞庫,通過在中文語言模型上附加完整的語言信息和詞庫管理信息,並利用資料庫技術,實現了以模型造詞、以模型管理詞庫的目標,較好地解決了詞庫無法精細管理的問題,使詞庫的日常維護、精細挑選、面向特定領域定製,以及升級改造變得異常簡單,使以往輸入法詞庫「收而難管」的問題得到的有效解決;
另外,由於採用本發明開發的輸入法詞庫,是通過挖掘中文語言模型構建的,本質上體現了中文語言的特點和規律,因此,除了能夠應用到傳統鍵盤和觸控螢幕等輸入法領域外,還可應用於涉及中文信息處理的其它多個領域,如語音識別輸入法、機器人對人類語言識別等,並且使其識別效率和準確率得到大幅度提升。
具體實施方式
本發明的基本思想是利用中文語言模型構建輸入法詞庫並對其實施有效管理。根據這一基本思想,下面對本發明內容中的相應模塊做進一步說明並結合實施例詳細闡述如下:
1、提煉中文語言模型
中文語言模型主要從三個維度進行提煉。
一是根據語言交流時的語義完整性和語音停頓規律進行提煉。先說語義完整性,是指語句中具有完整意義的字詞組合體。例如,如果將「吃飯、幹活、唱歌、交錢、做作業」分別作為一個語義單位,那麼,「吃完飯後、幹完活後、唱完歌后、交完錢後、做完作業後」都應視作與之對應的完整的語義單位,按照這個思想,分析「吃完飯後、幹完活後、唱完歌后、交完錢後、做完作業後」,實質上是由動賓結構的詞語「吃飯、幹活、唱歌、交錢、做作業」中間插入「完」,再加後綴「後」形成的,由此,可提煉出「動詞+完+賓語+後」的字詞組合模型,用verb代表動詞,obj代表賓語,那麼中文語言模型就可表示為:「verb完obj後」,以此代表「吃完飯後、幹完活後、唱完歌后、交完錢後、做完作業後……」等一大批詞語;再說語言交流時的語音停頓規律,以「千年古剎座落在黃山腳下」一句為例,按照說話人正常的語音停頓習慣,應該如「千年/古剎/座落在/黃山腳下」所示,這樣,以其中的「座落在」為提煉要素,就可歸納出「動詞+在」的字詞組合,用「verb」表示動詞,那麼這個中文語言模型就可表示為「verb在」,它就代表了「座落在、消失在、丟在、寫在、掛在……」等一大批詞語;
二是按照漢語詞類和詞語結構生成短語的規律進行提煉。結合現代漢語語法知識,所說的漢語詞類主要指名詞、動詞、形容詞、代詞、副詞、介詞、連詞、助詞、嘆詞、數詞、量詞、擬聲詞等,所說的詞語結構主要指述賓結構、主謂結構、定心結構、狀心結構、述補結構、量心結構、並列結構、反序結構、重疊結構、雜糅結構、介詞結構等。不同的漢語詞類具有不同的生成短語規律,以形容詞為例,可與「很」、「非常」、「極了」等緊密結合,用adj表示形容詞,由此可提煉出「很adj」、「非常adj」、「adj極了」等中文語言模型,分別代表「很冷、很困難、很大方……」、「非常好、非常漂亮、非常緊張……」、「冷極了、快極了、貴極了……」等各自一大批詞語;不同的詞語結構同樣具有不同的生成短語規律,以動賓結構為例,詞語中間可插入「著、了、過」,後面可加後綴「前、後」等,若以verb代表動詞,obj代表賓語,可提煉出「verb著obj、verb了obj、verb過obj、verb過obj後、verbobj前」等相關模型,以此分別代表「唱著歌、吃著飯、上著網、喝著茶……」、「丟了錢、曠了工、停了課……」、「洗過澡、賣過菜、唱過戲……」、「交過錢後、刷過牙後、買過菜後……」以及「吃飯前、睡覺前、上網前……」等等各自一大批詞語。
三是按照漢語句式的構形規律來提煉。所說的句式主要指疑問、陳述、祈使、感嘆四大句式。每種句式都有不同的構形特點,據此可提煉出不同的中文語言模型。比如疑問句式,在構形上,常見的有「……嗎、……吧、難道不……嗎」,以verb代表動詞,adj代表形容詞,據此,可提煉出「verb嗎、adj吧、難道不verb嗎」等等中文語言模型,以此分別代表「交嗎、學嗎、吃嗎……」、「冷吧、難吧、漂亮吧……」、「難道不交嗎、難道不學嗎、難道不寫嗎……」等各自一大批詞語;再如祈使句式,其構形特點是,經常要求某人做什麼或不做什麼,以verb代表動詞,據此可提煉出「快verb、別verb、一定verb」等中文語言模型,以此分別代表「快說、快走、快去……」、「別動、別說、別走……」、「一定來、一定說、一定交……」等等各自一大批詞語。同樣,根據陳述句式和感嘆句式也可以提煉出一大批中文語言模型。
提煉出中文語言模型後,還要在其上面要附有必要的語言信息和詞庫管理信息。包括:語言性質,主要指是否口語、書面語、專業用語等信息;結構類型,主要指是否動賓結構、主謂結構、定心結構、狀心結構、述補結構、量心結構、並列結構、反序結構、重疊結構、雜糅結構、介詞結構等信息;語義範疇,主要指是否表時間、空間、數量、程度、歸屬、判斷、結果等信息;語氣類型,主要指是否表疑問、陳述、祈使、感嘆語氣信息;語態類型,主要指是否表主動、被動、使動語態信息。另外還要附有修飾層級和排序權重等信息。上述附著信息的方法為:在資料庫數據表中設置相應欄位來實現。
2、構建造詞模塊。造詞模塊是自動批量生成詞庫詞語的基礎平臺,其中各數據表中的詞語即中文語言模型中所指的造詞主體。在造詞模塊中,無論是構成詞類標註子模塊的數據表,還是構成詞語結構標註子模塊的數據表,都應進一步附加詳細的子分類信息,以適應造詞時精準選擇造詞主體的需要。例如,以noun代表名詞,「noun人」這個中文語言模型代表的是「中國人、美國人、加拿大人、北京人、上海人、鞍山人、東北人……」等一大批詞語,造詞時,需要用詞類標註子模塊中的名詞表作為造詞主體進行造詞,但通過觀察發現,「noun」僅限於表示國家、地區、城市等地點的名詞,而不是名詞表中的全部,這樣,就需要名詞表能夠細分出地點名詞,才能實現精準造詞。下面將造詞模塊中的主要數據表細分情況分列如下:
詞類標註子模塊中,名詞細分為:物質名詞、抽象名詞、生命名詞、可數名詞、方位名詞、時間名詞、地點名詞、稱謂名詞;代詞細分為:人稱代詞、指示代詞、疑問代詞、特殊代詞;動詞細分為:行為動詞、狀態動詞、及物動詞、趨向動詞、情態動詞;形容詞細分為:性質形容詞、狀態形容詞;量詞細分為:個體量詞、集合量詞、度量詞、不定量詞、準量詞、複合量詞、動量詞、借用量詞、宏觀量詞;副詞細分為:時間副詞、地點副詞、程度副詞、範圍副詞、頻率副詞、語氣副詞。詞類標註子模塊中的其他數據表細分情況不再繁述。
詞語結構標註子模塊中,主謂結構細分為:名-動型、名-形型、代-動型、代-形型;述賓結構細分為:動-名型、動-代型;述補結構細分為:動-形型、動-數-量型、動-趨型;定心結構細分為:形-名型、名-名型、動-名型、數-量-名型。詞語結構標註子模塊中的其他數據表細分情況不再繁述。
除了為造詞模塊中各數據表附加詳細的子分類信息外,還要為各數表中的詞語(也就是造詞主體)設置斷點,用於造詞時執行插入操作以及對造詞主體前後兩部分分別進行處理。對於詞語結構標註子模塊中各數據表詞語,其斷點位置與該結構的分界點相同,以動賓結構數據表為例,如裡面的詞語為「吃飯、趕火車、擠兌人、上班、唱歌……」,其動賓分界點可表示為「吃-飯、趕-火車、擠兌-人、上-班、唱-歌」,那麼,為它們標註的斷點也落在該處,這一點不難理解。這裡著重說明一下詞類標註子模塊中各數據表詞語的斷點設置原則,詞類標註子模塊數據表中的詞語大多是單純結構,中間很難斷開,這時,只需在其中間位置設置斷點即可,以形容詞表為例,如裡面的詞語為「大方、紅火、慌張、漂亮……」,則設置斷點後的形式為「大-方、紅-火、慌-張、漂-亮……」,有了斷點,就可以分別根據中文語言模型 adjleftadjleftadjrightadjright、adjleftadjrightadjright、adjleftadjleftadjrightadjright地」(adjleft和adjright分別代表形容詞斷點左右兩個部分)批量生成「大大方方、紅紅火火、慌慌張張、漂漂亮亮……」、「大方方、紅火火、慌張張、漂亮亮……」,以及「大大方方地、紅紅火火地、慌慌張張地、漂漂亮亮地……」等各自一大批詞語了。
3、根據中文語言模型批量生成詞庫詞語的實施例。
分為三個步驟:
步驟1:提煉中文語言模型
假設提煉出了「verb不com、verb也verb不com、adj是adj點、adj歸adj、adj極了」六個中文語言模型(其中verbcom表示動補結構,verb和com分別為動補結構「動詞」部分和「補語」部分,adj代表形容詞),以此為基礎,定製中文語言模型模塊;
步驟2:在造詞模塊中的詞類標註子模塊和詞語結構標註子模塊中分別定製形容詞表和動補結構詞語表,假定形容詞表中的內容為「難、緊張、貴、遠、長、大、艱苦……」等計3000條詞語;動補結構詞語表中的內容為「看清、洗淨、走快、吃完……」等計5000條詞語,每條詞語中間均設斷點;
步驟3:利用sql資料庫查詢語言,根據中文語言模型模塊提供的構詞信息,對上述形容詞表和動補結構詞語表中的詞語整體或斷點左右兩個部分進行組合拼接,生成所需的詞語。例如對於形容詞表,當用「adj是adj點、adj歸adj、adj極了」造詞時,利用形容詞表中的詞語整體,通過拼接方式,各自生成了「難是難點、緊張是緊張點、貴是貴點、遠是遠點、長是長點、大是大點、艱苦是艱苦點……」、「難歸難、緊張歸緊張、貴歸貴、遠歸遠、長歸長、大歸大、艱苦歸艱苦……」,以及「難極了、緊張極了、貴極了、遠極了、長極了、大極了、艱苦極了……」3000條詞語。與此類似,對於動補結構詞語表,當用「verb不com」生成詞語時,要拼接成「動補詞語左部+不+動補詞語右部」的形式,一次性生成了「看不清、洗不淨、走不快、吃不完……」計5000條詞語;當用「verb也verb不com」生成詞語時,要拼接成「動補詞語左部+也+動補詞語左部+不+動補詞語右部」的形式,一次性生成了「看也看不清、洗也洗不淨、走也走不快、吃也吃不完……」計5000條詞語。
4、利用中文語言模型建立詞庫管理系統實現對詞庫內容進行有效管理的實施例。
分為三個步驟:
步驟1、構建語料模塊,該模塊用於收錄本發明中的造詞模塊生成的全部詞語,每條詞語均對應生成它的中文語言模型;
步驟2、構建詞庫信息模塊,該模塊與本發明中的中文語言模型模塊中的模型構詞信息子模塊完全包容,並由其傳遞數據信息。另外附加了存留時限信息,用來衡量詞語生命周期長短,具體設定為長、一般、短三種等級,以便用於及時從詞庫中刪除過時的詞語;附加了語塊類別信息,具體分為語義性詞語和語音停頓性詞語。另外,對排序權重規定了規範性、書面性、通用性、形似性、結合性、特殊因子六個單維度權重和綜合權重,以滿足重碼詞語排序及定製特定詞庫的需要。
步驟3、上述兩個模塊建立後,就可以利用資料庫平臺進行有效管理了。比如說,出於降低重碼率或考慮用戶接受習慣,對於詞庫中「難極了、緊張極了、貴極了、遠極了、長極了、大極了、艱苦極了……」等一大批詞語,只想保留「難極了、貴極了、遠極了、長極了、大極了……」等「單字形容詞+極了」構成的詞語,而要刪除「緊張極了、艱苦極了……」等「兩字及以上形容詞+極了」構成的詞語,只需利用資料庫查詢語言從語料模塊中查找來源於「adj極了」模型、且長度大於3的詞條,並從詞庫中刪除即可;再如,如果要挑選不同修飾層級的詞庫詞語,以便合理控制詞庫容量,可在查詢時通過合理設置修飾層級值來實現,這裡假定將修飾層級值設置為1,那麼,從「很好、太美了、真不錯、飛了、走嗎……」裡面查詢時,含有兩級修飾的「太美了、真不錯……」便被過濾掉了,只剩下「很好、飛了、走嗎……」等一級修飾詞語了。
5、利用中文語言模型對批量生成的詞語自動完成拼音編碼的實施例。
大家都知道,在開發拼音輸入法製作碼錶過程中,為詞語添加拼音編碼是一件浩繁的工程,雖然可以利用程序軟體自動注音,但由於漢語中大量多音字的存在,必然需要經過人工校驗,而利用中文語言模型模塊和造詞模塊相互配合,可以輕鬆的解決這個難題。方法是首先定製一個注音信息表,對中文語言模型中的「前綴、插入、後綴」等成分單獨進行注音,另外再對造詞模塊各數據表中的造詞主體進行注音,這兩項工作完成後,利用資料庫查詢語言進行詞語和編碼拼接,自動批量生成的所有新詞語就自動完成了注音,大大減少了工作量,且正確率100%,免去了人工校對之苦。