新四季網

網絡中智能信息處理的方法和系統的製作方法

2023-06-06 22:51:56

專利名稱:網絡中智能信息處理的方法和系統的製作方法
技術領域:
本發明涉及一種在類似於Internet的廣域網中用自然語言,如中文,進行智能信息處理的方法和系統。更具體地說,本發明涉及在Internet上中文智能檢索的方法和系統。
例如,在網際網路上,該電子地址被稱為統一資源定位標識或URL。它由一系列特定格式的信息串接而成訪問該資源所需的協議類型信息,網絡主機域名標識符(來識別電子資源所在的具體計算機),埠號,資源在計算機文件系統中的目錄路徑信息,和資源的文件名。網際網路的URL和電子資源的類似的標誌模式對於用戶來說是很不方便的。URL長度經常超過50個字符,並且,所含信息對信息搜索者來說既枯燥又沒有含義。因此,人們已做了一些工作,使得對用URL表示的網址檢索對信息搜索者或檢索者來說更有含義。這就使搜索者或檢索者不必記住準確的URL,而只用一些自然使用的詞或術語。
美國專利第5,764,906號描述了一種系統,可以對信息資源及其提供者提供並維護一個短的別名,並且可以將這些別名翻譯成有用的電子地址,如URL、傳真及語音電話號碼,和電子郵件地址等,並且,用這些地址來訪問資源。類似的,1999年8月5日公開的PCT申請WO99/39275公開了一種基於自然語言的網際網路導航方法,導航到存儲在網絡中並由位置標識來識別的資源。一些軟體產品已進入商業領域,以幫助用戶使用自然語言名稱訪問網際網路資源。
目前,已有許多這種服務,例如,RealNames(http//www.realnames.com)用簡短的「關鍵字」替代複雜的網際網路地址,或URLs,並且,它已通過Microsoft(微軟)的網際網路瀏覽器和MSN門戶網站,來提供這種服務。Microsoft也在其網頁瀏覽器軟體中宣布包含RealNames。RealNames的服務相當於美國在線的關鍵字系統。該系統允許AOL會員能鍵入普通短語去查找具體內容頻道。類似的,Netword Agent軟體(http//www.netword.com)也允許用戶鍵入網際網路關鍵字,而不是URL。另外,Internet Engineering TaskForce(IETF)正在開發網際網路關鍵字標準。IETF已組成工作組,致力於設計「通用名字解析協議」,或實現網絡(Web)關鍵字的標準方式。
然而,網際網路關鍵字軟體產品,如RealNames或Netword的那些產品,要麼與瀏覽器結合,要麼做為瀏覽器的插件。當新瀏覽器出現時,插件也必須更新。
此外,這些網際網路關鍵字軟體產品或關鍵字檢索既不適合也不便於處理某寫國家的自然語言,如亞洲的語言,特別是中文、日文和韓文,或任何其它象形文字的語言。每個字符可能沒有確切的含義,並且,與一個或多個其它字符組合時,可能有多種含義。因此,使用通常的關鍵字檢索技術,不能快速和準確地得到這種所希望的電子地址的檢索結果。
因此,本發明的一個目的是提供一種用自然語言,如中文,來處理信息檢索的方法。
本發明的另一目的是提供一種用自然語言,如中文,處理信息檢索的系統。
本發明進一步的目的是提供一種基於中文或者中文拼音(字的發音)的網際網路中文智能檢索的方法和系統。
本發明進一步的目的是提供一種網際網路中文智能檢索的方法和系統,即使輸入南方音拼音,也能自動獲得正確結果。
如果輸入被確定為自然語言發音符號,即拼音拼寫,則將進一步確定輸入是否是完整的音標(拼音全拼)還是拼音字頭縮寫。如果輸入是完整音標(全拼)查詢,該查詢用拼音檢索表處理,以得到所希望的URL或網址,並且,結果被送回到瀏覽器以供選擇。否則,該查詢會依據自然語言文字拼音字頭縮寫檢索表處理,URL或網址的查詢結果被送回到瀏覽器,以供選擇。
本發明的智能檢索還包括確定查詢是否與某個網站、網址或網頁精確匹配。如果沒有與網站或網頁的精確匹配,就將可能的檢索結果列表提供給用戶,以供其選擇。
漢字輸入對於許多用戶來說是困難的。然而,如果瀏覽者的計算機配備有中文輸入軟體,漢字可作為檢索查詢被輸入。這就可以啟動了中文的智能檢索。為給用戶提供更多的選擇,在本發明的一些具體實施方案中,智能信息處理系統和方法可以接受「拼音」,即,發音符號,或「拼音」字頭,即,所要查詢的詞語發音的首字母縮寫,以便獲得可能的檢索結果表。
該系統和方法還可以處理電話號碼輸入,並可得到與註冊電話號碼相應的相關網站。如果輸入人名(中文或英文),可從遠程網絡名片伺服器中,如由http//www.letscard.com所提供的伺服器,或者其它任何類似的伺服器,得到這個人的網絡名片。本發明的這些方面的包含在本申請人的其它相應的專利申請中。
附圖的簡要說明所附附圖示出本發明的具體實施方案,並且,通過以下的詳細說明和附圖,能更好理解本發明。


圖1示出可用於執行本發明具體實施方案的網絡計算機系統的例子;圖2示出本發明的一個具體實施方案;圖3示出控制瀏覽器URL輸入窗口的處理過程;圖4示出帶有漢語自然語言的訪問和導航服務的瀏覽器屏幕截圖;圖5A、5B和5C示出本發明的廣域網中智能信息處理的三個基本結構;圖6示出中文自然語言處理的處理過程;圖7示出中文自然語言處理的另一處理過程;圖8示出本發明漢字和/或英文詞處理的方法;圖9示出本發明漢語拼音全拼詞處理的方法;圖10示出本發明漢語拼寫縮寫詞處理的方法;圖11示出本發明在信息處理前,確定查詢輸入詞類的處理過程;圖12A和12B分別示出本發明拼音全拼同音詞的檢索方法,和方言錯拼的拼音全拼詞的檢索方法。
發明的詳細說明如像本領域任何普通技術人員所夠認識到的一樣,本發明可包括一種方法、數據處理系統或程序產品。依據本發明所寫的軟體可被存在某些計算機可讀的載體中,如存儲器,或CD ROM,或在網上傳送,並被處理器執行。然而,本發明的主要原理可被描述在以下所述的網絡智能信息處理方法或網絡智能信息處理系統中。
圖1表示本發明的一個系統。用戶機/計算機101,通過網際網路連接108,109,連接到網絡伺服器102和網際網路資源定位標識伺服器,如http//www.3721.com的伺服器103和104。用戶計算機101可以是運行Microsoft Windows(微軟視窗)作業系統的任何種類的計算機,包括PC機,Macintosh計算機,以及網際網路設備,如WebTV(網絡電視機)和無線網際網路瀏覽裝置。用戶機101可通過拔入數據機,DSL線,有線數據機,專用線,如T1或T3,或光纖連接,連接到網際網路。顯然,本領域普通技術人員知道,本發明並不限定用戶計算機的具體類型或用戶機與網際網路之間連接的具體形式。網際網路資源定位器伺服器103和104包括瀏覽器模式資料庫105、URL模式106,和其它模式107。
圖2表示用戶機203,通過網際網路連接202,被連接到網際網路資源定位標識伺服器201,如3721伺服器或含有本發明伺服器軟體的其它伺服器。瀏覽器屏幕圖像正在用戶機203中執行。一個小的用戶端計算機軟體也正在用戶機203中執行(見屏幕底部的小圖)。小的用戶端計算機軟體從瀏覽器的地址框截取文本信息(msg)輸入。該信息或者被傳送到網際網路資源定位標識伺服器201以供處理,或者由小的用戶端軟體進行本地處理圖3示出本發明用戶端軟體運行的處理過程。用戶端軟體使用win32鉤子技術(Win32 hook技術)注入所有運行進程中。鉤子是Microsoft Windows消息處理機制中的一個點,在該點,應用程式能夠安裝一個子程序或單獨的模塊,以監視系統中的消息往來,和處理某些類型的消息。鉤子程序可以是全局的,監視系統所有線程中的消息,或者它也可以是特定於線程的,監視單個線程的消息。某些鉤子只能設定為系統範圍(如,WH_SYSMSGFILTER),但大多數鉤子的作用域可以有系統或者特定線程範圍。可以在Microsoft網站(http//www.microsoft.com)找到關於Win32鉤子的技術資料。
檢查所有運行的進程,以確定它是否是需要截獲的目標。如果它是目標,有關進程的信息就被用來查找用戶輸入URL的瀏覽器的編輯控制項。該信息可以用來檢索瀏覽器模式庫,以確定用戶計算機中正在運行的瀏覽器的版本。此資料庫可以自動更新。
一旦找到編輯控制項,就生成一個子類。這個編輯窗口的消息可以是組合框和下拉式列表的選擇或鍵盤輸入。如果它是鍵盤輸入,就檢查確定它是否是URL地址。還是在一個URL的規則模式庫中檢索以確定其是否為一個URL。如果它是組合框或下拉式列表的選擇,就按圖3所示處理。
圖4示出中文版的瀏覽器與本發明的用戶端軟體交互的圖象。用戶在瀏覽器的地址框中用中文輸入單詞「計算機」,就產生與該單詞相關的中文地址表。
然而,今天網站的檢索不僅可以通過英文的URL或者關鍵詞進行,而且也用其它種自然語言進行,如中文。這就需要某些可以使用那種自然語言,有效和準確地進行這種網上信息檢索的處理方法或系統。
可以理解,檢索通常通過資料庫進行,該資料庫包含特別設計的檢索表,從而方便各種檢索任務。對於中文信息的網上檢索,也不例外。作為本發明的檢索之目的,網際網路資源定位標識伺服器應至少包含中文字符的檢索索引表,拼音全拼(拼音)檢索索引表和漢字拼音字母縮寫(拼音字頭)的檢索表。
通常,當輸入關鍵詞查詢時,輸入的關鍵詞短語就被分解成幾個有含義的單詞,將其與有預先設的檢索表匹配。然後,各個單詞的檢索結果合併在一起考慮,以確定最終結果或查詢結果。然而,對於某些自然語言,如中文,所輸入的查詢可能是漢字。每個字符可能有或者可能沒有確切的含意,而且,字符與其它字符的組合可以產生不同含意的中文詞。因此,中文字符串的簡單分解並不能保證查詢結果的準確性。因此,本發明會將用戶所輸入的短語或者查詢詞,分解成所有可能組合出來的有含義的中文詞。
例如,第一個字不只是簡單地與後面的第二個字和/或第三個字組合,得到一個有含義的詞,除此之外,還會與後面的各個字組成其它任何有含義的詞。在本發明中,第一個字會與輸入的任何字組合,組成所有可能的有含義的詞用於查詢。因此,當全部結果都出自於所有可能組合出的有含義的詞時,獲得的查詢結果可以保證查詢的正確。
對中文網站的查詢輸入有可能是漢字輸入、URL輸入和拼音輸入,包括拼音全拼輸入,拼音字頭縮寫,同音字拼音輸入和南方音的拼音輸入。在進入本發明有關上述每個輸入的方法和系統的細節之前,討論一下現有的中文輸入技術可以有助於更好地理解本發明。
中文的主要編碼系統是Big5和國標(即,國家標準)。Big5一般用於處理繁體字,國標一般用於簡體字。在香港和臺灣通行的Big編碼系統中,「天」的二進位編碼是1101000110100100。「天」的國標碼是1110110011001100。請注意上述「天」的Big5碼或國標碼都以1開始,而字母「A」的ASCII碼是以0開始。這個例子說明事實,即,所有中文碼都以1開始,而所有ASCII碼都以0開始。從這種意義上說,系統能在包含中、英文文本的文件裡檢測給定字節是否為英文還是中文。
計算機輸入和處理中文文本是一個非常困難的問題。漢字的數量說明了這點。在中文的方塊字(漢字)書寫系統中,通常使用的漢字有3000到6000個。如果包括相對較少使用的,就有1萬多個漢字。除這個困難以外,還有漢語版本的標準化,多個同音字,生僻字的分界線問題等,都妨礙計算機有效處理中文文本。儘管進行了幾十年大量的研究,存在著數百種不同的方法,但計算機中文輸入和處理仍是妨礙計算機在中國使用,特別是文本處理的一個主要障礙。
目前,可用於輸入和處理漢語文本的計算機系統可被分成三種。第一種是基於將漢字分解成基本圖形元素。每種方法的漢字分解都不是唯一的。因此,學會這些方法相當困難。
第二種和第三種是以發音為基礎,如拼音全拼方法。這些方法會遇到漢語處理中的「同音字問題」。第二種是語音輸入(如,用於中國大陸的「拼音」和用於臺灣的「注音」或BPMF),它對除專業打字員以外的每個人來說是最通用的方法。中文漢字書寫系統是這種方法在概念上和實際上的障礙。
儘管,相對於成千上萬的字而言,僅有約1300個不同的語音音節,然而,一個語音音節可相當於許多不同的漢字。例如,普通話中「yi」的發音能相當於100多個漢字。這在將輸入的語音音節轉譯成相應的漢字時,產生不確定性。
涉及這個「同音字問題」,大多數語音輸入系統使用多選方法。例如,J.Heinzl等的1938年5月5日的德國專利第3,142,138號,K.C.Hsieh的1991年9月10日的美國專利第5,047,932號,和TanShanguang的1991年3月8日的中國專利申請第1064957號。在鍵入語音音節後,計算機顯示出有相同發音的所有可能的字。在一些情況下,屏幕上沒有足夠的空間去顯示有相同發音的所有可能的字。這會需要上下滾動。因此,這些以單個音節為基礎的語音方法很慢。
以獲取相鄰漢字的概率(可能性)為基礎的對這種多選方法的改進公開在,R.W.Sproat的1992年4月1日的英國專利申請第2,248,328號中。概率(可能性)方法能與語法規則進一步相結合。例如,K.T.Lua等的1992年的中文和東方語言的計算機處理,Vol.6,Num.1,85頁。然而,這些方法轉換的準確性(語音到字)一般只能達到80%左右。
第三種方法將語音一字符輸入方法和其它的非語音字母相組合。將非語音字母加到語音字母上,人工地區別相同發音的字。實例包括帶部首標記的拼音(C.C.Chen的1985年11月20日的英國專利第2,158,776號)和帶筆劃數的拼音(G.Xie的1992年11月25日的中國專利申請第1066518號)。這些方法需要記住制定的規則或計算筆劃數,實際降低了輸入速度。
還有其它漢字輸入方法,例如,美國專利第6,073,146號所公開的。′146專利公開了一種系統,使用帶區別符號鍵(和相應的ASCII碼)的鍵盤,使用戶能用表示音節聲調的區別符號注釋每個輸入的語音文本的音節。在系統上執行的這一方法是確定在區別符號(或界定符號)擊鍵時已被輸入的音節。隨後,所有輸入的音節與一個可被接受的語音音節和縮寫表相比較。如果輸入的音節是在該表上,則正確拼寫和口音的音節就被存儲在存儲器中,並被顯示在圖像顯示的語音部分。對後續音節繼續處理,直到輸入界定符。一旦遇到界定符,就使用詞法的和綜合性的處理和/或統計語言模式來分析詞的字符串(定義為兩個界定符之間的字串),以明確確定出代表該詞的字符串中的適當的漢字。這唯一的中文譯文就被儲存在存儲器中,並被顯示在圖像界面的漢字部分。
本發明中,用於網際網路關鍵字查詢的檢索索引數據結構如圖5A,圖5B和圖5C所示。本發明有三種結構近似的檢索索引表。為實現網際網路關鍵字的高速智能檢索,建立適合檢索大規模數據的高效數據結構是非常重要的。本發明的三種數據結構是(1)用於識別普通漢字和英文單詞的詞或短語的智能檢索的索引表;(2)漢語拼音全拼智能檢索索引表;(3)漢語拼音字母縮寫智能檢索索引表。
參見圖5A,索引表是中英文詞表,包括所有中英文詞,例如「中國」、「軟體」、「電腦」、「ibm」等。在中文或英文表中,每個詞都連接到網際網路關鍵字結點列表。該表中的每個結點代表某個指針,指向包含該單詞的網際網路關鍵詞的實際存儲空間。因此,它可以從連結到各詞的網際網路關鍵字入口點列表,檢索出包含該中文或英文單詞的所有網際網路關鍵詞。
參見圖5B,數據結構與圖5A的相似。只是左側中文詞是拼音形式,即語音拼寫。例如,上述詞的中文現在是「zhongguo」、「ruanijan」、「diannao」、等。連結的網際網路關鍵字入口點列表是包括該詞漢語拼音形式的網際網路關鍵字的列表。
圖5C也是有與圖5A相似的數據結構。不同之處在於,左側詞表中,各詞均是漢語拼音首字母縮寫的形式,如「zg」、「rj」、「dn」等。這樣,相關的網際網路關鍵字入口點列表包括該詞與這些查詢的拼音字母縮寫相對應。由這三圖可知,三種基本的智能檢索方法有相似的數據結構,但是,詞是以中、英文詞、拼音全拼(拼音),或拼音字母縮寫(漢語拼音字頭)的不同形式存儲的。因此,可以理解,這三種檢索的內部算法是相同的。關鍵在於這些詞是如何在查詢中分組或選擇,以組成有含意的檢索詞。如上所述,查詢串被分解成所有可能被組合出的有含義的詞,以確保每個可能的檢索詞指向列表中的網際網路關鍵字,並確保查詢如何被判定為是漢字輸入或英文詞輸入,拼音全拼輸入或者拼音字頭縮寫輸入。以下討論本發明的相關方法。
儘管開發了較簡單的方法,漢字輸入仍然是一項非常困難的工作。特別是當網際網路裝置是手持裝置時,如個人數據助理,或者與網際網路無線連接的行動電話。本發明的一個方面,是提供一種簡化漢字輸入的方法。本發明特別適用於輸入網址,或者自然語言關鍵詞或網站(網頁)名。圖6表示出本發明的一個具體實施方案。在此方法中,用戶鍵入中文詞拼音拼寫的字頭,如501所示。拼音字頭被用來查詢資料庫,一個可能的URL表作為結果被列出,如502所示。該表可以以統計信息為基礎,如按照查詢的頻率將最常用的URL首先列出,如503所示。
圖7表示出本發明的另一具體實施方案,在601,輸入中文詞的拼音拼寫。在602,檢查該拼寫,以確定其是否為常見的錯誤拼寫。常見錯拼的發生是因為口音的原因。在中國南方,許多南方人因為南方口音造成漢語拼音錯誤。如果由於南方口音出現錯拼,在605,本發明的系統會自動將其糾正。如果查詢串沒有錯拼,或錯拼已被糾正,則在603,檢索相關的URL資料庫。在604,顯示其輸出。
一個小的用戶端軟體,通過後端的智能檢索引掣和資料庫的支持,可以作為本發明的具體實施方案的例子。該軟體可從http//www.3721.com下載。用戶不必知道或鍵入長而複雜的URL字串,取而代之的是簡單地在網址框鍵入熟悉的品牌、產品名稱的漢字,就可將其帶到其所希望的目標站點或相關網頁。例如,用戶能簡單地鍵入中文的「聯想電腦」就會找到所要訪問的站點,而不用鍵入http//www.legend.com.cn。
現在,來看以下本發明的主要特點,圖8表示出本發明的中文和/或英文詞檢索的基本流程圖。在801,輸入中文和/或英文詞形式的查詢字符串A後,在802,系統就對照中、英文詞表(CEWL)分析查詢字符串A,並且,將查詢字符串A分解成一個或多個中文詞W=(W1,W2,W3,...,Wn)。在803,對W中的每個詞Wx,系統在CEWL表中檢索詞Wx,以找到其附屬的網際網路關鍵字入口點表(IKEPLx),IKEPLx表中的每個節點會指向一個包含詞Wx的網際網路關鍵字(IK)。
在804,系統將所有的IKEPL1,IKEPL2,...,IKEPLn合併在一起,得到結果R,即,R=IKEPL1,U IKEPL2,U...,IKEPLn。由於IKEPLx中的每個節點均指向包含詞Wx的IK,則R的每個IK至少包含W中的一個詞。在805,合併的同時,系統按特定規則對R中每個IK計算其權重,規則的例子如下(1)詞數權重IK所含的在W中的詞的個數(2)長度權重IK所含的在W中的詞的總長最後,在上述規則的基礎上,系統計算每個IK的綜合權重。計算後,在806,系統按IK的權重,將結果R分類,這樣一來,最近似的結果出現在表頭,並且,系統會限制R中結果的數量。然後,在807,出現最終IK表R。
類似地,參見圖9,在901,輸入的查詢字符串A是拼音全拼的形式。在902,當字符串A輸入後,系統對照漢語拼音全拼詞表(FCPWL)分析字符串A,並將其分解成一個或多個漢語拼音詞W={W1,W2,W3,...,Wn}。在903,對於W中的每個詞Wx,系統在FCPWL中檢索,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,IKEPLx表中的每個節點指向其拼音包含Wx的網際網路關鍵詞(IK)。隨後,在904,系統合併IKEPL1,IKEPL2,...,IKEPLn,以獲得結果R=IKEPL1,U IKEPL2,U...,IKEPLn。這樣,R中的每個IK的拼音都至少包含W中的一個詞。以下步驟906-907與805-807的步驟非常相同,即,按特定規則計算R中每個IK的權重;按IK的權重將表R的結果分類,以便把最近似的結果放在表頭,並且,限制R中結果的數量,從而最終獲得結果IK的表R。
類似地,參見圖10,在11,用戶將輸入漢語拼音縮寫字符串A。在12,系統對照漢語拼音縮寫詞表(ACPWL)分析字符串A,並且,將字符串A分解成一個或多個漢語拼音縮寫詞W={W1,W2,W3,...,Wn}。然後,在13,對W中的每個詞Wx,系統在ACPWL中檢索該詞,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,IKEPLx表中的每個節點指向其拼音縮寫包含詞Wx的網際網路關鍵詞(IK)。隨後,在14,系統合併IKEPL1,IKEPL2,...,IKEPLn,以得到結果R=IKEPL1,U IKEPL2,U...,IKEPLn,則R中每個IK的拼音縮寫都至少包含W裡的一個詞。以下步驟15-17與圖8和圖9中的那些步驟基本相同,即,按特定規則計算R中每個IK的權重;按IK的權重將表R的結果分類,以便把最近似的結果放在表頭處,並且,限制R中結果的數量,從而最終獲得結果IK的表R。
在中、英文詞,漢語拼音全拼詞,和漢語拼音縮寫詞,這三種智能檢索模式的基礎上,本發明關於廣域網中智能信息處理的方法和系統將判斷輸入查詢字符串是否為中、英文詞、漢語拼音全拼詞、還是漢語拼音縮寫詞,如圖11所示。在110輸入字符串A後,在111,系統判斷輸入的查詢字符串A是否為漢語拼音全拼詞的形式。如果是,系統就按拼音全拼的智能檢索方法進行計算,如圖9所示。
如果字符串A不是漢語拼音全拼詞,在112,系統判斷輸入的查詢字符串A是否是漢語拼音縮寫詞的形式。如果是,系統就按漢語拼音縮寫詞的智能檢索方法進行計算,如圖10所示。如果字符串A不是,系統就因此判斷出輸入的查詢字符串A是中、英文詞的形式,並且,進行與圖8所示計算相同的計算。然而,有一種情況,系統在113判斷漢語拼音全拼詞檢索或者漢語拼音縮寫詞檢索的計算結果是否是空白。如果結果是空白,系統將再次進行中、英文詞檢索的計算,如圖8所示。如果圖9或圖10的檢索模式的計算不是空白,則其計算結果就被判斷為最終結果。
圖12A表示了本發明的同音詞的拼音全拼檢索模式。在121,輸入查詢字符串A後,在122,系統分析得到所有可能的同音詞組合,作為可檢索的全拼詞。在123,對於每個全拼同音詞,系統進行漢語拼音全拼詞檢索計算,如圖9所示。在獲得所有檢索結果RN後,在124,系統將分析結果RN,並獲得最終和最可能的結果,或限制結果的數量。
圖12B示出本發明中帶有方言錯拼糾正功能的拼音全拼檢索模式。為進一步擴展圖7的方法和系統,在125,輸入全拼詞字符串A後,在126,本發明的系統將對照一個表中所列出的因南方口音可能拼錯的輔音或元音,分析輸入的詞,如「huang」和「wang」,「shi」和「si」「lu」和「l」,等。總之,此表列舉了所有可能拼錯的詞。因此,輸入的查詢字符串被分成為若干個拼音詞,包含所有可能的拼音詞,然後,在127,通過拼音全拼檢索的方法進行計算,以獲得所有可能的結果IK。隨後,在128,分析檢索結果,以獲得最終和最可能的結果。
可以理解,以上敘述僅是說明而不是限制。對於閱讀了上述說明的本領域普通技術人員來說,本發明的許多變化是顯而易見的。因此,本發明的範圍不僅應結合以上說明加以確定,而且還應結合變化和等同物來加以確定。儘管本發明與具體實施方案一起敘述;但可以理解,這並沒有打算將本發明限制在這些具體實施方案。相反,本發明意欲覆蓋可能在本發明實質精神和範圍內的變化、修改及等同物。
權利要求
1.一種網際網路智能信息處理方法,包括步驟a)識別輸入是否是URL地址,英文單詞,本土語言文字,還是本土語言發音符號;b)如果所輸入的是普通的URL,就通過網際網路在相應的伺服器中查詢輸入,並且,直接從其獲得查詢結果;c)如果所述輸入包括本土語言發音符號,就將所述輸入針對至少一個拼音詞表查找相應的網際網路關鍵詞,並且,直接從中獲得查詢結果;和d)如果所述輸入包括本土語言文字,則將所述輸入作為自然語言輸入在自然語言表中進行處理,並獲得所希望的網際網路關鍵詞,並取得相應的網站URL查詢結果。
2.如權利要求1的方法,其特徵在於進一步包括判斷所述音符是拼音全拼形式的詞,還是拼音字頭形式的詞,如果所述輸入是拼音全拼詞字符串,就將所述輸入字符串在含有所有可能的有含義詞組合的漢語拼音全拼詞表中解析。
3.如權利要求1的方法,其特徵在於當以拼音全拼的形式輸入所述查詢字符串後,所述系統對照漢語拼音全拼詞表(FCPWL)分析所述字符串,並將所述字符串分解成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對於W中的每個詞Wx,所述系統在FCPWL中檢索查詢字符串,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,IKEPLx表中的每個節點指向其拼音包含Wx的網際網路關鍵詞,隨後,所述系統合併IKEPL1,IKEPL2,...,IKEPLn,以獲得結果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每個網際網路關鍵詞,其拼音至少包含W中的一個詞。
4.如權利要求3的方法,其特徵在於在附屬的網際網路關鍵詞合併後,所述系統進一步按特定規則計算R中每個網際網路關鍵詞的權重;包括網際網路關鍵詞所含的W中詞數的詞數權重,和網際網路關鍵詞所含的W中詞的總的長度權重;然後,將所述結果表R按網際網路關鍵詞的權重分類,以便把最接近的結果出現在所述表的表頭,接著是限制R中結果的數量,從而獲得最終結果的網際網路關鍵詞表R。
5.如權利要求1的方法,其特徵在於進一步包括判斷所述發音符號是拼音全拼詞,還是拼音字頭縮寫詞;如果所述輸入是拼音字頭縮寫詞字符串,就在含有所有可能有含義詞的組合的漢語拼音縮寫詞表中解析所述輸入字符串。
6.如權利要求5的方法,其特徵在於在判斷所述查詢輸入是漢語拼音縮寫詞後,所述系統對照ACPWL分析所述查詢輸入,將所述查詢輸入分解成一個或多個漢語拼音縮寫詞,即W={W1,W2,W3,...,Wn};對於W中的每個詞Wx,所述系統在漢語拼音縮寫詞表(ACPWL)中解析所述詞,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,IKEPLx表中的每個節點指向其拼音縮寫詞包含所述詞Wx的網際網路關鍵詞;然後,所述系統合併IKEPL1,IKEPL2,...,IKEPLn,以獲得結果R=IKEPL1, U IKEPL2,U...,IKEPLn;隨後,R中的每個網際網路關鍵詞將至少包含W中的一個拼音縮寫詞。
7.如權利要求6的方法,其特徵在於在所述附屬的網際網路關鍵詞合併後,所述系統按特定規則進一步計算R中每個網際網路關鍵詞的權重;包括網際網路關鍵詞所含的W中詞數的詞數權重,和網際網路關鍵詞所含的W中詞的總的長度權重;隨後,將所述結果表R按網際網路關鍵詞的權重分類,以便把最接近的結果出現在所述表的表頭,接著是限制R中結果的數量,從而獲得最終結果的網際網路關鍵詞表R。
8.如權利要求1的方法,其特徵在於所述自然語言表是中英文詞表,這樣,按所述輸入所有可能有含義詞的組合解析所述輸入,以找到附屬的網際網路關鍵詞。
9.如權利要求8的方法,其特徵在於在對照所述中英文詞表(CEWL)分析所述查詢輸入後,將所述查詢輸入分解成一個或多個中文詞,即W={W1,W2,W3,...,Wn};對於W中的每個詞Wx,在CEWL中檢索所述詞Wx,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,隨後,在IKEPLx中的每個節點指向包含所述詞Wx的網際網路關鍵詞。
10.如權利要求9的方法,其特徵在於所述系統合併所有的IkEPL1,IKEPL2,...,IKEPLn,並且,得到結果R,即,R=IKEPL1,UIKEPL2,U...,IKEPLn;由此,每個IKEPLx的節點指向至少包含有一個詞Wx的網際網路關鍵詞;合併得到的所述結果,並且按特定規則計算R中每個網際網路關鍵詞的權重;包括(1)網際網路關鍵詞所含的W中詞數的詞數權重;(2)網際網路關鍵詞所含的W中詞的總的長度權重。
11.如權利要求10的方法,其特徵在於所述系統按上述所述規則,計算每個網際網路關鍵詞的綜合權重,並且在所述計算後,所述系統按所述網際網路關鍵詞的權重將所述結果表R分類,以便把最接近的結果放在所述結果表的表頭,所述系統將限制R中結果的數量,以最終獲得所述網際網路關鍵詞表。
12.一種用於拼音同音詞的智能信息處理方法,其特徵在於包括下列步驟在拼音詞查詢字符串輸入後,分析所有可能的同音詞,並且將所有這些詞認定為漢語拼音全拼的可檢索詞;對於每個漢語拼音的同音詞,按漢語拼音全拼詞表,進行漢語拼音全拼詞檢索計算;將得出的所有檢索結果合併,分析所述結果,從而獲得最終及最可能的結果。
13.如權利要求12的方法,其特徵在於漢語拼音全拼所述計算的進行,是通過按漢語拼音全拼詞表(FCPWL)分析所述查詢字符串,並將所述字符串分解成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對於W中的每個詞Wx,所述系統將在FCPWL中檢索查詢字符串,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,則IKEPLx中的每個節點指向其拼音包含Wx的網際網路關鍵詞;隨後,所述系統合併IKEPL1,IKEPL2,...,IKEPLn,以獲得結果R=IKEPL1,U IKEPL2,U...,IKEPLn;R中的每個網際網路關鍵詞的拼音至少包含W中的一個拼音詞。
14.如權利要求13的方法,在附屬的網際網路關鍵詞合併後,所述系統進一步按特定規則計算R中每個網際網路關鍵詞的權重,包括網際網路關鍵詞所含的W中詞數的詞數權重,和網際網路關鍵詞所含的W中詞的總的長度權重;隨後,將所述結果表R按網際網路關鍵詞的權重分類,以便把最接近的結果放在所述表的表頭,接著是限制R中結果的數量,從而獲得最終結果的網際網路關鍵詞表R。
15.一種用於因南方音而拼錯的拼音全拼的智能信息處理方法,其特徵在於包括下列步驟在拼音詞查詢字符串輸入後,對照會由南方人拼錯的所有可能拼錯的輔音或元音相對應的漢字的詞表,分析輸入的所述詞;窮舉表中列舉出的所有拼錯的詞;將所述查詢字符串分解成為若干個拼音詞,以包含所有可能的拼音詞;進行拼音全拼詞檢索的計算,以獲得可能的檢索結果的所有可能的網際網路關鍵詞;分析所述檢索結果,從而獲得最終及最可能的結果。
16.如權利要求15的方法,其特徵在於在確定所述查詢的拼音全拼正確後,所述系統對照漢語拼音全拼詞表(FCPWL)解析所述查詢字符串,並將所述查詢字符串分成一個或多個漢語拼音詞,即W={W1,W2,W3,...,Wn};對於W中的每個詞Wx,所述系統按FCPWL檢索所述查詢輸入,以找到其附屬的網際網路關鍵詞入口點表IKEPLx,IKEPLx中的每個節點指向其拼音包含Wx的網際網路關鍵詞;隨後,所述系統合併IKEPL1,IKEPL2,...,IKEPLn,以獲得結果R=IKEPL1,UIKEPL2,U...,IKEPLn;R中的每個網際網路關鍵詞的拼音至少包含W中的一個拼音詞。
17.如權利要求16的方法,其特徵在於在附屬的網際網路關鍵詞合併後,所述系統進一步按特定規則計算R中每個網際網路關鍵詞的權重;包括網際網路關鍵詞所含的W中詞數的詞數權重,和網際網路關鍵詞所含的W中詞的總的長度權重;隨後,將所述結果表R按網際網路關鍵詞的權重分類,以便把最接近的結果展現在所述表的表頭,接著是限制R中結果的數量,從而獲得最終結果的網際網路關鍵詞表R。
18.一種網際網路智能信息處理系統,其特徵在於包括一個用於輸入詞的查詢字符串的裝置;一個用於識別輸入詞是否是URL地址,英文詞,本土語言文字,還是本土語音符號的裝置;一個用於通過網際網路在相應的伺服器中查詢所述輸入,如果所述輸入是普通的URL時,直接從中獲得所述查詢結果的裝置;一個用於對照至少一個拼音詞表分析所述輸入,如果所述輸入包括所述本土語音符號時,找出相應的網際網路關鍵詞,隨後取得相應的查詢結果的裝置;和一個用於將所述輸入作為自然語言輸入在自然語言表中處理的,並當所述輸入包括本土語言文字時,獲得所希望的網際網路關鍵詞,取得相應的URL網站查詢結果的裝置。
19.如權利要求18的系統,其特徵在於進一步包括一個用於檢查所述查詢輸入的漢語拼音詞是否有由於南方音而出現常見的錯拼的裝置,和一個用於自動糾正所述拼錯的詞的裝置,其中在確定所述輸入拼音正確,並且任何拼錯詞被糾正後,由一資料庫查詢裝置進行相關URL的檢索。
全文摘要
一種網際網路智能信息處理的方法和系統,包括識別輸入是否是URL地址,英文詞,本國文字,和還是本國語發音符。如果輸入是普通的URL,系統通過網際網路在相應的伺服器查詢輸入,並且,直接從其獲得查詢結果。如果輸入包括本國語音符,系統至少對照一種拼音詞表分析輸入,以找到相應的網際網路關鍵字,然後取得相應的查詢結果;如果輸入包括本國文字,系統將輸入作為自然語言表中的自然語言,獲得所希望的網際網路關鍵字,並取得相應的網站URL的查詢結果。
文檔編號G06F13/00GK1383517SQ01801846
公開日2002年12月4日 申請日期2001年6月28日 優先權日2000年6月28日
發明者周鴻禕 申請人:因特國風網絡軟體有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀