新四季網

自助式智能垂直搜索方法

2023-08-08 10:50:26

專利名稱:自助式智能垂直搜索方法
技術領域:
本發明涉及一種應用於數字網絡的搜索領域,特別是一種自助式智能垂直搜索方法。
技術背景目前,搜尋引擎技術的廣泛應用使得用戶能夠輕鬆、便捷地獲得希望獲得的信息。但是,現有搜索引 擎和搜索技術也存在著缺點和不足1、 網絡存在的海量信息,也使得利用關鍵字搜索技術的搜尋引擎返回的搜索結果數量具大,其中非 常多的信息其實對用戶而言是毫無用處的,用戶不得不在這些龐大的信息集中尋找他們需要的信息。2、 現有的搜索技術不能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的"口 味",而是完全由用戶自己來判斷搜索結果對其的價值。3、 如今的搜尋引擎不能反映用戶對搜索結果的評價,也不能將這個主觀的評價融入搜尋引擎中,從而修正搜索的過程,使得搜索結果更為精準。4、 大多數的功能執行由伺服器來進行,現有的通用搜尋引擎不能有效利用用戶端自身的數字終端硬 件資源,使得伺服器的壓力過重,從而不能高效地執行功能程序,造成大量投資購置伺服器硬體。 發明內容本發明的目的正是為了克服上述缺點,而提供一種自助式智能垂直搜索方法,更具體的說,是一種用 戶主動幹預搜索機制、垂直深化搜索結果的自助式智能搜索方法、系統和電腦程式。本發明解決其技術問題採用的技術方案。這種自助式智能垂直搜索方法,包括如下步驟1. 1)、利用存儲在客戶端和伺服器端的用戶cookies文件、註冊信息、歷史搜索信息以及定製的關 注模塊進行用戶偏好學習,並將這個用戶偏好建立為用戶統計模型實時、動態地存儲到搜尋引擎資料庫中;1. 2)、利用關聯句/詞庫對用戶輸入的搜索語句進行高速中文分詞,並生成一個關鍵句/詞集文件, 該文件包含了進行語義分析後的所有相關、相似的關鍵句和關鍵詞,對用戶歷史搜索信息進行統計學習, 得出在用戶的搜索習慣中與這些關鍵句/詞集相關、相似的關鍵句/詞,通過高速中文分詞和用戶搜索習慣 學習,得出一個最終的關鍵句/詞集文件;1. 3)、搜尋引擎通過網絡資料庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果 與用戶統計模型進行匹配,在這些搜索結果中搜索其關鍵句/詞符合用戶偏好的信息,最終,將符合用戶 偏好的搜索結果返回給用戶。本方法可以將用戶對搜索結果的評價反映出來,據此來修正機器學習的過程,並同時修正用戶統計模型。本方法中用戶可以定製感興趣的內容和信息、表格化搜索結果以及即時通訊。 本發明有益的效果是1、用戶可以從龐大的信息集中尋找他們需要的信息。2、 該方法能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的"口味",而是 完全由用戶自己來判斷搜索結果對其的價值。3、 能反映用戶對搜索結果的評價,也能將這個主觀的評價融入搜尋引擎中,從而修正搜索的過程, 使得搜索結果更為精準。4、 需要的硬體資源比google、百度等通用搜尋引擎要多,能有效利用用戶自身數字終端的硬體資源, 從而大大緩解伺服器端的壓力。


圖1實施例中本發明方法得以實現的系統框圖;圖2實施例中實現本方法的用戶評價機制和系統學習機制等的系統流程圖;圖3實施例中的關聯詞庫數據結構圖; 圖4實施例中的專利信息數據結構圖; 圖5實施例中的商機信息數據結構圖; 圖6實施例中的公司信息數據結構圖; 圖7實施例中的用戶統計模型數據結構圖; 圖8網頁的專利信息搜索的用戶界面截圖; 圖9網頁的商機信息搜索的用戶界面截圖; 圖10網頁的公司信息搜索的用戶界面截圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步介紹為了更好地闡述本發明方法和系統的機制,首先對以下名詞做如下解釋 用戶帶著某種搜索信息的目的使用本發明所述系統的使用者。用戶幹預意指用戶通過某種幹預程序模塊,如用戶評價體系,來修正系統機器學習中出現的偏差, 不僅能提高機器學習的準確性,同時也使得搜索的結果更精確。垂直搜索正如字面意義解釋的那樣,垂直搜索指的是搜索結果的深化、精確化,而這種深化指的是 更貼近用戶的搜索目的和偏好,所以,它的搜索基礎是用戶的統計模型和整個網絡資料庫,而非前一次搜 索的結果,這就使得本發明方法和系統和百度、gOOgle等目前比較知名的搜尋引擎有著不同之處。對本描述來說,在附圖的任一個或多個中引用具有相同標號的步驟或特徵的情況下,這些步驟或特徵 具有基本上相同的功能或操作。圖1示出的是示例性實施例中自助式智能垂直搜索方法的系統框圖。該系統包括客戶端系統I 100, 客戶端系統IUIO,數字網絡120,外部數據源140,伺服器端系統130,資料庫記錄150以及應用程式160。 卜面結合圖l對各個部分進行詳細地說明。客戶端系統I 100和客戶端系統IIllO是兩種不同形式的客戶端系統,而客戶端系統和伺服器端系統 在功能組成上可以認為都是一種客戶機系統。客戶機系統本發明所述的客戶機系統都可以通過數字終端系統來實現,用於執行本發明所述處理過 程的應用程式,但並不僅限於此。客戶機系統可以是數字終端或是連接到數字終端的終端。 一般地,為了 實現本發明所述方法和系統,在本發明中所指的數字終端至少需要包括顯示裝置、音頻輸入和輸出裝置、 用戶輸入單元、存儲器以及CPU,並且被認為是可以執行能夠實現本發明所述方法和系統的應用程式,如 網絡瀏覽程序Internet Explorer。可以理解地,該客戶機系統並不僅限於數字終端系統,也可以是手機等其他設備,該領域的技術人員 應該能很容易地理解這一點。顯示裝置可以是一個監視器,如常規的CRT和LED,或其他任何被安排為顯示信息內容的裝置。音頻輸入輸出裝置可以是耳機、麥克風、話筒等等將音頻數據輸入或輸出計算機的裝置。當然,音 頻輸入和輸出裝置可以融合為一體,如帶有麥克風的耳機。用戶輸入單元可以是鍵盤、滑鼠等等,輸入單元可以配備光標控制鍵,如向左鍵、向右鍵、向上鍵和向下鍵。當然,顯示裝置和用戶輸入單元可以融合為一體,如觸控螢幕。存儲器該存儲器可以理解為存儲由CPU執行能夠實現本發明所述方法的應用程式,也可以存儲文檔,例如常規隨機訪問存儲器(RAM)。CPU:該CPU可以是通用處理器單元,用以訪問存儲器中的文檔,以進行搜索,也可以是一個單獨的通信單元,如數據機,這個通信單元的作用是從外部獲取文檔。客戶端系統I 100:客戶端系統I代表的是一種訪問網絡120與伺服器端系統130進行通信活動的客 戶端組成方式。它進行通信的目的在於向伺服器端系統130請求搜索信息。客戶端系統I包括了通過本地 網絡103連接的組群1和組群2,組群1和組群2同樣是兩個不同的客戶機系統。組群1和組群2可以分 布在同一個或不同的本地網絡內。客戶機系統IOI、客戶機系統102通過本地網絡103聯結為客戶端系統 I 組群可以是通過個人、部門、商品、子公司、合作夥伴或其他方式進行聯合的集合,也可以代表為 一個行業,如金融業、製造業。本地網絡103:包括限制在有限地理區域的區域網LAN,以及不受限於有限地理區域的廣域網WAN和 城域網MAN。客戶端系統niio:與客戶端系統i不同的是,客戶端系統n代表的是另一種作為一個可以通過網絡120與伺服器端系統130進行通信活動的客戶端形式。客戶端系統I代表的是一個單獨的客戶機系統110。可以理解地,在另一個實施例中,可能包含客戶端系統I和客戶端系統II的其中一種或全部客戶端系 統形式,但客戶端系統的組合形式不影響本發明所述方法的實現。數字網絡120:有線的或無線的數字網絡信息或信號的傳輸網絡,用來傳輸數字網絡的信息。可以理 解為但不僅限於區域網LAN、廣域網WAN、城域網MAN、虛擬專用網VPN和網際網路。客戶端系統I和客戶端 系統II以及其他網絡終端實體可以通過任何一種形式的網絡連接到伺服器端系統130,但它們不一定是通 過同一個網絡連接到伺服器端系統130上的。伺服器端系統130:伺服器端系統通過一個或多個伺服器來實現,可以是資料庫伺服器131、網絡服
務器132、應用程式伺服器133的其中一個或多個伺服器聯合,也可以是一個伺服器中包含了其中一種或 多種伺服器的功能。伺服器用於響應存儲在伺服器上的電腦程式操作。資料庫伺服器131:存儲資料庫記錄150的所有電子信息並執行對資料庫記錄150的訪問。 資料庫記錄150:存儲與伺服器端系統130有關的所有用戶或客戶機系統的各種信息內容和數據,如關聯詞庫151、搜索結果152、用戶統計模型153。這些信息內容和數據包括圖3、圖4-1、圖4-2、圖4-3和圖5所示出的示例性實施例的資料庫記錄所包含的欄位。圖3說明了關聯詞庫151結構的一個示例,它包含了多個欄位。其中相似的本地句詞集310代表了某 個關鍵句/詞的所有類似句/詞的集合,這些類似句/詞是存儲在資料庫伺服器131中的。相似的外部句詞 集320代表了該關鍵句/詞的所有類似句/詞的集合,這些類似句/詞是存儲在連接在數字網絡120上的外 部數據源140中的,伺服器端系統130在需要時可以通過數字網絡120向外部數據源140請求這些關鍵句 /詞並存儲到本地資料庫伺服器131中。相關的本地句詞集330代表了該關鍵句/詞的所有相關句/詞的集 合,這些相關句/詞是存儲在資料庫伺服器131中的。相關的外部句/詞集340代表了該關鍵句/詞的所有 相關句/詞的集合,這些相關句/詞是存儲在外部數據源140中的,伺服器端系統130在需要時可以通過數 字網絡120向外部數據源140請求這些關鍵句/詞並存儲到本地資料庫伺服器131中。相似的用戶歷史關 鍵句詞集350是通過用戶歷史搜索結果統計得來的關於某個用戶的該關鍵句/詞的相似句/詞集,這些關鍵 句/詞具有特定的用戶特徵,為某個用戶專有,伺服器端系統130對某個用戶的歷史搜索結果和評價信息 進行統計後得出該句詞集,在該用戶登陸系統進行搜索時,伺服器端系統130自動調用該句詞集加入到這 個關鍵句/詞的關聯詞庫中。相關的用戶歷史關鍵句詞集360是通過用戶歷史搜索結果統計得來的關於某 個用戶的該關鍵句/詞的相關句詞集,與上述相似的ffl戶歷史關鍵句詞集350類似地,在某個用戶登陸系 統進行搜索時,伺服器端系統130自動調用該句詞集加入到這個關鍵句/詞的關聯詞庫中。相似在本發明中的"相似"指的是這樣一種情況, 一個關鍵句/詞有很多其它不同的關鍵句/詞與其 意義相近,例如,"電腦"的相似關鍵詞有"計算機"、"c咖puter"、 "PC機"等,其中"計算機"可能是 根據用戶的歷史搜索結果統計得出的相似關鍵詞。相關在本發明中的"相關"指的是這樣一種情況, 一個關鍵句/詞有很多其它不同的關鍵句/詞與其 有著緊密地聯繫,該聯繫有著特定的時代和歷史特徵,可以隨著時代潮流的改變而改變,例如,"電腦" 的相關關鍵詞有"筆記本"、"鍵盤"、"滑鼠"、"U盤"、"MP3"等,其中"MP3"可能就是根據用戶的歷史 搜索結果統計得出的相關關鍵詞。圖4、圖5、圖6是搜索結果152的數據結構的三個示例。本發明的一個示例性實施例中,系統主要 針對三個內容的搜索專利、商機以及公司。其中圖4展示的是專利信息數據的構成,專利信息數據構成410包括專利編號411、專利描述412、 專利概要413、專利全文414、發布時間415、發明人416、專利類型417以及所屬公司編號418。專利編 號411表示的是專利信息的唯一編號,便於系統檢索並調用。專利描述412即為該專利的名稱。專利概要 413對伺服器端系統和用戶而言,其實起到一個接口的作用,它是靜態的一個數據,和專利的其他信息一 樣,被靜態地存儲在資料庫伺服器中,用戶可以通過專利的概要了解這個專利是否對其有用、和他的搜索
目的相關;另一方面,伺服器端系統也是通過專利概要413中的關鍵句/詞而非專利全文414中的關鍵句/ 詞進行搜索、匹配以及調用,所以,這也使得搜索的結果更貼近用戶的目的;而通過這種途徑所獲得的搜 索結果的顯示,也並非如百度和google —樣,只是顯示包含關鍵詞的全文節選,而是專利的描述和其他 信息,只有當用戶輸入單元如滑鼠移動到專利描述412上,才會顯示專利概要413。專利全文414指的是 專利的全部說明文件。發布時間415是該專利在該網站發布即存儲的時間,而非專利的公布時間。發明人 416是該專利的發明者。專利類型編號417代表該專利所屬的類型,分為實用新型專利、外觀專利和發明 專利,和專利類型屬性表相關聯。所屬公司編號418是指擁有該專利的公司的唯一編號。類似地,圖5展示的是商機信息數據的構成,本發明所指的商機是商業機會的簡稱,通過商機,用戶 可以找到與其他公司或個人合作的方式。商機信息數據構成420包括商機編號421、商機描述422、商機 概要423、商機具體說明424、商機類型編號425、有效時間426以及所屬公司編號427。商機編號421表 示的是商機信息的唯一編號,便於系統檢索並調用。商機描述422即為該商機的名稱。與專利概要類似地, 商機概要423對伺服器端系統和用戶而言,起到一個接口的作用,它包含了產品信息、公司信息、供求信 息以及公司的聯繫方式。 一方面,用戶可以通過商機概要423 了解這個商機是否對其有用、和他的搜索目 的相關;另一方面,伺服器端系統也是通過商機概要423中的關鍵句/詞進行搜索、匹配以及調用。只有 當用戶輸入單元如滑鼠移動到商機描述422上,才會顯示商機概要423。商機具體說明424指的是商機的 具體說明。商機類型編號425將商機所屬的類別歸類,如求購和出售,和商機類型屬性表相關聯。有效時 間426指的是該商機能夠產生價值的時間, 一旦超過這個時間期限,這個商機很有可能就消失了。所屬公 司編號427是指擁有該商機的公司的唯一編號。類似地,圖6展示的是公司信息數據的構成。公司信息數據構成430包括公司編號431、公司描述432、 公司信息概要433、公司簡介434、公司具體信息435、公司類型編號436、成立時間437、註冊資本438、 註冊日期439、員工人數440、年營業額441、企業所有形式編號442、出口率443、外國人投資比率444、 公司網址445、公司email446、求購類別編號447、銷售類別編號448、聯繫人449、公司電話號碼450、 傳真號碼451、公司聯繫地址452以及郵政編碼453。公司編號431表示的是公司的唯一編號,便於系統 檢索並調用。公司描述432即為該公司的名稱。與專利概要類似地,公司信息概要433對伺服器端系統和 用戶而言,起到一個接口的作用。 一方面,用戶可以通過公司信息概要433 了解這個商機是否對其有用、 和他的搜索目的相關;另一方面,伺服器端系統也是通過公司信息概要433中的關鍵句/詞進行搜索、匹 配以及調用。只有當用戶輸入單元如滑鼠移動到公司描述432上,才會顯示公司信息概要433。公司簡介 434是公司信息概要433的一部分,用以簡單地介紹公司情況。公司具體信息435指的是公司的具體信息。 公司類型編號436與公司類型屬性表相關聯,將公司所屬的類別歸類,如生產型、貿易型、服務型、政府 和其他機構等。成立時間437指的是該公司進行工商登記及稅務登記時申報的公司成立時間。註冊資本438 指的是公司這註冊時工商登記時的資產總額。註冊日期439是該公司註冊為系統用戶的日期。員工人數440 是該公司的員工人數。年營業額441是指上一年的營業總額。企業所有形式442表示企業的所有制形式, 如國營、私營、有限責任制。出口率443是指公司的出口產品佔公司總產品數量的比率。外國人投資比率 444是指外國人在公司的投資額佔公司資產總額的比率。公司網址445是該公司的網站網址。公司emai1446 是指公司對外聯繫的電子郵件地址,方便外界進行業務諮詢。求購類別編號447是指該公司求購產品的類 別,如數字終端周邊等,和產品類別屬性表相關聯。銷售類別編號448是指該公司銷售的產品類別,如數 碼設備等,和產品類別屬性表相關聯。聯繫人449是該公司對外聯繫的人員名稱。公司電話號碼450是該 公司的電話號碼。傳真號碼451是該公司的傳真號碼。公司聯繫地址452是指該公司的聯繫地址。郵政編 碼453是該公司聯繫地址的郵政編碼。專利信息數據410、商機信息420以及公司信息430通過公司編號431進行關聯,便於系統在搜索任 何一個內容的結果時,返回給用戶的不僅僅是用戶想要搜索的內容,同時也把同一個公司的相關專利、商 機以及公司信息返回給用戶,使得用戶能找到最貼近其搜索目的的搜索結果並激發用戶的潛在興趣。圖7示出用戶統計模型的數據構成。用戶統計模型包含的數據有用戶編號510、用戶名520、其他 註冊信息530、歷史搜索信息540、歷史關鍵句詞集550、關注模塊560以及客戶端cookies文件。用戶編 號510代表的是該用戶信息存儲在資料庫中的唯一編號,便於伺服器端系統130對用戶模型的更新和調用。 用戶名是用戶自行提交的,作為用戶登陸搜索系統的身份驗證資料。其他註冊信息530是用戶在註冊為搜 索系統註冊用戶時除了用戶名之外的其他信息,如登陸密碼、所屬行業、公司名稱等。歷史搜索信息540 是用戶註冊之後進行搜索的搜索語句和搜索結果的集合,伺服器端系統130利用歷史搜索信息540來形成 歷史關鍵句詞集550,是系統進行偏好學習的重要根據。歷史關鍵句詞集550是由歷史搜索信息540形成 的,代表在用戶的搜索習慣中,用戶認為的與某個關鍵句/詞相似、相關的關鍵句/詞是哪些,這些關鍵句 /詞彙集成一個句詞集,形成該用戶專屬的某個關鍵句/詞的關鍵句詞集,用戶搜索過的關鍵句/詞的關鍵 句/詞集存儲在該用戶的統計模型中,形成用戶的歷史關鍵句詞集550。關注模塊是由用戶自行定製的感興 趣的想要搜索的內容,可以是特定的行業,如金融業、服務業,也可以是特定的信息語言,如英語、日語, 亦可以是特定的地理區域,如大陸、港澳臺。關注模塊560同樣是用戶偏好學習的重要依據。客戶端cookies 文件570是存儲在客戶端的一些網頁信息,如用戶名和網址,當用戶沒有登陸系統而進行搜索時,客戶端 cookies文件570是用戶偏好學習的唯一依據,而當用戶登陸系統爾後進行搜索時,客戶端cookies文件 570和用戶統計模型的其他數據一起,作為用戶偏好學習的依據。為了更好地理解圖7示出的數據結構,下面對客戶端cookies文件570做一個更為詳細的說明。cookies 亦稱cookie。 cookies是一種能夠讓網站伺服器把少量數據儲存到客戶端的硬碟或內存,或是從客戶端的 硬碟讀取數據的一種技術。cookies是當某個用戶瀏覽某網站時,由網絡伺服器置於用戶硬碟上的一個非 常小的文本文件,它可以記錄用戶的用戶名、密碼、瀏覽過的網頁、停留的時間等信息。當用戶再次來到 該網站時,網站通過讀取cookies,得知用戶的相關信息,就可以做出相應的動作,如在頁面顯示歡迎用 戶的標語,或者讓用戶不用輸入用戶名、密碼就直接登錄等等。在本發明的實施例中,不單獨把客戶端 cookies文件570作為用戶統計模型的唯一數據,而把客戶端cookies文件570和用戶統計模型153中的 其他數據一起作為用戶偏好學習的依據的另一個原因是,可能出現多人共用一臺數字終端、臨時文件夾的 刪除的情況,使得cookies文件不能準確反映情況甚至丟失,所以,必須把其他數據引入用戶統計模型153, 使得偏好學習的過程更為準確。下面再回到圖1。網絡伺服器132:與像客戶端系統I IOO和客戶端系統IIIIO這樣的客戶端系統進行通信,如向客戶端 系統I IOO和客戶端系統IIIIO發送信息、接收信息,並執行相關聯的任務。應用程式伺服器133:根據示例性實施例,應用程式伺服器存儲、執行諸如應用程式160的計算機程 序。外部數據源140:可以採用類似於伺服器端系統130的一個或多個伺服器來實現,它的作用在於查詢 伺服器端系統130之外的可用第三方信息源,並利用這些信息源提供的相關信息內容通過應用程式160的 訪問和執行生成關聯信息返回給客戶端系統I IOO和客戶端系統IIIIO。應用程式160:在本說明中,把能夠實現本發明所述方法和系統的一種或多種電腦程式統稱為應用 程序,當然,應用程式中的某些處理可以通過客戶端系統I IOO和客戶端系統IIIIO來實現。應用程式160 包括了以下幾個主要程序和機制表格化程序161、用戶評價機制162、用戶偏好學習機制163、並發爬蟲 機器人程序164以及即時通訊程序165。表格化程序161:指的是這樣一個程序,它將搜索結果152的內容結構化,分解成顯示頁面需要的字 段,如將一個專利信息分解成專利名稱,發明人,專利概要等欄位,並將這些分解好的欄位一一對應地存 入相應地的表格單元中,然後系統將這個表格調用出來,顯示成用戶看到的頁面。用戶評價機制162:用戶通過對搜索結果的評價,將其認為比較符合搜索目的和偏好的搜索結果挑選 出來,系統根據這些選中的搜索結果的概要信息中的關鍵句/詞,進行進一步的搜索,從而達到深化搜索 的目的;另一方面,用戶通過對搜索結果的評價,修正系統偏好學習的錯誤和偏差,從而改正了用戶統計 模型153。用戶偏好學習機制163:伺服器端系統130通過存儲在資料庫伺服器131中的用戶統計模型153和關 聯詞庫151,通過將搜索結果與用戶統計模型中的數據進行關聯度匹配,即在這些結果中根據用戶偏好和 習慣的關鍵句詞集來再次搜索,關聯度越高表示用戶對這個搜索結果越偏好,即興趣越大。根據關聯度, 系統對搜索結果進行刪減和排序,關聯度高的搜索結果顯示的就越靠前。並發爬蟲機器人程序164:系統響應用戶的搜索請求,並把與關鍵句詞集中的所有關鍵句/詞相關的信 息從各個外部數據源140中抓取所需要的數據和信息,實現這樣一種方法的程序稱為並發爬蟲機器人程序。 通過這個程序採集得來的搜索結果經過分析,存入資料庫中,並以此更新用戶統計模型。在本說明的示例 性實施例中,並發爬蟲機器人程序164運用了 HTTP協議、socket技術、cookie線程池、dom4j、 XML、正 則表達式等相關技術。HTTP協議HTTP協議(Hypertext Transfer Protocol,超文本傳輸協議)是用於從WWW伺服器傳輸超 文本到本地瀏覽器的傳送協議。它可以使瀏覽器更加高效,使網絡傳輸減少。它不僅保證數字終端正確快 速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示(如文本先於圖形)等。socket:所謂socket通常也稱作"套接字",用於描述IP位址和埠,是一個通信鏈的句柄。應用程 序通常通過"套接字"向網絡發出請求或者應答網絡請求。cookie:如圖7中對客戶端cookies文件570的說明那樣,cookie是一個文檔文件,只能被特定的網 站讀取和調用。dom4j: dom4j是一個Java的XML API,類似於jdom,用來讀寫XML文件。dom4j是一個非常優秀的 Java XML API,具有性能優異、功能強大和極端易用使用的特點。XML: XML代表Extensible Markup Language (extensible Markup Language的縮寫,意為可擴展的 標記語言)。XML是一套定義語義標記的規則,這些標記將文檔分成許多部件並對這些部件加以標識。它也 是元標記語言,即定義了用於定義其他與特定領域有關的、語義的、結構化的標記語言的句法語言。XML 定義了一套元句法,如果一個應用程式可以理解這一元句法,那麼它也就自動地能夠理解所有的由此元語 言建立起來的語言。XML描述的是結構和語義,而不是格式化。正則表達式正則表達式(regular expression)描述了一種字符串匹配的模式,可以用來檢査一個串 是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。正則表達式作為一 個模板,將某個字符模式與所搜索的字符串進行匹配。即時通訊程序165:在搜索結果152中,專利信息410、商機信息420、公司信息430都涉及了公司的 電話號碼,即時通訊165是這樣一個程序,用戶通過客戶端系統I 100或客戶端系統IIllO的用戶輸入裝 置,如滑鼠,向系統請求與搜索結果中的某個公司進行通訊,系統啟動即時通訊應用程式,將該用戶與這 個公司的固定電話終端或網絡電話終端接通,該公司人員拿起電話機話筒或啟動網絡電話終端,即表示通 訊連接成功,用戶利用音頻輸入輸出裝置,如耳機和麥克風就可以即時地向感興趣的公司諮詢,而被呼叫 的公司人員也可以利用固定電話機或者是耳機和麥克風解答諮詢。這樣,用戶不需要在有疑問時,利用固 定電話等通訊設備呼叫對方,而是直接在網上完成諮詢。應當理解,圖l只是為了更清楚地說明本發明而示出其中一種示範系統,但並不代表本發明就局限於 此範圍。下面來看圖2。圖2示出示例性實施例的處理過程。其中圖中的虛線框部分是系統後臺執行的步驟或 是用戶不可見的步驟。首先用戶通過客戶端系統IIOO或客戶端系統IIllO登陸到系統網站,即通過數字 網絡120向伺服器端系統130發送信息請求,伺服器端系統130將初始頁面信息200返回給用戶。初始頁 面200包括以下幾個部分搜索語句輸入框201:在搜索語句輸入框201中,用戶可以輸入一條帶有搜索目的的完整語句,如"杭 州8月份的硬碟價格如何?";也可以輸入關鍵詞,如"電腦杭州"。關注模塊定製按鈕202:用來啟動定製程序,用戶點擊該按鈕後,系統自動調轉到定製頁面,通過這 個機制,用戶可以定製自己感興趣的內容,如特定的行業和特定的地理位置等。當然,這個按鈕有效的前 提是該用戶已經是註冊用戶且已經登陸系統,這個前提在接下來的步驟中也有類似描述。用戶登陸/註冊按鈕203:用戶通過這個按鈕可以註冊為該系統的註冊用戶,也可以通過這個按鈕登陸 到該系統,以便系統啟動用戶統計模型153,使得搜索結果更精確。步驟210中,用戶通過客戶端系統i ioo或客戶端系統niio中的用戶輸入單元,如鍵盤,在搜索語句輸入框201中輸入想要搜索的問題語句或關鍵詞,如"杭州8月份的硬碟價格如何?"、"電腦杭州" 等。伺服器端系統130接收到搜索請求,首先執行步驟211,對用戶輸入的問題語句或關鍵詞進行高速中 文分詞,將"杭州8月份的硬碟價格如何?"這個完整語句語義分解為"杭州"、"硬碟價格"、"8月份" 這幾個關鍵句/詞。接著步驟212,伺服器端系統130在本地資料庫伺服器131中以及通過網絡120和並發爬蟲機器人程 序164在外部數據源140中檢査該用戶的關聯詞庫151是否包含這些關鍵句/詞相似和相關的關鍵句/詞。接著步驟213,系統將這些相似的和相關的關鍵句/詞加上語義分解後的關鍵句/詞一起,從該用戶的 關聯詞庫151中提取出來,生成一個新的關鍵句詞集,這個關鍵句詞集包含了所有上述的關鍵句/詞。然後在步驟214,伺服器端系統130訪問本地資料庫伺服器131以及通過網絡120和並發爬蟲機器人 程序164從外部數據源140請求搜索包含這些關鍵句/詞的信息。步驟215,系統進行邏輯判斷,如果用戶登陸了該系統,說明該用戶必定是註冊用戶,則進一步同時 激發步驟216和步驟217。步驟216調用伺服器端系統130存儲的用戶統計模型153。步驟217調用客戶 端系統I 100或客戶端系統IIllO中儲存的cookies文件。而如果用戶沒有登陸該系統,則不管該用戶是 否註冊用戶,系統只執行步驟217,即只調用客戶端系統I 100或客戶端系統IIllO中儲存的cookies文件。隨後的步驟218,系統啟動用戶偏好學習機制163,利用關聯詞庫151以及特定用戶的用戶統計模型 153進行用戶的偏好學習,得出哪些關鍵句/詞是用戶偏好的或是符合用戶搜索習慣的,根據這些關鍵句/ 詞來判斷搜索來的結果對這個用戶而言是否有用,關聯度較高,並根據這個思路繼續執行步驟219。步驟219利用用戶偏好學習的結果,系統對搜索結果進行刪減、排序,把不相關的信息從搜索結果中 刪除,把關聯度較高的排列在前。在隨後的步驟220中,系統調用應用程式伺服器133中的表格化程序161,將已經排序好的搜索結果 用結構化方式寫到網頁的表格中,使得各項內容一一對應、簡潔有序。接著系統將表格化的搜索結果230 展示給用戶。並同時執行步驟221、步驟222和步驟223。步驟221中,系統利用搜索結果更新伺服器端 系統130中的用戶統計模型153,並存儲到資料庫伺服器131中。步驟222中,系統利用搜索結果更新客 戶端系統I100或客戶端系統II110中的cookies文件。步驟223種,系統利用搜索結果的關鍵句/詞更新 該用戶的關聯詞庫。最後展示給用戶的搜索結果230包含了以下信息用戶評價複選框231:在搜索結果描述234前都有一個複選框,讀者可以選中這個複選框表示對這一 條搜索結果的關注度比其他未選中的搜索結果高,從而使得伺服器端系統130能夠根據這些選中的搜索結 果進行進一步的搜索,並同時依此更新用戶統計模型。搜索結果描述234:簡要地代表一個搜索結果,但是需要注意的是,搜索結果描述有時候並不能完全 或正確地反映搜索結果的內容。即時通訊按鈕235:該按鈕激發即時通訊程序165,目的是隨時地和另一方取得語音聯繫,以便獲得 最新最準的資訊。在步驟236中,用戶通過輸入單元如滑鼠、鍵盤等選中評價複選框231,表示對這個搜索結果較為滿 意、感興趣。隨後步驟237中,用戶點擊再次搜索按鈕,系統啟動用戶評價機制162,將選中的搜索結果 重新進行髙速中文分詞,再次激發步驟211以及隨後的步驟,目的在於重新在整個網絡數據而非在第一次 的搜索結果中搜索與選中搜索結果相關的信息,再次搜索得來的信息可能會比第一次搜索得來的信息更 多、更豐富,而不是越搜越少,所以也使得搜索結果更精確、更貼近用戶的需要。這個過程也可以更新用 戶統計模型153,從而使得用戶偏好學習機制163的學習過程更準確。可以替代地,用戶執行步驟238,用戶將滑鼠移動到結果描述234上。這時激發步驟239,系統將這 個結果信息的概要展示給用戶,用戶通過這個信息概要,可以清晰地判斷該信息對其是否有用。可以替代地,用戶執行步驟240,用滑鼠點擊即時通訊按鈕235。系統接收到用戶請求後,步驟241, 系統判斷用戶是否己經將音頻輸入輸出設備,如耳機、麥克風設備連接到計算機上。如果系統能檢測到這些設備已經在運轉,則執行步驟244,提示用戶戴上耳麥並確保麥克風開啟。這 時對方拿起話筒後進入步驟245,表示通訊已經建立成功。而如果系統監測到用戶並沒有把耳機和麥克風連接到計算機上,則執行步驟242,系統提示用戶將耳機和麥克風等設備與計算機連接好。待用戶連接好通訊設備,即步驟243後,系統繼續執行步驟244及其後續步驟。可以替代地,用戶執行步驟246,用滑鼠或鍵盤點擊搜索結果描述234。隨後,系統執行步驟247,將連結的搜索結果網頁顯示給用戶,並繼續執行步驟221、步驟222以及步驟223,更新伺服器端用戶統計模型153、客戶端cookies文件以及該用戶的關聯詞庫151。在步驟210的替代步驟250中,用戶可以定製自己感興趣的內容,如特定的行業和地理位置,但這個 功能只對註冊用戶開放。用戶點擊關注模塊定製按鈕202後,系統執行邏輯判斷步驟251,判斷用戶是否 已經登陸了網站,如果用戶已經登陸,則該用戶必定是系統的註冊用戶,則系統繼續執行步驟221、步驟 222以及步驟223。步驟221中,系統利用搜索結果更新伺服器端系統130中的用戶統計模型153,並存儲 到資料庫伺服器131中。步驟222中,系統利用搜索結果更新客戶端系統I 100或客戶端系統IIllO中的 cookies文件。步驟223中,系統利用搜索結果的關鍵句/詞更新關聯詞庫151。如果系統的邏輯判斷步驟251的結果為"否",即用戶並沒有登陸該系統,則系統執行步驟252,顯示 用戶註冊/登陸框。接著步驟253,如果該用戶為該系統的註冊用戶,則用戶可以選擇執行步驟254,輸入用戶名和密碼 或只是密碼,然後登陸到該系統網站。可以替代地,如果該用戶尚未註冊,則用戶可以通過提交註冊需要的信息,即步驟255註冊為該系統 的註冊用戶。隨後,步驟256,伺服器端系統130自動利用註冊信息為該用戶新建一個用戶統計模型153 並存儲在資料庫伺服器131中。同時,伺服器端系統130執行步驟222,更新客戶端系統I 100或客戶端 系統IIllO中的cookies文件。當然,可以很容易地看出,該流程並非一定按照如上所述的順序進行,而是一個不斷循環反覆的過程, 步驟順序的不同並不影響實現本發明所述的方法的系統,因此本發明也不受限於該示例性實施例所畫出的 流程圖。下面來看圖8、圖9、圖10,這三張圖分別展示的是一個實施例中的三個內容的搜索頁面截圖專利、 商機和公司。圖8示出示例性實施例創建和生成的專利信息搜索網頁的用戶界面截圖。其中搜索語句輸入框610對 應於圖2的搜索語句輸入框201,兩者在兩張不同的圖中標號不同,但是執行的功能相同,例如用戶在搜 索語句輸入框610輸入"手機",則系統將手機相關的專利信息顯示給用戶,即圖2中,系統執行步驟230, 返回的信息包括專利描述613、所屬公司名稱614、公司email615、電話號碼616以及聯繫地址618。其
中,用戶選中了兩個專利描述613前的評價複選框612,表示這兩個專利信息是用戶需要的。用戶點擊再 次搜索按鈕611後,系統會執行圖2中的步驟237,在整個網絡資料庫重新搜索相關信息。在用戶評價復 選框612後顯示的是專利描述613,圖8顯示的是用戶將光標移到專利描述613上的情況,此時,系統執 行圖2中的步驟239,將該專利的概要信息619顯示給用戶。在每一個電話號碼616之後,都有一個即時 通訊按鈕617,如果用戶對這個專利有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然, 該系統也提供普通搜尋引擎提供的功能,即在結果中篩選信息,在本系統中,用戶可以根據聯繫方式620 如email、電話、地址進行篩選,也可以根據特定關鍵字621如北京、浙江、上海、湖北進行篩選。除此 之外,系統在把用戶搜索的專利信息顯示給用戶的同時,也提供了相關商機信息622和相關公司信息623, 便於用戶査找,而這些商機和公司信息是通過圖6中的公司編號451進行關聯的。圖9示出示例性實施例創建和生成的商機信息搜索網頁的用戶界面截圖。其中搜索語句輸入框630對 應於圖2的搜索語句輸入框201和圖8的搜索語句輸入框610,三者在不同的圖中標號不同,但是執行的 功能相同,例如用戶在搜索語句輸入框630輸入"電腦",則系統將電腦相關的商機信息顯示給用戶,即 圖2中,系統執行步驟230,返回的信息包括商機描述633、商機類型634、所屬公司名稱635、電話號碼 636、聯繫地址638。其中,用戶選中了五個商機描述633前的評價複選框632,表示這五個商機信息是用 戶需要的。用戶點擊再次搜索按鈕631後,系統會執行圖2中的步驟237,在整個網絡資料庫重新搜索相 關信息。在用戶評價複選框632後顯示的是商機描述633,圖9顯示的是用戶將光標移到商機描述633上 的情況,此時,系統執行圖2中的步驟239,將該商機的概要信息639顯示給用戶。和專利信息不同的是, 商機類型634代表的是該商機是出售信息還是求購信息。在每一個電話號碼636之後,都有一個即時通訊 按鈕637,如果用戶對這個商機有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然,該系 統也提供普通搜尋引擎提供的功能,即在結果中篩選信息,在本系統中,用戶可以根據商機類型640如出 售、求購進行篩選,也可以根據聯繫方式641如email、電話、地址進行篩選,亦可以根據特定關鍵字643 如北京、浙江、上海、湖北進行篩選。除此之外,系統在把用戶搜索的商機信息顯示給用戶的同時,也提 供了相關專利信息643和相關公司信息644,便於用戶査找,而這些專利和公司信息是通過圖6中的公司 編號451進行關聯的。圖10示出示例性實施例創建和生成的公司信息搜索網頁的用戶界面截圖。其中搜索語句輸入框650 對應於圖2的搜索語句輸入框201、圖8的搜索語句輸入框610和圖9的搜索語句輸入框630,四者在不 同的圖中標號不同,但是執行的功能相同,例如用戶在搜索語句輸入框650輸入"電腦",則系統將電腦 相關的公司信息顯示給用戶,即圖2中,系統執行步驟230,返回的信息包括公司描述653、公司類型654、 註冊資本655、電話號碼656、聯繫地址658、郵政編碼659。其中,用戶選中了三個公司描述653前的評 價複選框652,表示這三個公司信息是用戶需要的。用戶點擊再次搜索按鈕651後,系統會執行圖2中的 步驟237,在整個網絡資料庫重新搜索相關信息。和專利信息和商機信息不同的是,公司類型654代表的 是該公司是貿易型、生產型、服務型還是政府或其它機構。在每一個電話號碼656之後,都有一個即時通 訊按鈕657,如果用戶對這個公司有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然,該 系統也提供普通搜尋引擎提供的功能,即在結果中篩選信息,在本系統中,用戶可以根據公司經營模式661 如貿易型、生產型、服務型、政府或其它機構進行篩選,也可以根據聯繫方式662如email、電話、地址 進行篩選,亦可以根據特定關鍵字663如北京、浙江、上海、湖北進行篩選。除此之外,系統在把用戶搜 索的公司信息顯示給用戶的同時,也提供了相關專利信息664和相關商機信息665,便於用戶査找,而這 些專利和商機信息是通過圖6中的公司編號451進行關聯的。圖10顯示的是用戶將光標移到相關商機信 息665條目上的情況,類似地,系統執行圖2中的步驟239,將該商機的概要信息660顯示給用戶。以上通過對參考附圖的詳細說明,該領域的技術人員能很容易地了解本發明所述方法和系統的實現原 理和機制,參考附圖的繪製只是為了更好地說明本發明的方法和系統,而不是規定保護的範圍,本發明的 保護範圍由所附權利要求書界定。除上述實施例外,本發明還可以有其他實施方式。凡採用等同替換或等 效變換形成的技術方案,均落在本發明要求的保護範圍。
權利要求
1、一種自助式智能垂直搜索方法,其特徵在於該方法包括如下步驟1.1)、利用存儲在客戶端和伺服器端的用戶cookies文件、註冊信息、歷史搜索信息以及定製的關注模塊進行用戶偏好學習,並將這個用戶偏好建立為用戶統計模型實時、動態地存儲到搜尋引擎資料庫中;1.2)、利用關聯句/詞庫對用戶輸入的搜索語句進行高速中文分詞,並生成一個關鍵句/詞集文件,該文件包含了進行語義分析後的所有相關、相似的關鍵句和關鍵詞,對用戶歷史搜索信息進行統計學習,得出在用戶的搜索習慣中與這些關鍵句/詞集相關、相似的關鍵句/詞,通過高速中文分詞和用戶搜索習慣學習,得出一個最終的關鍵句/詞集文件;1.3)、搜尋引擎通過網絡資料庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果與用戶統計模型進行匹配,在這些搜索結果中搜索其關鍵句/詞符合用戶偏好的信息,最終,將符合用戶偏好的搜索結果返回給用戶。
2、 根據權利要求l所述的自助式智能垂直搜索方法,其特徵在於將用戶對搜索結果的評價反映出 來,據此來修正機器學習的過程,並同時修正用戶統計模型。
3、 根據權利要求1所述的自助式智能垂直搜索方法,其特徵在於用戶可以定製感興趣的內容和信 息、表格化搜索結果以及即時通訊。
全文摘要
本發明涉及一種自助式智能垂直搜索方法,包括如下步驟利用用戶cookies文件、註冊信息、歷史搜索信息以及定製的關注模塊進行用戶偏好學習,並將這個用戶偏好建立為用戶統計模型實時、動態地存儲到搜尋引擎資料庫中;通過高速中文分詞和用戶搜索習慣學習,得出一個最終的關鍵句/詞集文件;搜尋引擎通過網絡資料庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果與用戶統計模型進行匹配,將符合用戶偏好的搜索結果返回給用戶。本發明有益的效果是用戶可以從龐大的信息集中尋找他們需要的信息,能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的「口味」,而且是完全由用戶來判斷搜索結果對其的價值。
文檔編號G06F17/30GK101114294SQ20071007097
公開日2008年1月30日 申請日期2007年8月22日 優先權日2007年8月22日
發明者施侃晟, 施章祖 申請人:杭州經合易智控股有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀