一種確定文檔特徵和用戶特徵的方法和系統的製作方法

2023-06-09 13:57:41 3

專利名稱：一種確定文檔特徵和用戶特徵的方法和系統的製作方法
技術領域：
本發明涉及個性化搜索領域，具體來說涉及一種確定文檔特徵和用戶特徵的方法和系統。
背景技術：
目前搜尋引擎能夠訪問的網頁數量已經達到千億量級的規模，當用戶輸入關鍵字進行網頁搜索時，搜尋引擎返回的網頁數量少則幾十數百，多則數百萬，這給用戶選擇目標網頁帶來了很大的困難。有統計表明，用戶平均查看的捜索結果不超過兩頁，因此搜尋引擎的ー個重要任務就是對獲得的捜索網頁進行有效排序，將用戶最想獲得的結果放到搜索結果的最前面。搜尋引擎工作原理包括從網際網路上抓取網頁、建立索引資料庫、獲得用戶的搜索關鍵字以及在索引資料庫中對搜索內容進行排序等步驟。其中搜索排序方法的好壞直接影響到用戶是否能夠獲得需要的捜索網頁。在現有技術中PageRank方法是ー個最具代表性的網頁搜索排序算法。該算法的思路是ー個網頁的重要性決定著也同時也依賴著其他網頁的重要性，一個網頁本身的PageRank值越高則它對其鏈出網頁的推薦能力越大,一個網頁的鏈出網頁越少則它對其中ー個鏈出網頁的推薦能力就越高。PageRank算法等現有技術的一個缺點是沒有考慮用戶的個性化差異，不同用戶使用相同關鍵詞得到的捜索結果是相同的。因此現有捜索技術需要根據每個用戶各自偏好對搜索網頁進行排序優化，進而提高排序的準確性。為克服現有技術的不足，有人已開始研究基於用戶個性化信息的搜尋引擎來主動學習用戶偏好，井根據用戶偏好對搜索結果進行重新排序。但是，開發個性化搜尋引擎還存在以下幾個問題第一是用戶需求難以表達，特別是非專業用戶缺乏需求表達的訓練，不能有效理解和表達自己的信息需求；第二是難以獲取用戶的個性化信息，雖然用戶年齡、教育程度、地理位置、專業領域和個人偏好等信息能給個性化搜索帶來便利，但是相當多的用戶對提供個人信息心存疑慮；第三是個性化技術往往會帶來較大的系統開銷，影響系統的性能；第四是不能實時跟蹤和適應用戶瀏覽興趣的變化，動態地更新用戶的偏好模型。

發明內容
鑑於上述現有技術的缺點和開發個性化搜尋引擎遇到的問題，本發明的目的在於提供一種確定文檔特徵和用戶特徵的方法和系統來解決上述問題。根據以上所述的目的，本發明提出了一種確定文檔特徵和用戶特徵的方法，其特徵在於，在伺服器中實現如下步驟接收用戶對文檔的訪問請求；獲取所述用戶的用戶特徵向量；獲取所述文檔的文檔特徵向量；更新所述用戶特徵向量和所述文檔特徵向量；更新後的所述用戶特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數；更新後的所述文檔特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數。上述方法包括在個性化網頁搜索排序領域的ー個應用實例，即通過多次應用上述方法，獲取多個文檔中每個文檔的文檔特徵向量和多個用戶中每個用戶的用戶特徵向量，並據此實現ー種個性化搜索排序方法，包括如下步驟接收用戶的搜索查詢；在所述多個文檔中識別與所述搜索查詢匹配的一組文檔；獲取所述用戶的用戶特徵向量；
計算所述ー組文檔中每個文檔的文檔特徵向量與所述用戶的用戶特徵向量之間的數學距離，以及根據所述數學距離對所述ー組文檔進行排序；按照所述排序結果將所述ー組文檔的至少一部分發送給所述用戶。與現有技術相比，本發明能夠解決在開發個性化搜索過程中遇到的用戶特徵難以表達、個人信息難以獲取、個性化搜索過程系統開銷大以及不能實時獲取用戶瀏覽偏好等問題，通過對現有搜尋引擎技術的改進，來提高網頁搜索排序的準確率。

圖I為ー種確定文檔特徵和用戶特徵的方法流程圖；圖2為文檔特徵向量的表述方法；圖3為用戶特徵向量的表示方法；圖4為目錄特徵向量的表示方法；圖5為術語特徵向量的表示方法；圖6為廣告特徵向量的表不方法；圖7為接收用戶對文檔的訪問請求的系統結構圖；圖8為ー個搜索查詢系統的結構圖。
具體實施例方式結合附圖對本發明方法作進ー步詳細說明。圖I為ー種確定文檔特徵和用戶特徵的方法流程圖。包括如下步驟S10.為文檔集I= {1,2,.. . ,N}中的至少ー個文檔設置文檔特徵向量初始值，為用戶集J= {1，2，...，M}中的至少ー個用戶設置用戶特徵向量初始值。對於在文檔集I中沒有設置文檔特徵向量初始值的文檔，其文檔特徵向量初始值設為零向量；對於在用戶集J中沒有設置用戶特徵向量初始值的用戶，其用戶特徵向量初始值設為零向量；Sll.接收用戶j(j G J)對文檔i(i G I)的訪問請求；S12.獲取所述用戶j的用戶特徵向量；S13.獲取所述文檔i的文檔特徵向量；S14.更新所述用戶j的用戶特徵向量和所述文檔i的文檔特徵向量。其中，更新後的所述用戶j的用戶特徵向量是更新前的所述文檔i的文檔特徵向量和所述用戶j的用戶特徵向量的函數；更新後的所述文檔i的文檔特徵向量是更新前的所述文檔i的文檔特徵向量和所述用戶j的用戶特徵向量的函數。
所述文檔是ー個通過URL唯一標識的網絡資源。在形式上它至少是文本、圖形、視頻和語音中的ー種；在組織結構上它可以是ー個網頁，也可以是ー個網站分類目錄；在內容上它可以是ー個普通網頁，也可以是ー則廣告。下面對上述方法作進ー步說明，包括所述文檔特徵向量和所述用戶特徵向量的表述方法、所述文檔特徵向量和所述用戶特徵向量的初始值設置方法、接收用戶對文檔的訪問請求的方法以及所述文檔特徵向量和用戶特徵向量的具體更新算法等。圖2是文檔特徵向量的表述方法。文檔特徵向量的表示方法與Gerard Salton提出的向量空間模型VSM的向量表述方法相似，即以特徵項作為文檔表示的基本単位，用特徵項的集合來近似表示一個文檔的特徵。設所述文檔集I = {1,2,.. .，N}中的所有文檔的特徵項集合為特徵集K= {1,2,. . . ,L},文檔i(i G I)的文檔特徵向量表示形式為(dwn, dwi2,. . . , dwik,. . . ,(Iwil),其中dwik表示所述文檔i與特徵集K的第k個特徵的相關度。dwik數值越大，表示文檔i與特徵k之間的相關程度越高，如果dWik為負數，則表示文檔i與特徵k負相關。由於所述特徵集K包括了所有文檔的特徵，因此它的維度通常是巨大的，而每個文檔的特徵只是特徵集K中的很小的一部分，所以文檔特徵向量中絕大多數向量分量的數值都為零，這導致了文檔特徵向量的數據稀疏現象的產生。解決方法是將所述文檔特徵向量用一種簡化的形式表示。即將所述文檔特徵向量表示為[...，(!^(!^^，...！，其中讓表示特徵集K中第k個特徵項，dWik表示文檔i與特徵集K的第k個特徵的相關度，把(k，dwik)叫做特徵對。這樣就降低了每個用戶的用戶特徵向量的維度，節省了存儲空間並提高了算法效率。例如特徵集K=(新聞，科技，財經，體育，娛樂，生活，旅遊，文化，教育，...)，第1168個文檔的文檔特徵向量=[(科技，0.02)，(教育，0.003)]，其中1168是文檔的編號，0. 02表示文檔1168與特徵集K中的特徵「科技」的相關度，0. 003表示文檔1168與特徵集K的特徵「教育」的相關度。為方便起見，在以下敘述中的文檔特徵向量使用形式(dwn，dwi2, . . . , dwik, . . . , dwiL)。不過，即使使用文檔特徵向量的簡化形式[ , (k, dwik)
也不會影響所述方法本質。圖3是用戶特徵向量的表示方法。所述用戶特徵向量是由用戶的自然特徵和用戶的個人偏好特徵來決定的。用戶自然特徵包括年齡、性別、職業、學歷、身高、體重、地理位置等，用戶的個人偏好特徵包括用戶關注的領域等抽象特徵，例如科學、音樂、軍事和體育等領域，而且每個用戶關注每個領域的程度有所不同。下面參考文檔特徵向量的表示方法來定義用戶特徵向量。設用戶與文檔具有相同的特徵集K= {1，2，...，L}，用戶j(j e J)具有用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl),其中UWjk表示所述用戶j與特徵集K的第k個特徵的相關度。UWjk數值越大,表示用戶j與特徵k之間的相關程度越高,如果UWjk為負數，則表示用戶j與特徵k負相關。與文檔特徵向量相似，為節省存儲空間提高算法效率，當所述用戶特徵向量的維度很高的時候，可將用戶特徵向量表示為[...，(k,uwjk),...]。例如特徵集K=(新聞,科技，財經，體育，娛樂，生活，旅遊，文化，教育，...)，第3209個用戶的用戶特徵向量=[(財經，0. 01);(教育，0. 002)]，其中0. 01表示用戶3209與特徵集K中的特徵「財經」的相關度，0. 002表示用戶3209與特徵集K的特徵「教育」的相關度。為方便起見，在以下敘述中所述用戶特徵向量的表述形式為(UWj1, UWj2, . . . , UWjk, . . . , UWjl)。不過即使使用用戶特徵向量的簡化形式[...，(k，UWjk)，...]，也不會影響所述方法本質。另外用戶特徵和文檔特徵使用了相同的特徵集K。其實，用戶特徵和文檔特徵也可以使用各自不同的特徵集，然後通過ー個函數建立兩個特徵集之間的關聯關係。當用戶訪問網頁文檔時，根據所述用戶的用戶特徵和所述函數找到對應的文檔特徵，井根據找到的文檔特徵來更新所述文檔的文檔特徵向量；反之，根據所述文檔的文檔特徵和所述函數找到對應的用戶特徵，然後根據找到的用戶特徵來更新所述用戶的用戶特徵向量。下面說明文檔特徵向量初始值的設置方法。以下是兩個例子。例I是人工設置一部分文檔的文檔特徵向量初始值的方法。以文檔i的設置方法為例。首先確定文檔i的主要特徵，即在特徵集K中人工選擇文檔i具有的至少ー個特徵，然後將文檔i與文檔集I中的其它文檔進行比較，人工確定所述文檔i的各個人工選定特徵的相關度。例如編號為1168的文檔的文檔特徵向量為[(科技，0.02)，(教育，0.003)]。人工設定的相關度dwik的取值範圍為[a，b]，其中a和b為常數。例2是藉助網站分類目錄的特徵來設置文檔特徵向量。雅虎、新浪和搜狐等均為採用分類目錄的網站。由於分類目錄主要通過人工方式對文檔進行分類，因此其分類的準確率較高。藉助網站分類目錄的特徵來定義文檔的特徵是基於這樣一個假設，即當ー個文檔歸屬於ー個手工分類目錄時這個文檔與這個目錄具有相似的特徵，例如在雅虎「汽車」目錄下的文檔具有「汽車」特徵，而「汽車」目錄下的「價格」目錄中的文檔，既具有「汽車」特徵又具有「價格」特徵。因此可以通過網站分類目錄具有的目錄特徵向量，來確定文檔特徵向量的初始值。圖4為目錄特徵向量的表示方法。設置某網站分類目錄集為C= {1，2，...，Q}，文檔集 I= {1，2，，N},特徵集 K = {1,2, , L},用(cwql, cwq2, . . . , cwqk, . . . , cwqL)來表示目錄q(q G C)的目錄特徵向量,其中Cwqk表示目錄q與特徵集K的第k個特徵的相關度。因此，在所述網站分類目錄q(q G Q)下的文檔i(i G I)，可通過如下方法設置其文檔特徵向量的初始值dwik =入1(1 cwqk ;其中入lq是表示目錄q重要程度的參數，k G K。例3是根據在所述文檔中提取的術語及其術語特徵向量更新所述文檔特徵向量的初始值。一個文檔的特徵可以用所述文檔的字、詞和短語來表示，這些字、詞和短語統稱為術語。在一個文檔中提取出一組術語後，就可以把術語作為特徵、術語詞頻作為特徵的相關度來設置文檔特徵向量的初始值。圖5為術語特徵向量表示方法。設術語集T = {1,2,. . . ,P},文檔集I = {1,2,.,N}，特徵集 K= {I, 2, . . . , L},用(twpl, twp2, . . . , twpk, . . . , twpL)表示術語 p (p G T)的術語特徵向量，其中twpk表示術語p與所述特徵集K的第k個特徵的相關度。因此設置文檔特徵向量初始值的方法包括在文檔i(i G I)中提取字、詞和短語等術語以及術語詞頻，然後根據圖5中術語與術語特徵向量的關係，找到每個術語對應的特徵及其相關度，然後更新文檔特徵向量的初始值，包括dwik =入 2 (T) Ep twpk 術語 p 的詞頻其中p表示在所述文檔中提取的術語編號，p = 1,2,…，T ;T表示在所述文檔中提取的術語個數八2為T的減函數。下面說明用戶特徵向量的初始值設置方法。以下是兩個例子。
例I是人工設置一部分用戶的用戶特徵向量初始值的方法。以用戶j的設置方法為例。首先確定用戶j的主要特徵，即在特徵集K中人工選擇用戶j具有的至少ー個特徵，然後將用戶j與用戶集J中的其它用戶進行比較，人工確定所述用戶j的各個選定特徵的相關度。例如編號為32098的用戶的用戶特徵向量為[(財經，0.01)，(教育，0.002)]。人エ設定的相關度u%k的取值範圍為[a，b]，其中a和b為常數。例2是根據用戶提交的一組文檔的特徵來設定用戶特徵向量初始值的方法。設用戶j提交了ー組代表其偏好的文檔Dj = {...，i，. ..}，其中文檔i (i G Dj)的文檔特徵向量為{dwn, dwi2,. . . , dwiL}。因此用戶j的用戶特徵向量的初始值UWjk = A 3(m) E (i G DJ)(dwik)，其中m為所述も的元素個數，m越大則入3越小。下面說明接收用戶對文檔的訪問請求的方法，參見圖7。圖7為接收用戶對文檔訪問請求的系統結構圖。用戶101在瀏覽器上提交了ー個網址或者點擊ー個網頁連結後向目標網站301發送ー個網頁請求。在搜尋引擎系統200中，用戶訪問請求獲取模塊212得到所述請求，並且在用戶訪問請求資料庫290中存儲一條用戶訪問請求記錄，所述記錄至少包括所述用戶101的用戶標識和網頁的網址URL。其中，用戶標識可以為網絡接入帳號、固定電話號碼、行動電話號碼、IP位址、即時通信號碼、Email地址或者在cookie中的用戶識別碼(UserID)等。搜尋引擎系統200在收到所述用戶標識和所述網頁網址之後，就可以對所述用戶101的用戶特徵向量和所述網頁的文檔特徵向量進行更新處理了。下面說明更新文檔特徵向量和用戶特徵向量的具體算法。設置文檔集I = {1,2,. . .，N}，用戶集 J= {1,2,. . .，M}和特徵集 K = {1,2,...，L}。文檔 i (i G I)的文檔特徵向量為 Kd (i) = (dwn,dwi2,. . . , dwik,. . . , dwiL)，用戶 j (j G J)的用戶特徵向量為Ku(j) = (UWj1, UWj2,. . . , UWjk,. . . , UWj1),其中dwik表示所述文檔i與所述特徵集K的第k個特徵的相關度，uwJk表示所述用戶j與所述特徵集K的第k個特徵的相關度。當用戶j訪問文檔i之後，應用如下算法更新所述Kd(i)和所述Ku(j)Kd(i) = functionl [Kd*(i), Ku*(j)]Ku(j) = function2[Kd*(i), Ku*(j)]其中Kd\i)和K「i)分別表示更新前和更新後的文檔i的文檔特徵向量，Ku*(j)和Ku(J)分別表示更新前和更新後的用戶j的用戶特徵向量。需要指出的是上述兩個公式不一定同時使用。也就是說當用戶訪問文檔後，可以根據系統設定參數，選擇使用用戶特徵向量更新文檔特徵向量或者使用文檔特徵向量更新用戶特徵向量。有些用戶的用戶特徵向量不能夠被更新，有些文檔的文檔特徵向量也不能夠被更新，例如領域內的專家用戶和領域內的經典文章，其特徵向量可以選擇不能被更改。下面給出本專利方法的應用實例I。應用實例I用於獲取文檔特徵和用戶特徵。設在ー搜尋引擎系統中已經抓取了文檔集I = {1，2，...，N}，存儲了用戶集J= {1，2，...，M}中的每個用戶標識，並定義了特徵集K = {1，2，. . .，L}，本專利方法具體包括如下步驟為所述文檔集I中的至少ー個文檔的文檔特徵向量設置初始值，為所述用戶集J中的至少ー個用戶的用戶特徵向量設置初始值；接收用戶j (j G J)對文檔i (i e I)的訪問請求；獲取所述用戶j的用戶標識和所述文檔的文檔編號i ;
根據所述文檔編號i，獲取所述文檔i的文檔特徵向量(dwn, dwi2, , dwik, ,dwiL);根據所述用戶j標識獲取用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl),然後用如下算法更新所述文檔i的文檔特徵向量和所述用戶j的用戶特徵向量dwik = dwik+f! (uwJk);其中 k G UKjjUKjC K;uwJk = uwJk+f2 (dwik);其中 k G DKi, DKj C K；其中f\(x)和 f2(x)均為增函數,例如 F1(UWjk)=入 u *uwJk,f2(dwik)=入 2i *dwik,入u和、2i是常數^Ki為文檔i的主要特徵集合，UKj為用戶j的主要特徵集合。所述ロも是由所述文檔特徵向量(dwn,dwi2,. . . , dwik,. . . , dwiL)中數值最大的Pi個分量所對應的特徵組成的集合，所述UKj是由所述用戶特徵向量(UWj1, UWj2, . . . , UWjk,...,UWjl)中數值最大的個分量所對應的特徵組成的集合，Pi和為系統設定常數。多次使用上述算法後，用戶特徵向量和文檔特徵向量的各個分量的數值會逐漸增カロ，因此需要使用如下修正算法，對姆個用戶的用戶特徵向量(UWj^UWj2, . . . , UWjk, . . . UWjl)(對於任意j G I)和姆個文檔的文檔特徵向量(dwn, dwi2, , dwik, , dwiL)(對於任意j e J)進行修正，具體算法如下將數據集合{dwlk,dw2k,. . . , dwik,. . . , dwNk}中 dwik 彡 dCk (對姆個 i G I)的姆個 dwik映射為區間[a,b]上一實數值f3(dwik),然後設dwik = f3(dwik)(對每個i G I)，其中f3(x)是增函數，dCk、a和b均為設定常數。在所述方法的ー個應用實例中，f3(dwik)的算法如下首先獲得集合Queue = {dwik | dwik彡dCk, i G 1}，然後計算姆個dwik (i G I)在Queue集合中的排名 Rank(dwik) ,Maxi dwik的排名為 LMiniClwik 的排名為Num(Queue),其中 Num(Queue)表示 Queue 集合的元素個數，因此 f3 (dwik) = a+ (b_a) [Num (Queue) -Rank (dwik) ] /Num (Queue)。在所述方法的另ー個應用實例中f3(dwik)的算法如下f3(dwik) = a+ (b-a) ^dwikAiaxi dwik ；為了減少個別文檔特徵的影響，假定maXj dwik是數據集合{dwlk, dw2k, . . . , dwik, . . . , dwNk}中數值最大的m項的平均值,當f3(dwik) > b時設f3 (dwik) =13;其中111為設定常數。將數據集合{uwlk, UW2k, . . . , UWjk, . . . , UWmJ 中 UWjk 彡 UCk (對每個 j G J)的姆個UWjk映射為區間[a,b]上一實數值f4 (UWjk),然後設UWjk = f4 (UWjk)(對姆個j G J)，其中f4(x)是增函數，uCk、a和b均為設定常數。在所述方法的ー個應用實例中，f4(uwjk)的算法如下首先獲得集合Queue = {uwjk | uwJk彡uCk, j G J}，然後計算姆個uwjk (j G J)在Queue集合中的排名 Rank(uwJk),Maxj uwJk的排名為 I,MinjUwjk 的排名為Num(Queue),其中 Num(Queue)表示 Queue 集合的元素個數，因此 f4 (uwJk) = a+ (b_a) [Num (Queue) -Rank (uwJk) ] /Num (Queue)。在所述方法的另ー個應用實例中f4(UWjk)的算法如下f4(UWjk) = a+ (b-a) *uwJk/maXj uwJk ；為了減少個別用戶特徵的影響，假定maXj UWjk是在數據集合IUWjpUWj2,. . . ,uwJk,. . . ,uwJL}中數值最大的m項的平均值,當f4 (UWjk) > b時設f4 (UWjk) = b ;其中m為設定常數。在應用實例I中，當ー個用戶訪問了特徵不同的多個網頁後，用戶特徵向量的維度會顯著增加，進而佔用大量存儲空間。一個解決方案是設置用戶特徵向量的最大存儲空間，當用戶j(j G J)的用戶特徵向量佔用的存儲空間達到最大存儲空間時，把所述用戶特徵向量[ ，(k, UWjk),...]按照UWjk的大小將特徵對(k, UWjk)進行排序,並將UWjk數值較小的設定數量的特徵對(k，uwjk)從用戶特徵向量[ ，(k,uwJk),...]中清除，並且將被清除的特徵對佔用的存儲空間設為可用存儲空間，當用戶訪問新的網頁而有新的特徵對需要加入到用戶特徵向量中的時候，就將它們循環加入到所述可用存儲空間。所謂循環加入是指將可用存儲空間看做一個循環鍊表按順序寫入新的特徵對。同理，當一個網頁被特徵不同的多個用戶訪問後，文檔特徵向量的維度會顯著増加進而佔用大量存儲空間。一個解決方案是設置文檔特徵向量的最大存儲空間，當文檔i(i G I)的文檔特徵向量佔用的存儲空間達到最大存儲空間時，把所述文檔特徵向量[...,(k, dwik),...]按照dwik的大小對特徵對(k, dwik)進行排序,並將dwik數值較小的設定數量的特徵對(k，dwik)從文檔特徵向量[ ，(k, dwik),...]中清除，並且將被清除的特徵對佔用的存儲空間設為可用存儲空間，當有新的特徵對需要加入到文檔特徵向量中的時候，就將它們循環加入所述可用存儲空間。所謂循環加入是指將可用存儲空間看做ー個循環鍊表按順序寫入新的特徵對。下面給出本專利方法的應用實例2。由於用戶興趣會隨著時間的變化而變化，並且近期用戶對文檔的訪問行為能夠更好地體現出近期的用戶特徵，因此應用實例2給出了分時段更新文檔特徵分向量和用戶特徵分向量的方法。設文檔集I = {1，2，...，N}，用戶集J= {1，2，...，M}和特徵集K= {I,2，. . .，L}，其中N為文檔個數，M為用戶個數，L為特徵個數，則分時段更新文檔特徵分向量和用戶特徵分向量的算法如下第t時段內的所述文檔i的文檔特徵分向量為(dwilt,dwi2t,. . .，dwikt,. . . , dwiLt),所述用戶j的用戶特徵分向量為(UWjlt, UWj2t, . . . , UWjkt, . . . , uwjU),其中dwikt表示第t時段的所述文檔i與特徵k(k G K)的相關度，Uwjkt表示第t時段內的所述用戶j與特徵k(k G K)的相關度；在第t時段內，當所述伺服器收到所述用戶j對所述文檔i的訪問請求後，更新所述用戶j在第t時段的所述用戶特徵分向量和所述文檔i在第t時段的所述文檔特徵分向量，具體算法包括dwikt = dwikt+fj (uwJkt);其中，k G UKjjUKjCK, f1 (x)為增函數；uwJkt = uwJkt+f2 (dwikt);其中，k G DKi,DKi C K, f2 (x)為增函數；然後更新所述文檔i的文檔特徵向量(dwn, dwi2, , dwik, , dwiL)和所述用戶j的用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl),更新算法如下dwik = a 0 dwik(t_T)+ a : dwik(t_T+1)+. + a (1_1} (Iwik(H)+ a x dwikt ； (K G DKi)uwJk = 3 o uwJk(t_T)+ 3 ! uwJk(t_T+1)+. . .+& 的) Uwjk(H)+ 3 T uwJkt ； (k G UKj)其中a。，Q1,..., a T_17 a T 是ー組預設加權係數，^0,^ ^1, ^ T 是ー組預設加權係數，T為設定常數,k G K ；fi (x)和f2(x)為增函數,例如If1(UWjkt) = A Jj uwJkt,f2 (Uwjkt) = X2i*dwikt，其中Xlj和X2i是設定常數。在ー個應用實例中，為突出用戶近期的興趣和偏好比遠期的重要，可設a Q < a丨< .. < a H < a T和P。< @丨< .. < ^ < UKj為用戶j的主要特徵集合，DKi為文檔i的主要特徵集合。所述ロも是由所述文檔特徵向量(dwn,dwi2,. . . , dwik,. . . , dwiL)中數值最大的Pi個分量所對應的特徵組成的集合，所述UKj是由所述用戶特徵向量(UWj1, UWj2, . . . , UWjk,...,UWjl)中數值最大的個分量所對應的特徵組成的集合，Pi和為系統設定常數。另外，需要使用與應用實例I相同的修正算法，對每個用戶的用戶特徵向量(uWjl，UWj2, . . . , UWjk, . . . , UWjl)(對於任意i G I)和姆個文檔的文檔特徵向量(dwn, dwi2, ,dwik, , dwiL)(對於任意j G J)進行修正。下面給出本專利方法的應用實例3。應用實例3給出了一種基於文檔特徵和用戶分類特徵的捜索查詢方法。包括存儲由蜘蛛程序在各網站上抓取的網頁組成的文檔集I = {1，2，...，N}，存儲了用戶集J= {I,2，，M}，以及存儲特徵集 K= {1，2，，L}。文檔i (i G I)具有文檔特徵向量(dwn, dwi2, . . . , dwik, . . . , dwiL),用戶 j (j G J)具有用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl),其中dwik表示所述文檔i與所述特徵集的第k個特徵的相關度，UWjk表示所述用戶j與所述特徵集的第k個特徵的相關度。因此所述捜索查詢方法包括以下步驟
接收用戶j (j G J)的搜索查詢；獲取所述用戶j的用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl);在所述文檔集I中識別與所述搜索查詢匹配的文檔子集S (ScI);計算所述用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , UWjl)與所述文檔子集S中姆ー個文檔的文檔特徵向量(dwn, dwi2, . . . , dwik, . . . , dwiL) (i G S)之間的數學距離，以及根據所述數學距離對所述文檔子集S進行排序；按照所述排序結果將所述文檔子集S的至少一部分發送給所述用戶j。在所述方法的ー個應用實例中，所述數學距離的算法如下設所述用戶j的用戶特徵向量為Ku(j) = (UWj1, UWj2, . . . , uwJk, . . . , UWjl),文檔i的文檔特徵向量為Kd(i)=(dwn, dwi2, . . . , dwik, . . . , dwiL),則用戶j與文檔i的數學距離定義為I Ku(j), Kd(i) I I = [ E k(uwJk dwik]/{[ E k(Uwjk)2]1,2 [ E k(dwik)2]1/2}在所述方法的ー個應用實例中，根據搜索查詢關鍵字(或叫術語)，在文檔集I中捜索與關鍵字匹配的文檔，組成所述文檔子集S。下面給出本專利方法的應用實例4。應用實例4是在應用實例3的基礎上，計算所述文檔子集S的子集特徵向量K(S)=((Id1, dd2,. . . , ddk,. . . , ddL),其中所述ddk(k G K)表示所述文檔子集S與所述特徵集K的第k個特徵的相關度；所述ddk的一個實現算法如下ddk =入 k [ E i e s f5 (dwik) ]/[ E iGI f5 (dwik)]其中f5 (x)為增函數，例如 f5 (dwik)=入 5i dwik ;當 dwik 彡 dCk 時，f5 (dwik) = 0 ；dCk(k G K)和 X 5i(i G I)均為常數；得到所述子集特徵向量(Cldpdd2,. . .，ddk，. . ，ddL)之後，在其中挑選ddk(k G K)數值最大的も個分量所對應的特徵發給所述用戶j進行選擇，Rj為常數；接收所述用戶j選擇的至少ー個被選出的所述特徵，所選擇的特徵組成特徵集合Ks(j) = (dsJ1； dsJ2, . . . , dsjk, . . . , dsJL),如果 dsjk(K G K)不是用戶選出的特徵,則 dsjk =
0;如果dsjk(k G K)是用戶選出的特徵，則dSjk等於ー設定常數；計算所述文檔子集S中的每個文檔的文檔特徵向量與所述用戶j選擇的所述特徵之間的數學距離I ;將所述文檔子集S中的每個文檔的所述數學距離(在應用實例3獲得的)和所述數學距離I加權平均得到數學距離2，以及根據所述數學距離2對所述文檔子集進行再排序；
按照所述再排序結果將所述文檔子集S的至少一部分發送給所述用戶j。所述數學距離I的計算方法如下I |KS (j)，Kd ⑴ I I = [Ek(dsJk.dwik)]/{[Ek(dsJk)2]1/2. [Ek(dwik)2]172}下面給出本專利方法的應用實例5。應用實例5給出ー種基於文檔和用戶分類特徵的個性化廣告發布方法。設文檔集I = {1，2，...，N}，用戶集 J= {1，2，，M}，特徵集 K = {1,2, . . . , L}和廣告集 A= {I,2,. ,G}。文檔 i (i G I)具有文檔特徵向量(dwn,dwi2,. . . , dwik,. . . , dwiL),用戶 j (j G J)具有用戶特徵向量(UWj17UWj2,. . . ,UWjk,. . . ,uwJL),廣告g(g G A)具有廣告特徵向量(awgl,awg2, , awgk, , awgL),其中dwik表示所述文檔i與第k個特徵的相關度，uwJk表示所述用戶j與第k個特徵的相關度,awgk表示所述廣告g與第k個特徵的相關度,k G K,廣告特徵向量的表示方法參見圖6。所述個性化廣告發布的方法包括以下步驟為所述廣告集A中的每ー個廣告設置廣告特徵向量的初始值；接收所述用戶j(j G J)對網頁文檔i(i G I)的訪問請求；獲取所述網頁文檔i的文檔特徵向量和所述用戶j的用戶特徵向量；計算所述廣告集A中每個廣告g(對每個g GA)的廣告特徵向量與所述網頁文檔i的文檔特徵向量之間的數學距離dg(g，i)；計算所述廣告集A中每個廣告g(對每個g GA)的廣告特徵向量與所述用戶j的用戶特徵向量之間的數學距離ug(g，j)；為所述廣告集A中每個廣告g的設置排序參數，所述排序參數為sort (g) = A dg(g, i) + (l-A ) ug(g, j);其中入為設定常數，0 彡入；^ I ;根據每個廣告g的排序參數sort (g)對所述廣告集A中的廣告進行排序；按照所述排序結果將至少ー個所述廣告插入所述網頁並發送給所述用戶。其中，所述數學距離dg(g, i)和ug(g, j)的算法如下dg(g, i) = [ E k (dwik awgk) ] / {[ E k (dwik)2]1/2 [ E k (awgk)2]1/2}ug(g, j) = [ E k(uwJk awgk) ]/{[ E k(UWjk)2]1/2 [ E k(awgk)2]1/2}。下面說明用戶特徵向量和文檔特徵向量的另ー種更新方法。設置術語集T = {1,2,. . ，P}，用戶集 J = {1,2,. . ，M}和特徵集 K = {1,2,. . ，L}。用(twpl, twp2,. . . , twpk,. . . , twpL)表示術語p (p G T)的術語特徵向量,其中twpk表示術語P與所述特徵集K的第k個特徵的相關度。當用戶提交了捜索查詢後，在所述搜索查詢中提取用戶提交的至少ー個術語(即關鍵字)，然後根據所述術語查找所述術語特徵向量資料庫290，找到相應的術語特徵向量(見圖5)，並據此來更新用戶特徵向量，包括UWjk = UWjk+ A6 * E p twpk其中X6是提取的術語個數的函數，術語越多X6越小；p表示提取的第p個術語(即關鍵字)，k e K ;在計算中只選取twpk數值最大的m個參數進行上式計算，m為系統設定常數；識別與捜索匹配的一組文檔以及將其中的一部分發給所述用戶；接收所述用戶對所述一部分文檔中的一個文檔的點擊訪問，然後根據已經獲得的術語特徵向量，更新所述ー個文檔的文檔特徵向量dwik = dwik+ A 7 * E p twpk
其中，X7為提取的術語個數的函數，術語越多X7越小，p表示提取的第p個術語(即關鍵字)，k e K，在計算中只選取twpk數值最大的n個參數進行上式計算，n為系統設
定常數。下面說明ー種基於文檔特徵向量和用戶特徵向量的搜尋引擎系統。圖8為ー個捜索查詢系統的結構圖。所述系統包括如下功能模塊文檔獲取模塊211 :用於派出蜘蛛程序在接入網際網路的網站301 303上抓取網頁，並通過分析和跟蹤所述網頁中的連結來訪問更多的網頁，以及將獲得的網頁和網頁索引存儲於文檔資料庫260中；
文檔特徵向量和用戶特徵向量的初始值設置模塊213 :該模塊至少執行如下步驟中的ー種根據網頁特徵人工設置網頁的文檔特徵向量初始值；根據所述網頁包含的術語獲取所述術語的術語特徵向量，並據此更新所述文檔特徵向量的初始值；根據所述網頁歸屬的網站分類目錄的目錄特徵向量更新所述網頁的所述文檔特徵向量；根據用戶特徵人工設置用戶特徵向量初始值；根據所述用戶提交的一組網頁中每個網頁的文檔特徵向量更新所述用戶特徵向量；所述用戶特徵向量初始值存儲於用戶特徵向量初始值資料庫240中，所述文檔特徵向量初始值存儲於文檔特徵向量初始值資料庫250中；用戶訪問請求獲取模塊212:本模塊用於獲取用戶對網頁的訪問請求，所述訪問請求至少包括用戶標識和網頁地址，並將所述訪問請求存儲於用戶訪問請求資料庫270中，以此來作為更新所述用戶101 103的用戶特徵向量和所述網頁的文檔特徵向量的依據；用戶特徵向量和文檔特徵向量更新模塊214:該模塊解析所述用戶訪問請求，獲取其中的用戶標識和網頁地址，然後根據所述用戶標識獲取所述用戶的用戶特徵向量以及根據所述網頁地址獲取所述網頁的文檔特徵向量，最後更新所述用戶特徵向量和所述文檔特徵向量；其中更新後的所述用戶特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數，更新後的所述文檔特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數；所述用戶特徵向量和文檔特徵向量分別存儲於用戶特徵向量資料庫220和文檔特徵向量資料庫230中；搜索查詢模塊215 :用於在所述文檔資料庫260中識別與所述搜索查詢匹配的一組網頁，然後計算所述ー組網頁中的每個網頁的文檔特徵向量與提交查詢的用戶的用戶特徵向量之間的數學距離，並據此對所述ー組網頁進行排序，以及根據排序結果將所述ー組網頁的一部分發送給所述提交查詢的用戶；文檔子集特徵計算模塊216 :對所述捜索查詢模塊中獲得的所述ー組文檔作進一步處理，包括計算所述ー組網頁的子集特徵向量，並將所述子集特徵向量中數值最大的至少ー個分量對應的特徵發給給所述提交查詢的用戶；接收所述提交查詢的用戶選擇的特徵；計算所述一組網頁中的每個網頁的文檔特徵向量與所述提交查詢的用戶選擇的特徵之間的數學距離I ;將所述一組網頁中的每個網頁的所述數學距離和所述數學距離I加權平均得到數學距離2，以及根據所述數學距離2對所述ー組網頁進行再排序，並將再排序後的所述ー組網頁的一部分文檔呈現給所述提交查詢的用戶。以上所述應用實例僅為本發明的較佳的應用實施，並非用以限定本發明的保護範圍。
權利要求
1.一種確定文檔特徵和用戶特徵的方法，其特徵在於，在伺服器中實現如下步驟接收用戶對文檔的訪問請求；獲取所述用戶的用戶特徵向量；獲取所述文檔的文檔特徵向量；更新所述用戶特徵向量和所述文檔特徵向量；更新後的所述用戶特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數；更新後的所述文檔特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數。
2.根據權利要求I所述的方法，其特徵在於，在所述方法的ー個應用實例中，所述文檔是文檔集I= {1,2,...,N}中的文檔i，所述用戶是用戶集J= {1，2，...，M}中的用戶j，所述文檔i和所述用戶j具有相同的特徵集K = {1，2，. . .，L}，其中N為文檔個數，M為用戶個數，L為特徵個數；所述文檔i的文檔特徵向量為(dwn, dwi2,. . . , dwik,. . . , dwiL),所述用戶j的用戶特徵向量為(UWj1, UWj2, . . . , UWjk, . . . , uwJL),其中dwik表示所述文檔i與特徵k(k e K)的相關度，uwJk表示所述用戶j與特徵k(k e K)的相關度；當所述伺服器收到所述用戶j對所述文檔i的訪問請求後，更新所述用戶j的用戶特徵向量和所述文檔i的文檔特徵向量，具體算法包括dwik = dwik+f! (uwJk);其中 k e UKj, UKjC K, fj (χ)為增函數；uwJk = uwJk+f2 (dwik);其中 k e DKi, DKj C K, f2 (χ)為增函數。
3.根據權利要求I所述的方法，其特徵在於，在所述方法的ー個應用實例中，所述文檔是文檔集I= {1,2,...,N}中的文檔i，所述用戶是用戶集J= {1，2，...，M}中的用戶j，所述文檔i和所述用戶j具有相同的特徵集K = {1，2，. . .，L}，其中N為文檔個數，M為用戶個數，L為特徵個數；第t時段內的所述文檔i的文檔特徵分向量為(dwilt, dwi2t,. . . , dwikt,. . . , dwiLt),第t時段內的所述用戶j的用戶特徵分向量為(UWjlt, UWj2t, . . . , UWjkt, . . . , uwjU),其中dwikt表示第t時段的所述文檔i與特徵k(k e K)的相關度，u%kt表示第t時段內的所述用戶j與特徵k(keK)的相關度；在第t時段內，當所述伺服器收到所述用戶j對所述文檔i的訪問請求後，更新所述用戶j在第t時段的所述用戶特徵分向量和所述文檔i在第t時段的所述文檔特徵分向量，具體算法包括dwikt = dwikt+f! (uwJkt);其中，k e UKjjUKjC K, fj (χ)為增函數； UWjkt = uwJkt+f2(dwikt);其中，k e DKijDKi cK, f2(χ)為增函數；然後更新所述文檔i的文檔特徵向量(dwn, dwi2, . . . , dwik, . . . , dwiL)和所述用戶j的用戶特徵向量(UWj1, UWj2, . . . , UWjk, . . . , uwJL),更新算法如下 dwik — α ο * dwik(t_T)+ α エ· dwik(t_T+1)+· · · + a (T-d · dwik(t_1)+ α τ · dwikt ； UWjk = β O · UW帳τ)+β ! · UWJk(t_T+1)+· · · + β (τ-D · UWjka-D+β τ · UWjkt ; 其中α。，Q1,..., α卜いα τ是ー組預設加權係數，β 0, β 1; . . . , β τ_1; β τ是ー組預設加權係數，T為設定常數，k e K。
4.根據權利要求2或3所述的方法，其特徵在於，所述DKii由所述文檔i的文檔特徵向量(dwn, dwi2, . . . , dwik, . . . , dwiL)中數值最大的Pi個分量所對應的特徵組成的特徵集合，所述UKj是由所述用戶j的用戶特徵向量(UWj^UWj2,. . . ,UWjk,. . . , uwJL)中數值最大的Qj個分量所對應的特徵組成的特徵集合，其中Pi和為設定常數。
5.根據權利要求2或3所述的方法，其特徵在於，所述方法至少還包括執行以下步驟中的ー個將數據集合{dwlk, dw2k, . . . , dwik, . . . , dwNk}中滿足 dwik 彡 dCk(對姆個 i e I)的 dwik映射為區間[a, b]上一實數值f3(dwik)，然後用f3 (dwik)給dwik賦值；將數據集合 IuWlk, UW2k, . . . , UWjk, . . . , UWmJ 中滿足 UWjk 彡 UCk (對姆個 j e J)的 UWjk映射為區間[a, b]上一實數值f4 (UWjk),然後用f4 (UWjk)給UWjk賦值；其中f3(x)和f4(x)均為增函數，dCk、uCk、a和b均為設定常數，k e K。
6.根據權利要求I所述的方法，其特徵在於，多次使用所述方法，獲取文檔集I= {I,2，…，N}中的多個文檔的文檔特徵向量和用戶集J= {1，2，...，M}中的多個用戶的用戶特徵向量，然後執行如下搜索排序步驟接收用戶j(j e J)的搜索查詢；在文檔集I中識別與所述搜索查詢匹配的文檔子集S (SqO; 獲取所述用戶j的用戶特徵向量；計算所述文檔子集S中每個文檔的文檔特徵向量與所述用戶j的用戶特徵向量之間的數學距離，以及根據所述數學距離對所述文檔子集S進行排序；按照所述排序結果將所述文檔子集S中的一部分文檔發送給所述用戶j。
7.根據權利要求6所述的方法，其特徵在於，所述方法還包括在所述伺服器中計算所述文檔子集S的子集特徵向量(Cldpdd2,…，ddk，…，dcU，其中所述ddk(k e K)表示所述文檔子集S與特徵集K = {1,2, *··,0的第k(k e K)個特徵的相關度；在所述子集特徵向量((Idpdd2,…,(!も，…,(Id1)中挑選ddk(k e K)數值最大的Rj個分量所對應的特徵發送給所述用戶j進行選擇；接收所述用戶j選擇的至少ー個所述特徵；計算所述文檔子集S中的每個文檔的文檔特徵向量與所述用戶j選擇的特徵之間的數學距離I ; 將所述文檔子集S中的每個文檔的所述數學距離和數學距離I加權平均獲得數學距離2，然後根據所述數學距離2對所述文檔子集S進行再排序，並按照所述再排序結果將所述文檔子集S的一部分文檔發送給所述用戶j。
8.根據權利要求6所述的方法，其特徵在於，所述方法還包括一下步驟根據所述搜索查詢中提取的每個術語查找每個所述術語的術語特徵向量；根據每個所述術語的術語特徵向量更新所述用戶j的用戶特徵向量；接收所述用戶j對所述一部分文檔中的一個文檔的點擊訪問；根據每個所述術語的術語特徵向量更新所述ー個文檔的文檔特徵向量。
9.根據權利要求I所述的方法，其特徵在幹，給ー組放置內容中的每個放置內容設置文檔特徵向量，因此，所述方法還包括如下步驟計算每個所述放置內容的文檔特徵向量與所述文檔的文檔特徵向量之間的數學距離I;計算每個所述放置內容的文檔特徵向量與所述用戶的用戶特徵向量之間的數學距離2 ；以及將每個所述放置內容的所述數學距離I和數學距離2加權平均獲得數學距離3 ；根據每個所述放置內容的所述數學距離3，對所述放置內容進行排序，並按照所述排序的結果，將至少一個所述放置內容插入所述文檔，然後將所述文檔發送給所述用戶。
10.一種基於文檔特徵和用戶特徵的搜索查詢系統，其特徵在於，包括文檔獲取模塊該模塊派出蜘蛛程序在網站上抓取網頁，並通過分析和跟蹤所述網頁中的連結來訪問更多的網頁，然後將所述網頁連結以及網頁的索引存儲於文檔資料庫中；文檔特徵向量和用戶特徵向量的初始值設置模塊該模塊至少執行如下步驟中的一種根據網頁特徵人工設置網頁的文檔特徵向量初始值；根據所述網頁包含的術語獲取所述術語的術語特徵向量，並據此更新所述文檔特徵向量的初始值；根據所述網頁歸屬的網站分類目錄的目錄特徵向量更新所述網頁的所述文檔特徵向量；根據用戶特徵人工設置用戶特徵向量初始值；根據所述用戶提交的一組網頁中每個網頁的文檔特徵向量更新所述用戶特徵向量；所述用戶特徵向量初始值存儲於用戶特徵向量初始值資料庫中，所述文檔特徵向量初始值存儲於文檔特徵向量初始值資料庫中；用戶訪問請求獲取模塊獲取用戶對網頁的訪問請求，所述訪問請求至少包括用戶標識和網頁地址；所述訪問請求存儲於用戶訪問請求資料庫中；用戶特徵向量和文檔特徵向量更新模塊該模塊解析所述用戶訪問請求，獲取其中的用戶標識和網頁地址，然後根據所述用戶標識獲取所述用戶的用戶特徵向量以及根據所述網頁地址獲取所述網頁的文檔特徵向量，最後更新所述用戶特徵向量和所述文檔特徵向量；其中更新後的所述用戶特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數，更新後的所述文檔特徵向量是更新前的所述文檔特徵向量和所述用戶特徵向量的函數；所述用戶特徵向量和文檔特徵向量分別存儲於用戶特徵向量資料庫和文檔特徵向量資料庫中；搜索查詢模塊用於識別與所述搜索查詢匹配的一組網頁，然後計算所述ー組網頁中的每個網頁的文檔特徵向量與提交查詢的用戶的用戶特徵向量之間的數學距離，並據此對所述ー組網頁進行排序，以及根據排序結果將所述ー組網頁的一部分發送給所述提交查詢的用戶；文檔子集特徵計算模塊對所述捜索查詢模塊中獲得的所述ー組文檔作進一歩處理，包括計算所述ー組網頁的子集特徵向量，並將所述子集特徵向量中數值最大的至少ー個分量對應的特徵發給所述提交查詢的用戶；接收所述提交查詢的用戶選擇的特徵；計算所述一組網頁中的每個網頁的文檔特徵向量與所述提交查詢的用戶選擇的特徵之間的數學距離I;將所述一組網頁中的每個網頁的所述數學距離和所述數學距離I加權平均得到數學距離2，以及根據所述數學距離2對所述ー組網頁進行再排序，並將再排序後的所述ー組網頁的一部分文檔呈現給所述提交查詢的用戶。
全文摘要
本發明提出了一種確定文檔特徵和用戶特徵的方法和系統。具體方法包括如果用戶訪問了文檔，則根據所述用戶的特徵更新所述文檔的特徵，以及根據所述文檔的特徵更新所述用戶的特徵。多次使用上述方法獲得多個文檔的文檔特徵和多個用戶的用戶特徵。當一搜索查詢用戶提交了搜索查詢請求後，在所述多個文檔中識別與所述搜索查詢匹配的一組文檔，並根據所述一組文檔中每個文檔的特徵與所述搜索查詢用戶的特徵之間的數學距離，對所述一組文檔進行排序。
文檔編號G06F17/30GK102651011SQ201110054810
公開日2012年8月29日申請日期2011年2月27日優先權日2011年2月27日
發明者祁勇申請人:祁勇

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種確定文檔特徵和用戶特徵的方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法