新四季網

分類一組電子文檔的方法

2023-09-19 08:13:35

專利名稱:分類一組電子文檔的方法
技術領域:
本發明屬於電信領域,並且特別地屬於用於搜索電子文檔的搜尋引擎領域。更精確地,本發明涉及分類一組電子文檔的方法。例如,由用戶通過因 特網類型的網絡上的搜尋引擎執行搜索而產生這樣的 一組,在這種情況中的電子文檔是Web頁面("全球資訊網"的簡稱),其通過本地存儲介質而本地訪問, 或經由網絡而^皮遠程訪問。
背景技術:
搜尋引擎利用用於評價(rate)或分類從搜索中出現的頁面的幾種技術。 在用於探查(explore ) —組Web頁面的公知技術中, 一些技術依靠語義學, 如果一個頁面包含所搜索的詞的大量出現(occurrence),則頁面被評價為更 加相關。這些技術敏感於名字"兜售信息(spamming)"公知的作法,其旨在 使網際網路用戶在他們的搜索查詢中通常使用的詞在給定頁面中展示大量次 數,這具有使所述頁面當作相關的而頻繁出現的效果。其他技術基於Web的拓樸結構。這些技術同時考慮在所考慮的頁面之間 的現存連結以及這些頁面本身的性質,如在Web的網絡域或子域中頁面的從 屬關係(membership )。這些技術通常基於要處理的頁面的圖型表示法。它們 適於滿足在所述圖中給出的拓樸性質的頁面的分類。這些技術敏感於"兜售信 息,,的方法的變體,其旨在多次引用給定頁面,這具有本地偽造Web的圖的 拓樸特性的效果。和其他頁面之間的關係的排名(rank)來實現Web頁面的分類。這樣的過程的示例,公知為術語"PageRank",用在Google 搜尋引擎的 實現中並在文檔中被描述"The PageRank Citation Ranking: Bringing Order on the Web", by L. Page, S. Brin, R. Motwani and T. Winograd; Technical Report, Computer Science Department, Stanford University, 1998。PageRank過程基於Web上頁面可見性來排序頁面。在該過程中,模擬 通過跟隨超文本連結在Web上隨機的逐頁瀏覽。該瀏覽對應於當後者隨機地 激活位於所查看頁面中的超文本連結之一時通過用戶訪問Web而造成的瀏 覽,以便訪問另一頁面。該過程承擔該模擬的瀏覽的概率分析,以便確定在 諸如此的隨機逐頁瀏覽期間位於給定頁面的用戶的概率。 一 個頁面被其他頁 面引用的次數越多,頁面的排名就越高。這種過程提供了對於由用戶執行的搜索非必要相關的評價排名。最好評 價的頁面(最高排名)不必然是最好地與用戶的期望對應的頁面。此外,該過程不可能在一組文檔中識別主題一致(community )或興趣一 致,不能夠將用戶更加迅速地指引到感興趣的頁面。最終,在用戶在一組呈現的文檔中識別他特別感興趣的文檔的情況下, 不可能通過使用僅基於其排名而排序的一列文檔來容易地確定與感興趣的文 檔接近或無論如何與後者連結的其他文檔是否出現在該組文檔中。發明內容因此本發明的目標特別是通過提出用於分類電子文檔(如網頁)的技術 來解決現有技術的上述缺點,特別使檢測兜售信息的問題成為可能,其適用 於一大組文檔且易迅速實現,並且不是通過分配排名,而是不管基於文檔的 語義內容、還是在這些文檔之間的超文本連結或完全為一些其他方式定義所 述接近的概念,完全通過構造彼此相近的文檔或文檔的子組的一致使簡單分 類文檔成為可能。由於這個目的,本發明的主題是,根據第一方面,分類一組電子文檔的 方法,包括步驟-計數出現在所述組的每對文檔(u, v)之間的超文本連結或聯合引用 (cocitation ),-對於所述組的每對文檔{u, v},確定在文檔U和V之間的相關度w&v,所述相關度取決於在完成計數步驟時獲得的連結數,-對於所述組的每個文檔u,確定位於組Rd的球面的關聯點I "乂其 中R是一組實數而d是一個正整數,對於所述組的至少一個文檔ul,在Rd中關聯點I 和X 之間的距離越小,文檔Ul和U2之間的相關度就越高,其中u2是在文檔ul和u2之間存在相關的文檔,使用球面來確定點的位置的事實是獨創的,在於這使得對於所獲得的點 -因此對於相關聯的文檔-可以簡單地定義這些點關於彼此的相對位置。具體地,在這種表示法模式中,沒有點關於另一點是有利的(favor)。因此,兩 點之間的相對位置,並且因此這兩點之間的距離,可以用於表示與這兩點相 關聯的兩個文檔之間的相關度。由此獲得的表示法反映了涉及的文檔之間的 相關或連結。採用球面上(例如在三維空間中的球面)的一組文檔的表示法的事實, 進一步使得設想任意類型的分類操作成為可能通過選擇、評價(rate)、過 濾、分級,並且簡單地實行這些,這是由於每個文檔從此以後在N維空間中 由一簡單的n重數(tuple)坐標來表示(例如通過三維空間中的三個坐標來 表示)。存在所述方法的多種應用文檔的簇的構建、文檔的評價或選擇。在空 間Rd中基於文檔的投影的空間位置或基於距離測量結果來執行這些操作,也 就是說通過考慮它們的相關度或接近度來確定。根據本發明的方法可以例如用於執行從搜尋引擎執行的搜索中產生的 WEB頁面的任意種類的分類操作、評價、分級,最初的頁面,也就是說距離 其他頁面最遠的頁面,糹皮評<介為例如最高。作為選擇或組合,所述頁面通過群(group)來分類,每一個群與一組頁 面相對應,所述組頁面通過函數X的投影位於空間Rd的球面的預定義空間區 域中。優選地,在這個變體中,限定該球面到空間區域的分割,並且根據它 們在分割的空間區域之一 中的投影的從屬關係而評價所述文檔。根據本發明的方法還可以用於檢測"兜售信息"的出現,也就是彼此指向 的頁面,這是因為在球面S上的所有這些頁面的投影將基本上彼此靠近。根據本發明的方法還可以用於產生從由搜尋引擎執行的搜索中產生的 WEB頁面的可^見表示(visual representation )。根據所述方法的第一變體(variant),其中至少文檔之一呈現出到至少另 一文檔的至少一個超文本連結,兩個文檔u和v之間的相關度基於出現在文 檔u和v之間的超文本連結數和/或聯合引用連結數而確定,相關度越高,則 該數目就越大,不存在相關對應於不存在連結。分類搡作的實現。才艮據所述方法的第二變體,兩個文檔U和V之間的相關度基於文檔U和 V的語義內容的接近的測量結果而確定,相關度越高,該測量結果就越低,不存在相關對應於測量結果低於預定義的閾值。該第二變體有利地允許了考慮文檔的語義內容的分類操作的實現。根據第三變體,相關度基於由多個用戶定義的喜愛頁面而確定。在這種 情況下,由於每個用戶均與一組文檔相關聯(他的喜愛頁面),所以兩個文檔 U和V之間的相關度作為文檔U和V所屬於的這樣的組的數目而確定。(profile)成為可能。所述三種變體可以進一步聯合在一起,以便確定同時考慮超文本連結、 語義內容和/或更適宜用戶的相關度。兩個文檔之間的任意其他類型的連結也 用於定義相關度。根據特定實施例,所述方法進一步包括步驟-定義用於將所述組投影到所述球面的初始函數X0,-確定用於將所述組投影到所述球面的初始函數X,所述投影函數X以 至少一次迭代、基於初始函數Xo而獲得,每一次迭代在於基於在上一迭代中 獲得的函數Xi.,來對於所述組的至少一個文檔u,通過以值Xi (u)值替換 X,, (u)來確定函數Xi,從而使得對於屬於所述組的任意文檔v,優化取決 於值Xi-, ( u )和值Xw ( v )以及文檔u和v之間的相關度wO,v)的預定義準 則成為可能。根據本發明的方法有助於函數X的迭代確定,由此簡化了其實現並且使 得精確控制所述方法的收斂成為可能。優選地,以隨機方式定義函數Xo。統計地從隨機函數開始的事實改進了 收斂到所期望的函數X的速度,實行這些無需關於要獲得的函數的先驗知識。在該實施例中,預定義準則的優化存在於對於文檔u將量A(u)的值最大 化等於formula see original document page 7其中formula see original document page 7,在文檔u和v之間不存在相關時 cu ,vj =0,值Xi(u)等於formula see original document page 8本發明的主題也是由計算機系統可讀的信息介質上的電腦程式,所述 程序包括當該程序被載入然後由計算機系統執行時,用於實現諸如以上簡要 定義的根據本發明的方法的指令。本發明的主題也是數據處理裝置,包括用於根據本發明的方法的步驟的 執行的數據處理部件。這樣的裝置設備例如是實現文檔搜尋引擎的計算機服 務器。本發明的主題也是由計算機系統可讀的記錄介質,包括程序,所述程序 包括當所述程序由計算機系統執行時,用於實現根據本發明的方法的程序代 碼指令。


本發明的其他目的、特性和優點將通過下面的完全以非限制示例給出的、 並參照附圖提供的描述而變得更加明顯,其中 圖1是才艮據本發明的方法的實施例的流程圖。
具體實施方式
根據本發明的方法應用於一組電子文檔,特別是一組WEB頁面,對於 它們中的 一些,包括到 一個或多個其他頁面的一個或多個超文本連結。在圖解的所選擇的實施例中, 一組文檔V的兩個文檔u和v之間的相關 度基於存在於文檔u和v之間的超文本連結和聯合卩1用連結的數目而確定。對於兩個文檔之間超文本連結數的確定,不考慮超文本連結的意義而考 慮"對稱的"超文本連結,也就是說將相同的處理應用到文檔u包括到文檔v 的連結的情況和文檔v包括到文檔u的連結的情況。如果存在至少一個其他文檔w使得-存在至少一個從w指向u的超文本連結,以及畫存在至少一個從w指向v的超文本連結,則兩個文檔u和v具有聯合引用連結。現在通過參照圖1更詳細地描述根據本發明的方法的步驟。步驟S100存在於對於所述組V的文檔的任意對p, vp角定取決於文檔u和V之間的超文本連結數的權重W/ ,V入優選地,函數W/ ,VJ是文檔U和V之間的超文本連結數的增函數。優選地,w ,y;的值位於預定義的最小值(一般是0)和預定義的最大 值(一般是l)之間。在這種情況下,最小值與在文檔u和v之間不存在超 文本連結相對應,而最大值例如與在文檔u和v之間出現預定義的最小數目 的超文本《連接相對應。根據第一示例,在不存在超文本連結時w/rw,y;的值選為等於0,而在文 檔u和v之間至少出現一個超文本連結時w/w,v;的值選為等於1。根據第二示例,在不存在超文本連結時o;/ ,vj的值選為等於0,在文檔 u和v之間出現單個超文本連結時w, ,v;的值選為等於0.5,而在文檔u和v 之間出現兩個或多個超文本連結時wfw,v)的值選為等於1。根據第三示例,將w/w,v卩的值定義為在文檔u和v之間的超文本連結數 Nh的連續增函數,例如其中Nhmax是超文本連結數Nh的最高閾值。步驟S105存在於對於所述組V的文檔的任意對(u, v)確定取決於文檔u 和v之間的聯合引用連結數的權重w乂w,v人優選地,函數w乂w,v;是文檔u和 v之間的聯合引用連結數的增函數。針對W/ ,vj給出的函數定義示例可換位於^/w,W。例如,在不存在聯合 引用連結時C02 ,V)的值選為等於0,而在文檔u和v之間至少存在一個聯合 引用連結時叱 ,vj的值選為等於1。步驟S110存在於對於文檔的任意對",v)確定與對(w, v》通過以下關 系相關聯的相關度w ,v」。kl和k2是實係數使得,0W7 ^ 1, 0 "2 S 1, + ^ = 1由此相關度W ,vJ取得位於0和1之間的實數值,值0與不存在連結相對應。由於希望強調超文本連結的存在,所以賦予係數kl的值將被選擇得更 高。相反,由於希望強調聯合引用連結的存在,所以賦予係數k2的值將被選 擇得更高。用於確定文檔之間的相關度的該過程使得在根據本發明的、用於分類文檔的方法中,在文檔之間考慮兩種類型的連結超文本連結和聯合引用連結 成為可能。該過程對其他類型的連結是普遍的。例如,如果存在一個或多個超文本 連結使得從u傳遞到v成為可能,則可以定義兩個文檔u和v通過間接超文 本連結而互連,在這種情況下的超文本連結數大於或等於2。根據另一示例,可以考慮文檔之間的語義類型的連結。在這種情況下, 基於兩個文檔的語義內容的分析和比較來執行兩個文檔之間的相關度的確 定。就這個目的而言,用於比較語義內容的公知過程是適用的。然後相關度 表示兩個文檔之間語義接近的測量。例如可以基於在每個文檔中所包括的詞 語的統計分析和比較來確定語義相關度。作為變體,可以定義兩個文檔之間 的距離以及將相關度作為所定義的距離的減函數而定義,以這種方式使得兩 個文檔之間的距離越小,則這些文檔之間的相關度越高。將該過程最終概括為連結的任意值,而不管它們的類型。然後將兩個文 檔之間的相關度確定為加權的各初等相關度之和,例如取決於兩個文檔之間 的聯合? 1用連結數的相關度與取決於兩個文檔的語義內容的相關度的和。所所提供的信息成為可能。返回圖1,下面的步驟S120到S135在於確定用於在文檔的組V和組Rd (R的d次笛卡兒冪,其中R表示一組實數,而d是正整數)的球面S之間 投影的函數X。最好將選為等於2或3。所確定的函數X是這樣的,使得對於至少一個文檔u,兩點X"J和 X "J之間在Rd中的距離越小,相關度就越高,其中v是在文檔u和v之間 存在相關的文檔。根據特定實施例,迭代處理用於確定函數X該迭代處理的每一次迭代 在於基於在前一步驟得到的函數兀w來對於所述組V的至少一個文檔u,通過以《似值替換A/^值確定函數《,從而使得優化預定義的準則成為可能; 該準則一方面取決於對於所考慮的文檔U獲得的兀.乂W"直以及對於所述組V 的任意文檔V獲得的《-,W"直,而另 一方面取決於在所述組V的文檔U和任 意文檔V之間的相關度W ,V,選擇所述準則,以便使一系列函數《收斂於 呈現上述特性的函數Z。優選地,所述預定義準則的優化在於對於給定的文檔u最大化數量A(u) 的值,A(u)等於,A(U)= Z (5(W,V)||X(W)-X(V)||2其中S(u,v) = l-co(u,v), 0 ^ co(u,v) S 1,並且在文檔U和V之間不存在相關 時co(u,v)=0。在步驟S120,確定初始投影函數XO。優選地,初始函數X。取得球面S 上的隨機值。其後將迭代處理應用於當前函數《=Z0。確定投影函數X的迭代處理從步驟S125開始。迭代與步驟S125、 S130 以及S135的執行相對應。迭代由索引i來表示。在步驟S120的結尾,索引i 取得其初始值並且等於0。在步驟S215,該索引遞增i=i+l。在步驟S130,針對至少一個文檔u執行下面的操作-確定1TL9 = J]v);r,—,(。的值,-若JYL9 # o, ¥f綴過兀似=-irw/II II通過JYW計算《似,-若}^0 = 0,則《似採取等於兀w(u)。在步驟S135,確定迭代處理是否結束。優選地,該處理被迭代充分多的 次數,用於函數X針對組V的每一個文檔u修改至少一次。即使使用隨機開始函數, 一系列函數《也能快速收斂,可以對於一組文 檔迭代有限次數。終止迭代的判斷還可以基於-已經執行的迭代次數, '-在每次迭代之後執行的函數收斂性的測量結果。該收斂性的測量結果可以通過在每次迭代之後以如下方式計算和zl,:ueV並且通過固定閾值來執行,所述閾值可能取決於組V的文檔u的數目,低於所述閾值則迭代處理終止。在步驟S135,如果採取終止迭代處理的判斷,則在其之後執行步驟S140; 否則從步驟S125開始,執行以下迭代。在步驟S140,基於在上次迭代獲得的函數X所取得的值,對於文檔的組 V的至少一部分執行分類操作。依靠所確定的投影函數X,球面S上的點X(u)的位置取決於文檔u 和其他文檔之間的連結。特別地,兩點之間的距離表示與這兩個點對應的文 檔之間的相關度。可以想到使用其他數學準則來使得初始隨機函數收斂到這樣的函數。 在組V是從由搜尋引擎執行的搜索中產生的 一組WEB頁面的情況下, 該分類操作可以針對-通過檢測具有距離其他投影最遠的投影的頁面來選擇最初始的頁面; -通過檢測其投影基本上接近於一群頁面的投影的頁面來過濾包含"兜售信息"的頁面(指向彼此的頁面);-選擇其投影滿足所確定的準則的頁面。根據第一變體,分類操作包括以下操作-針對組v的任意對(u, v)的距離值《w,yj二 1Ix )-;rwll的計算,-組V的至少一個子組V,的確定,其中值《M,v)滿足預定義的準則,例如高於或低於預定義的閾值。該第 一變體使得檢測球面上的點的簇成為可能,並且因此使得確定對應 的文檔簇成為可能。根據第二變體,分類操作包括存在於確定子組v,的操作,對於所述子組任意點X (u)屬於所確定的組,例如屬於Rd中的空間中的預定義區域。該區域可以是例如球面的、立方體的內部體積,或在Rd的球面S上限定 的其它表面。通過針對幾個預定義的區域重複這些處理,可以構建所述組文 檔的劃分或分割。文檔執行任意種類的分類操作成為可能。此外,可以證明用於確定函數X的處理快速收斂。此外,當相關度基於超文本連結數的而確定時,用於該處理的迭代的計 算時間正比於該超文本連結數。本發明的所述方法因此可以用於大量頁面。,關於一組最後,要是修改該組電子文檔,(通過文檔添加、文檔刪除或文檔之間鏈 接的修改),它能夠從對於未修改的組而獲得的函數X開始,然後對於一些所 選擇的文檔(優選地,至少針對已經經歷修改或已經被添加的文檔)進行步驟130的執行,以便確定經校正的、考慮經修改的電子文檔組的函數X因此本發明特別適用於包含大量文檔的組的處理,所述文檔的部分被時常更新。 在根據本發明的方法的變體中,產生函數z的圖解表示法,也就是說所述球面以及位於所述球面上的點l的表示法。產生這樣的圖解表示法的事實使得可能促進由用戶對於相關文檔組的選擇。該表示法可以例如以二維製圖(cartgraphic)表示法的形式來完成,其中每個文檔由與針對該文檔所確 定的函數X的值相對應的繪圖符號來區分。由此本發明有助於一實施例,其中在用戶計算機終端上顯示該圖解表示 法,所述用戶計算機終端包括顯示屏以及圖形選擇工具(例如與指示器結合 使用的滑鼠,使得在屏幕上限定圖像區域成為可能),該工具適於選擇圖解表 示法的至少一部分。然後用戶能夠執行與他所選擇的一個或多個組的文檔對應的圖解表示法 的一個或多個部分。終端經由圖形選擇工具來獲得限定所選擇的部分的數據。 基於這些數據,終端分類文檔的組V。產生例如減少的一列文檔,與其投影 位於由用戶所選擇的部分中的文檔對應。可選擇地,相反,排除其投影位於 所選擇的部分中的文檔。基於由用戶保存的一列文檔,可以執行附加的分類'' 操作,這些操作或者基於文檔的屬性或它們的相關度而自動地執行,或者基 於在初始選擇的部分之內選擇的新的部分而手動地執行。查看由搜尋引擎執行的搜索的結果的這種模式對於用戶是特別工效的 (ergonomic )。它以一組共同接近點的形式來顯示文檔的一致。諸如本發明中所定義的基於投影的表示法因此使得通過圖形選擇工具可 視地並且手動地,或者根據與在所產生的表示法中的這些文檔的位置相連結 的預定義的準則來自動地執行分類或分級。根據優選實現,根據本發明的分類電子文檔的方法的步驟由電腦程式 的指令而確定。這裡,"電腦程式"被理解為表示一個或多個電腦程式,當其由合適 的計算機系統執行時,形成其目的是實現本發明的一組(軟體)。然後當前述程序被載入到集成的計算機裝置(例如載入到連結的用戶終端)時,如果適於網際網路類型的網絡並且裝配有網際網路瀏覽器軟體,則實現 根據本發明的方法。因此,本發明的主題也是這樣的電腦程式,特別以存儲在信息介質上 的軟體的形式。這樣的信息介質可以包括能夠存儲根據本發明的程序的任意 實體或裝置。例如,正被討論的介質可以包括諸如ROM之類的硬體存儲裝置,例如 CD-ROM或微電子電路ROM,或者石茲記錄裝置,例如硬碟。作為變體,信 息介質可以是集成了所述程序的集成電路,所述電路適於執行或用在正被討 論的方法的3丸行中。此外,信息介質還可以是可傳送的非硬體介質,諸如可以通過無線電或 其他裝置經由電或光纜傳輸的電或光信號。根據本發明的程序可以特別地從 網際網路類型的網絡中下載。從設計的角度來看,根據本發明的電腦程式可以使用任意程式語言並 且可以以原始碼、目標代碼或在原始碼和目標代碼之間的中間代碼(如部分 經編譯的代碼)的形式,或者以用於實現根據本發明的方法的任意其他所期 望的形式。
權利要求
1.一種分類一組電子文檔的方法,包括步驟-計數在所述組的每對文檔{u,v}之間出現的超文本連結或聯合引用,-針對所述組的每對文檔{u,v}確定文檔u和v之間的相關度ω(u,v)(S110),所述相關度取決於在計數步驟完成時所獲得的連結數,-針對所述組的每個文檔u確定位於組Rd的球面上的相關聯點X(u)(S120、S125、S130、S135),其中R是一組實數而d是正整數,對於所述組的至少一個文檔u1,在Rd中相關聯點X(u1)和X(u2)之間的距離越小,則文檔u1和u2之間的相關度就越高,其中u2是在文檔u1和u2之間存在相關的文檔,-將所述組文檔的至少部分基於在所述球面上確定的點而分類(S140)。
2. 如權利要求1所述的方法,其中至少一個所述文檔包括至少一個到至 少一個其他文檔的超文本連結,在兩個文檔u和v之間的相關度基於出現在 文檔u和v之間的超文本連結數、和/或聯合引用連結數而確定,相關度越高, 則該連結數越大,不存在相關與不存在連結相對應。
3. 如權利要求1或2所述的方法,其中兩個文檔u和v之間的相關度取 決於文檔u和v的語義內容的接近的測量結果,相關度越高,則所述測量結 果越低,不存在相關與測量結果低於預定義的閾值相對應。
4. 如權利要求1或2所述的方法,包括步驟-定義(S120)用於將所述組投影到所述球面的初始函數^, -確定用於將所述組投影到所述球面的函數Z,所述投影函數X以至少 一次迭代、基於初始函數獲得,每一次迭代在於基於在上一迭代中獲得的函 數《w,通過對於所述組的至少一個文檔u,以值兀.(u)替換值《.-,(u)來 確定函數X,,從而使得對於屬於所述組的任意文檔v,可以優化取決於值《—/ (u )和值v )以及在文檔u和v之間的相關度ft;(^,v)的預定義準則(S125、 S130、 S135)。
5. 如權利要求3或4所述的方法,其中所述預定義的準則的優化在於針 對文檔u將量/j 最大化為等於,formula see original document page 2其中V) = l-W ,V」,0 ^ W ,V) ^ 1,在文檔U和V之間不存在相關時cu ,v」=0,值不 」等於兀似^r^)/llirwl1,其中 若iyw # o ,貝'j rfL9 = ^ s(u,v) vjKv),veV-(u〉若= o,則值《/w等於值《w(w。
6. 如前述權利要求中任意之一所述的方法,進一步包括在於產生所述球 面的圖解表示法以及位於所述球面上的點X 的圖解表示法的步驟。
7. 如權利要求6所述的方法,進一步包括步驟存在於 -在終端上顯示所述圖解表示法,-向終端用戶提供合適的圖形選擇工具,用於至少部分所述圖解表示法 的圖形選擇,-獲取限定通過所述用戶選擇的至少一個部分的數據, -基於所述數據對於所述組的文檔執行分類。
8. —種程序,包括記錄在通過計算機系統可讀的介質中的程序代碼指令, 用於實現如權利要求1到7的任意一個所述的方法。
9. 一種數據處理裝置,包括數據處理部件,用於如權利要求1到7的任 意一個所述的方法的步驟的執行。
10. —種由計算機系統可讀的記錄介質,包括程序,所述程序包括當由計 算機系統執行所述程序時,用於在權利要求1到7的任意一個中所述的方法 的實現的程序代碼指令。
全文摘要
本發明關於用於分類一組電子文檔的方法,包括以下存在的步驟針對該組的每對文檔{u,v}確定(S110)在文檔u和v之間的相關度ω(u,v);確定在所述組文檔和組Rd的球面之間的投影的函數,其中d是正整數,函數X使得對於至少一個文檔u,在Rd中兩點X(u)和X(v)之間的距離越小,則相關度越高,其中v是在文檔u和v之間存在相關度的文檔;基於函數X所取的值,關於所述組文檔的至少一個部分執行分類操作(S140)。
文檔編號G06F17/30GK101268465SQ200680034703
公開日2008年9月17日 申請日期2006年9月7日 優先權日2005年9月20日
發明者傑羅姆·高爾蒂爾 申請人:法國電信公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀