新四季網

內容評估的製作方法

2023-06-11 10:47:31

專利名稱:內容評估的製作方法
技術領域:
本發明涉及軟體。更具體地,揭示了內容評估。
背景技術:
未經請求的內容,通常稱為「垃圾」,由於通過包括全球資訊網(Web)的各種電子媒體向用戶發送和由用戶接收大量不需要的數據而造成問題。可以使用電子郵件或其他電子內容傳送機制,包括消息通信、網際網路、Web或其他電子通信媒體來傳送垃圾。在搜尋引擎、爬尋程序(crawler)、機器人程序(bot)及其他內容過濾機制的上下文中,對Web上不需要的內容(Web垃圾)的檢測成為日益嚴重的問題。例如,當執行搜索時,適合給定搜索的所有網頁可在結果頁面中列出。包含在搜索結果頁面中的網頁可以是為特別地增加特定網站的可見性而生成的網頁。Web垃圾會將不需要的內容「推」向用戶,希望能誘使用戶訪問特定的網站。Web垃圾還會生成大量對用戶不可用或令人厭煩的數據,並且能減慢搜尋引擎的執行或阻礙其準確性。有各種類型機制可以用於提升特定網頁在搜索清單或等級中的可見性。
在很多情況下,垃圾可通過Web和網際網路為商業目的而出現。例如,為了增強特定網頁的期許程度或「可搜索性」,搜尋引擎優化器(SEO)自動或手動地生成垃圾網頁(Web垃圾)。SEO試圖提高網站在搜索清單中的分級,並因此生成大量的垃圾網頁。目標網站或網頁可能能夠增加它在特定搜索中的等級或優先級,從而在結果頁面上得到更顯著的位置和定位,導致來自用戶的通信量增加。因此,SEO能夠基於改進客戶機網站對更大通信量和更多用戶的曝光度來產生收入。某些SEO可以使用關鍵詞填充來創建網頁,這樣的網頁可包括多個關鍵詞卻不包含實際內容。另一個問題是連結垃圾,這會創建連結到特定網頁(商業客戶機)的大量網頁,從而誤導並導致搜尋引擎提高特定網站或網頁在搜索結果內的等級。在其他情況下,可以通過生成大量相互之間有些許區別的網頁來創建Web垃圾,目的在於使這些頁面中的一個能夠被搜尋引擎賦予較高的等級。
因此,需要一種用於檢測未經請求的在線內容而沒有現有技術的限制的解決方案。


本發明的各種實施例在下面的詳細描述和附圖中揭示圖1示出了垃圾網頁;圖2示出了用於評估內容的示例性流程圖;圖3示出了用於評估內容的另一示例性流程圖;圖4示出了通過評估主機名形成的示例性統計分布;圖5示出了通過對每個地址評估多個主機名形成的示例性統計分布;圖6示出了通過評估主機-機器比形成的示例性統計分布;圖7A示出了通過使用鏈入度(in-degree)評估連結結構形成的示例性統計分布;圖7B示出了通過使用鏈出度(out-degree)評估連結結構形成的示例性統計分布;圖8示出了通過評估Web伺服器上頁面之間的字數變化形成的示例性統計分布;圖9示出了通過評估頁面演化形成的示例性統計分布;圖10示出了通過評估近似重複的頁面的聚類形成的示例性統計分布;及圖11為框圖,示出適用於評估內容的示例性計算機系統。
具體實施例方式
本發明可以用眾多方法來實現,包括被實現為過程、裝置、系統、合成物、諸如計算機可讀存儲介質或其中通過光或電通信鏈路發送程序指令的計算機網絡等計算機可讀介質。在本說明書中,這些實現或本發明可以採取的任何其他形式,都可以被稱為技術。一般而言,可以在本發明的範圍內更改所揭示的過程的步驟的順序。
下面提供對本發明的一個或多個實施例的詳細描述,以及示出本發明原理的附圖。本發明是關於這樣的實施例描述的,但本發明並不限於任何實施例。本發明的範圍僅由權利要求限定,且本發明包括眾多替換、修改及等價物。在下面的描述中闡明眾多具體細節,以提供對本發明的完整理解。這些細節是作為例子提供的,且本發明可以根據權利要求書來實現而不包括這些具體細節的部分或全部。為了簡單起見,未詳細描述與本發明有關的技術領域中已知的技術材料,從而不會不必要地使本發明含糊。
Web垃圾的檢測是減少和消除不需要的內容的重要目標。取決於用戶的偏好,某些內容可能是不需要的,且可以執行檢測來確定是否存在Web垃圾。使用通過使用與一組所爬尋的網頁相關聯的各種參數或屬性形成的統計分布,可以對搜索結果中的所有頁面開發一個圖。在此,圖可以指圖表、圖形、或使用各種參數的數據圖。作為例子,可以開發這樣的圖,其中可以對搜尋引擎爬尋的每個頁面畫出一個點,而使用這些頁面的一個或多個屬性來畫出該圖。在某些例子中,可以在創建搜尋引擎索引期間執行Web垃圾檢測技術,而不是在執行查詢時執行,以免延遲向用戶發送搜索結果。在其他例子中,可以通過不同的方式執行Web垃圾檢測。一旦標識出離群值,就可以使用各種技術進一步評估與該離群值相關聯的網頁。然而,一旦檢測到Web垃圾,就可以執行刪除、過濾、降低搜尋引擎的等級或其他動作。可以使用軟體或硬體應用程式(如,電腦程式、軟體、軟體系統及其他計算系統)來實現用於評估內容以便檢測Web垃圾的技術。
圖1示出了垃圾網頁。垃圾網頁(「Web垃圾」)也可以包括其他形式的垃圾,如連結垃圾、關鍵字填充、諸如統一資源定位符(URL)等合成地址,但通常不包括電子郵件垃圾。作為例子,垃圾網頁100包括關鍵詞、搜索項及連結,其每一個都可以由SEO生成來提高網站在來自搜尋引擎等的搜索結果列表中的等級。在此例中,生成了關鍵詞、內容、連結與合成URL,以便提供用於向目標網站送去附加通信量的機制。在此,一個信用修復或貸款代理的網站可以是垃圾網頁100的目標網站。可以檢測如這樣的SEO技術,並使用該技術來指示搜尋引擎發現的特定內容或內容結果是否包括Web垃圾。
圖2示出了用於評估內容的示例性流程圖。在此,提供一總體過程,用於使用各種技術拉評估內容以便檢測Web垃圾。在此例中,搜尋引擎通過爬尋一組網頁來生成數據集(202)。評估爬尋過的網頁來形成統計分布(204)。將與統計分布中的離群值相關聯的頁面標記為Web垃圾(206)。一旦檢測到並標記了Web垃圾,就可以對所有爬尋過的頁面創建搜索索引,包括Web垃圾(208)。在某些例子中,檢測到的Web垃圾可以被排除在搜尋引擎索引之外、得到較低的搜索等級,或以使得用戶查詢不受影響或不被Web垃圾填充的方式來處理,從而響應於查詢生成更加相關的搜索結果(210)。下面結合圖4-10更詳細地描述了可以使用的統計分布的某些例子。用於評估內容的另一過程在圖3中示出。
圖3示出了用於評估內容的另一示例性流程圖。在此例中,提出了一種用於確定是否存在Web垃圾的替換方法。在此,可以從一組爬尋過的網頁生成數據集(302)。這些網頁可以代表搜尋引擎索引中的所有頁面。在其他例子中,可以從一組不同的網頁生成數據集。一旦生成,就可以使用統計分布來評估該數據集,以標識一類統計離群值(304)。對照所標識的這類統計離群值,可以分析各個網頁來確定這些頁面是否包括落在該類統計離群值中的參數(306)。可以形成各種類型的統計分布,從這些統計分布中可以確定各類統計離群值。這些統計離群值可以與如上所述的那些是Web垃圾的網頁相關聯。
作為例子,當使用各種屬性或參數,如統一資源定位符(URL)形成統計分布時,可得到各種離群值。URL表示網頁的地址,可以將其用作用於確定由該URL定址的頁面是否是Web垃圾的參數。在某些例子中,合成URL可以用來定址頁面。合成URL是自動生成的,而不是由開發者、管理員或其他Web內容提供者手動生成的。這些URL可以看起來不一樣,例如,具有地址中所包含的數字、字符或其他項的隨機序列。合成URL可以由應用程式、程序或機器自動地生成。在圖4-10中示出了所形成的用於檢測Web垃圾的統計分布的一些例子。
圖4示出了通過評估包含在URL中的主機名形成的示例性統計分布。在此,統計分布是從包含在數據集中的所有主機名的屬性形成的。進一步評估落在統計分布主體之外的離群值,例如組420,來確定位於這些主機上的頁面是否是Web垃圾。作為例子,對數據集中每一點,可以畫出主機名數量和主機名長度之間的關係。位於組420之內的點表示可以使用上述過程來評估的統計離群值。在此,可以通過評估主機名的屬性來形成統計分布。
主機名可以與域名系統(DNS)一起使用,域名系統是將符號主機名映射到數字IP位址的全球的分布式系統。DNS由大量的獨立計算機(「DNS伺服器」)來實現。每個DNS伺服器都負責映射的某一部分,並可以由註冊了域名所有權的組織來操作。符號主機名可以由客戶機解析,客戶機將主機名發送到DNS伺服器。主機名被直接或間接地轉發到負責(如,管轄)該主機所處的域的DNS伺服器,該DNS伺服器將返回相關聯的IP位址。作為例子,DNS伺服器可以負責較小並且固定(或較慢演化)的主機名集。然而,可以將DNS伺服器配置成將特定域內的任何給定主機名解析成一IP位址。因此,Web伺服器可以生成這樣的網頁,其中包含超連結(如,URL),使得超連結中的主機部分看起來指向不同的主機(如,「belgium.sometravelagency.com」、「holland.sometravelagency.com」、「france.sometravelagency.com」),但其中所有主機名都解析到同一IP位址。這些不同主機中的每一個都可以被分類為機器生成的主機名或「合成主機名」。
可以動態地創建合成主機名。合成主機名比起標準主機名來通常包括更多的點、劃、數字或其他字符。在某些例子中,合成主機名可以具有和標準主機名不同的樣子。合成主機名也可以被稱為域名系統(DNS)垃圾。如果存在合成主機名,則源於該主機名的所有網頁都可以被標記或標識為Web垃圾(408)。如果不存在合成主機名,則不採取行動。可以對搜尋引擎爬尋過的每個主機名重複此過程。圖5示出了通過評估分配給一個地址的主機名數量來形成的另一示例性統計分布。
圖5示出了通過評估分配給一個地址的主機名數量形成的示例性統計分布。作為例子,可以使用地址(如IP位址)來評估網頁,以確定是否存在Web垃圾。組520中的這一組點表示統計離群值。作為例子,統計離群值可以表示分配了上千或上百萬個主機名的單個IP位址,這可表明是DNS垃圾,這進而可以是機器或自動生成的垃圾網頁的證據。然而,在其他例子中,這些統計離群值中的某一些也可以是有效的網站。這些有效網站的例子可包括在線社區網站、社交網絡網站、個人網頁社區及其他類似的站點。給定一個網頁,相關聯的URL的主機名可以被解析到一個IP位址,且可以確定解析到同一IP位址的其他已知主機名。多個主機名可以解析到同一IP位址。對給定的頁面,如果解析到同一IP位址的已知主機名數量超過了一閾值,則將該頁面標記或標識為Web垃圾。如果解析到同一IP位址的主機名數量不超過閾值,則不將該頁面標記為Web垃圾。在圖形表示中,可以對一數據集,畫出分配給一個地址的主機名數量和地址數量之間的關係。在其他例子中,可以使用主機-機器比來確定是否存在Web垃圾。
垃圾網頁可包含大量具有不同主機名的超連結,這些超連結看起來指向不同的無關Web伺服器,但可能指向關聯的Web伺服器。這造成網頁連結到並認可其他網站的印象,從而造成公平的假象。為了降低與操作獨立Web伺服器相關聯的成本,Web垃圾作者可如上所述那樣將DNS伺服器配置成將不同的主機名解析到單個機器。Web垃圾作者可使用此技術來提供正常的網頁外觀,同時看起來是連結到其他不同的網站。此行為可以通過計算主機-機器比來檢測。主機名可以被映射到一個或多個物理機器,其中每個機器都由一個IP位址來標識。作為例子,可以通過將給定網頁連結到並看起來認可的網站或主機名數量除以實際認可的機器數量來確定主機-機器比。認可的網站比機器多得多的網頁具有較高的主機-機器比。隨後,可以檢測到這些網頁並將它們標識為Web垃圾。如果高主機-機器比與一網頁相關聯,則可以將該網頁標記或標識為Web垃圾。如果沒有高主機-機器比,則不將該網頁標記或標識為Web垃圾。主機-機器比可以具有閾值,高於閾值則標識為垃圾。可以將主機-機器比閾值調得更高或更低。如果頁面具有高主機-機器比,則該頁面可能看起來連結到很多不同的網站,但實際上卻連結到並認可更少的網站。在另一個例子中,平均主機-機器比是由一機器服務的頁面的主機-機器比的平均數。由具有高平均主機-機器比的機器服務的網頁將被標記或標識為Web垃圾。圖6示出使用主機名解析來確定是否存在Web垃圾的另一種技術。
圖6示出通過評估主機-機器比形成的示例性統計分布。組620表示一數據集(如網頁)的一組統計分布離群值,該數據集是通過畫出機器上的網頁數量和機器上的平均主機-機器比之間的關係來圖示的。在此,可以將如組620中所示的那些離群值標記或標識為垃圾。圖7A-7B示出可以用於檢測Web垃圾的統計分布的另一例子。
圖7A示出通過使用鏈入度(in-degree)來評估連結結構而形成的示例性統計分布。網頁的鏈入度指的是指向該網頁的超連結的數量。通過評估網頁的鏈入度,可以形成統計分布來發現可與Web垃圾相關聯的離群值。給定具有鏈入度d的網頁,如果比給定觀察到的鏈入度統計分布時所期望的存在更多具有鏈入度d的頁面,則將這些網頁標記或標識為Web垃圾。作為例子,如果數據集包括369,457個具有鏈入度1001的頁面,但是根據圖7A所示的觀察到的統計分布只期望有2000個頁面,則將這些網頁標記或標識為Web垃圾。表示具有如上所述那樣的鏈入度的網頁的一組離群值的一個例子在組720中示出。如圖7B所示,也可以使用鏈出度(out-degree)來評估網頁,如組740中的離群值所示。
圖7B示出通過評估鏈出度而形成的示例性統計分布。網頁的鏈出度指嵌入該網頁的超連結的數量。在此,通過使用與數據集中的每個網頁相關聯的鏈出度的數量來形成統計分布。離群值由組740指示。為了確定Web垃圾是否與數據集中的網頁相關聯,使用鏈出度而不是鏈入度來形成統計分布,如上關於圖7A所述的。在此例中,網頁數量與頁面鏈入度或鏈出度的關係圖可以產生Zipfian分布,通過該分布可以選擇統計離群值(如,落在分布外部的點)並進一步評估這些離群值來確定具有該鏈出度的網頁事實上是否是Web垃圾。在圖7A和7B兩者的例子中,具有相同的鏈入度或鏈出度的相同網頁也可以是Web垃圾。可以形成用於檢測Web垃圾的統計分布的又一個例子在圖8中示出。
圖8示出了通過評估句法內容來檢測Web垃圾的示例性流程圖。作為例子,可以基於大小或字數分布來評估句法內容。在此,變化作為一系列數字的屬性來確定。計算給定網站(如,主機名、IP位址或其他參數)上所有網頁的字數或大小的變化。如果給定網站上的所有網頁在字數上都具有接近零的變化(如組820所示),則這些網頁可能是基於模板的。基於模板頁面指示機器或自動生成的內容(如,完全由關鍵詞或短語組成的頁面)並可以被標記或標識為Web垃圾。接近零的變化表明為了創建可由搜尋引擎、爬尋程序、機器人程序或其他搜索應用分級較高的網頁,在基於模板生成Web垃圾期間所做出的小的改動。在其他例子中,可以使用不同的特徵來評估句法內容。圖9示出形成用於檢測Web垃圾的另一個示例性統計分布。
圖9示出通過評估頁面演化而形成的示例性統計分布。在某些例子中,頁面演化指網頁在下載之間經受的改變。作為例子,SEO或Web垃圾生成器可在下載之間手動或自動地創建或改變網頁。基於網頁的演化對網頁進行評估。作為例子,可以確定網頁是否對每次下載顯著改變或「演化」。顯著改變可以是整個頁面布局修改、大部分內容改變、或內容類型改變(如,大部分的文本被換為圖像)。也可以使用其他類型的顯著改變來確定每個頁面是否對每次下載顯著改變。計算與給定網站上的網頁相關聯的平均改變量。如果與給定站點相關聯的網頁的平均改變量超過了特定閾值,則將這些網頁標記或標識為Web垃圾;否則,不標記這些網頁。作為例子,帶920突出顯示了總數據集中顯示出從一周到下一周之間匹配特徵平均數量較低的一部分。在其他例子中,對其形成統計分布的時間段可以被改為每天、每小時、每年、每月、或在其中確定頁面內容已演化的任何其他時間段。在其他例子中,可以修改其他參數。圖10示出了形成用於檢測Web垃圾的另一個統計分布。
圖10示出了通過評估近似重複的頁面的聚類形成的示例性統計分布。在此,可以標識近似重複的頁面。一旦被標識出,近似重複的頁面就被聚類為例如一個等價類。在其他例子中,可以將近似重複的頁面分組為除等價類之外的其他數據結構或構造。一經聚類,就評估每個聚類來確定其中是否包括較大數量的網頁。如果在所評估的聚類中包括了較大數量的網頁,則可以確定Web垃圾存在。隨著聚類大小的增長,相關聯的網頁是Web垃圾的概率也增長。在此,組1020示出了被示為較大聚類的一組統計離群值,這表明Web垃圾。在此例中,如果在給定的聚類中包括較大數量的網頁,則將該聚類中的網頁標記或標識為Web垃圾。
在上述例子中,可以評估不同的屬性和特徵來實現這些用於評估內容以檢測Web垃圾的技術。在某些例子中,可以對數據集的不同特徵作圖來形成統計分布,並可以通過統計分布來標識和選取統計離群值。在其他例子中,可以在其他環境或特徵系統中使用上述統計分布、分析和評估方法,來確定統計離群值和相關聯的項、屬性或關聯屬性,以評估數據集。
圖11為框圖,示出了適用於評估內容的示例性計算機系統。在某些例子中,計算機系統1100可以用於實現上述技術。計算機系統1100包括總線1102或用於傳遞信息的其他通信機制,它們使各子系統和設備互連,如處理器1104、系統存儲器1106(如,RAM)、存儲設備1108(如,ROM)、盤驅動器1110(如,磁碟或或光碟)、通信接口1112(如,數據機或乙太網卡)、顯示器114(如,CRT或LCD)、輸入設備1116(如,鍵盤)、及光標控制1118(如,滑鼠或跟蹤球)。
根據本發明的一實施例,計算機系統1110通過處理器1104執行包含在系統存儲器1106中的一個或多個指令的一個或多個序列來執行具體操作。可以從另一計算機可讀介質,如靜態存儲設備1108或盤驅動器1110中將這樣的指令讀入系統存儲器110中。在替換實施例中,可以使用硬連線的電路來代替軟體指令或與之組合來實現本發明。
術語「計算機可讀介質」指參與向處理器1104提供指令以便執行的任何介質。這樣的介質可以採取多種形式,包括但不限於,非易失性介質、易失性介質及傳輸介質。非易失性介質包括例如光碟或磁碟,如盤驅動器1110。易失性介質包括動態存儲器,如系統存儲器1106。傳輸介質包括同軸電纜、銅線和光纖,包括組成總線1102的電線。傳輸介質也可以採取聲波或光波的形式,如在無線電波和紅外線數據通信中生成的那些。
計算機可讀介質的常見形式包括,例如,軟盤、可移動磁碟、硬碟、磁帶、任何其他磁介質、CD-ROM、任何其他光學介質、穿孔卡片、紙帶、具有孔圖案的任何其他物理介質、RAM、PROM、EPROM、閃速EPROM、任何其他存儲器晶片或磁帶盒、載波、或計算機可以從中讀取內容的任何其他介質。
在本發明的一實施例中,實現本發明的指令序列的執行是由單個計算機系統1100執行的。根據本發明其他實施例,通過通信鏈路1120(如,LAN、PSTN或無線網絡)連接的兩個或多個計算機系統1100可以執行這些指令序列,以互相協作的方式來實現本發明。計算機系統1100可以通過通信鏈路1120和通信接口1112發送和接收消息、數據及指令,包括程序(即應用程式代碼)。接收的程序代碼在接收之後可以由處理器1104執行,和/或存儲在盤驅動器1110或其他非易失性存儲中,以便在以後執行。
雖然為了便於理解已對上述實施例進行了詳細描述,但本發明並不限於所提供的細節。存在很多實現本發明的替換方式。所揭示的實施例只是說明性的,而非限制性的。
權利要求
1.一種用於評估內容的方法,包括使用與所述內容相關聯的屬性生成數據集;使用統計分布評估所述數據集,來標識一類統計離群值;以及分析網頁,以確定該網頁是否是所述一類統計離群值的部分。
2.如權利要求1所述的方法,其特徵在於,所述屬性是地址。
3.如權利要求1所述的方法,其特徵在於,所述屬性是地址屬性。
4.如權利要求1所述的方法,其特徵在於,所述屬性是統一資源定位符屬性。
5.如權利要求1所述的方法,其特徵在於,所述屬性是主機名解析特徵。
6.如權利要求5所述的方法,其特徵在於,所述主機名解析特徵表示分配給一個地址的多個名稱。
7.如權利要求5所述的方法,其特徵在於,所述主機名解析特徵是主機-機器比。
8.如權利要求1所述的方法,其特徵在於,所述屬性是連結結構。
9.如權利要求1所述的方法,其特徵在於,所述屬性是句法內容。
10.如權利要求1所述的方法,其特徵在於,所述屬性是內容演化。
11.如權利要求1所述的方法,其特徵在於,所述屬性是相似網頁的聚類。
12.如權利要求1所述的方法,其特徵在於,所述數據集是在選擇樣本總體之前生成的。
13.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定是否存在Web垃圾。
14.如權利要求13所述的方法,其特徵在於,所述確定是否存在Web垃圾還包括評估多個網頁;以及確定與每個網頁相關聯的主機名的長度。
15.如權利要求13所述的方法,其特徵在於,所述確定是否存在Web垃圾還包括評估所述網頁,其中與所述網頁相關聯的主機名被解析到一個地址;以及確定其他網頁是否將其他主機名解析到所述地址。
16.如權利要求13所述的方法,其特徵在於,所述確定是否存在Web垃圾還包括評估所述網頁來確定主機-機器比。
17.如權利要求16所述的方法,其特徵在於,所述主機-機器比是通過將包含在所述網頁中的不同主機名的數量除以與所述不同主機名數量相關聯的不同地址的數量來確定的。
18.如權利要求1所述的方法,其特徵在於,所述評估數據集還包括使用所述統計分布來標識包括在所述一類統計離群值中的鏈入度值。
19.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定所述網頁的鏈入度值;以及確定所述網頁的鏈入度值是否包括在所述一類統計離群值中。
20.如權利要求1所述的方法,其特徵在於,所述評估數據集還包括使用所述統計分布來標識包括在所述一類統計離群值中的鏈出度值。
21.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定所述網頁的鏈出度值;以及確定所述網頁的鏈出度值是否包括在所述一類統計離群值中。
22.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定所述網頁是否具有接近零的字數變化。
23.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定所述網頁是否具有接近零的大小變化。
24.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定相對於在一段時間內從一個地址接連進行的多次下載的匹配特徵的平均數。
25.如權利要求1所述的方法,其特徵在於,所述分析網頁還包括確定實質上相同的網頁的聚類的大小。
26.如權利要求1所述的方法,其特徵在於,所述一類統計離群值標識出不需要的內容。
27.一種用於評估內容的方法,包括爬尋一組網頁;評估所述一組網頁來計算統計分布;將所述統計分布中的離群值頁面標記為Web垃圾;以及創建所述網頁和所述離群值頁面的索引來回答查詢。
28.一種用於評估內容的系統,包括存儲器,它被配置成存儲數據;以及處理器,它被配置成使用與所述內容相關聯的屬性來生成數據集、使用統計分布評估所述數據集來標識一類統計離群值、以及分析網頁來確定所述網頁是否是所述一類統計離群值的部分。
29.一種用於評估內容的電腦程式產品,所述電腦程式產品包含在計算機可讀介質中,並包含計算機指令,所述計算機指令用於使用與所述內容相關聯的屬性來生成數據集;使用統計分布評估所述數據集來標識一類統計離群值;以及分析網頁來確定所述網頁是否是所述一類統計離群值的部分。
全文摘要
本發明描述了內容評估,包括使用與內容相關聯的屬性來生成數據集、使用統計分布評估該數據集來標識一類統計離群值、以及分析網頁以確定該網頁是否是該類統計離群值的部分。一種系統包括被配置成存儲數據的存儲器,以及處理器,它被配置成使用與內容相關聯的屬性來生成數據集、使用統計分布評估該數據集來標識一類統計離群值、並分析網頁以確定該網頁是否是該類統計離群值的部分。另一種方法包括爬尋一組網頁、評估該組網頁來計算統計分布、將統計分布中的離群值頁面標記為Web垃圾、以及創建網頁和離群值頁面的索引來回答查詢。
文檔編號G06F17/30GK1770158SQ20051010897
公開日2006年5月10日 申請日期2005年9月29日 優先權日2004年9月30日
發明者D·C·菲特利, M·A·納約克, M·S·瑪納瑟 申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀