新四季網

網頁內容提取方法和裝置與流程

2023-07-22 02:26:01 1


本申請涉及計算機技術領域,具體涉及網際網路技術領域,尤其涉及網頁內容提取方法和裝置。



背景技術:

對於web數據挖掘來說,網頁的正文內容提取通常作為數據挖掘前期的基礎步驟。能不能高效準確地提取出網頁正文內容,並很容易地推廣至各個網站,決定了後續數據挖掘的效果。

現有技術中,通常僅採用單一的提取算法來對網頁正文內容進行提取。由於網站子頁面多而且形式較為多樣,網站主體可能是文字,也可能是圖片甚至圖文混雜,內部的網站標籤也多種多樣;此外,網站中既存在大量不需要提取內容的部分如首頁導航頁、列表頁等,又存在需要提取素材的內容頁。如果不加分辨地採用單一算法進行提取,很容易提取到過多噪聲,無法滿足網頁正文內容提取的準確性和全面性兩方面的要求。



技術實現要素:

本申請的目的在於提出一種改進的網頁內容提取方法和裝置,來解決以上背景技術部分提到的技術問題。

第一方面,本申請提供了一種網頁內容提取方法,包括:解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤;從html標籤中提取出待提取網頁的html特徵;將所提取出的html特徵導入預先訓練的圖片網頁識別模型;以及響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的html標籤。

在一些實施例中,方法還包括:響應於確定待提取網頁為非圖片網頁,將所提取出的html特徵導入預先訓練的素材網頁識別模型;響應於確定待提取網頁為素材網頁,提取待提取網頁中的圖片和文本。

在一些實施例中,從html標籤中提取出待提取網頁的html特徵,包括:從html標籤中篩選出與待提取網頁的正文相對應的html正文標籤;遍歷待提取網頁的各html正文標籤以確定待提取網頁的html特徵。

在一些實施例中,html特徵包括以下至少一者:類別為圖片標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例;待提取網頁的各html正文標籤的文本密度,文本密度為該html正文標籤所包含的文本長度與待提取網頁的各html正文標籤所包含的文本長度之和的比例;以及待提取網頁的各html正文標籤的文本密度的統計特徵。

在一些實施例中,在解析待提取網頁以確定待提取網頁包含的第一超文本標記語言html標籤之前,方法還包括:響應於接收到網頁的統一資源定位符url,解析與網頁隸屬於同一網站的各網頁作為待提取網頁。

第二方面,本申請提供了一種網頁內容提取裝置,包括:解析模塊,配置用於解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤;特徵提取模塊,配置用於從html標籤中提取出待提取網頁的html特徵;圖片網頁識別模塊,配置用於將所提取出的html特徵導入預先訓練的圖片網頁識別模型;以及圖片內容特徵提取模塊,配置用於響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的html標籤。

在一些實施例中,裝置還包括:素材網頁識別模塊,配置用於響應於確定待提取網頁為非圖片網頁,將所提取出的html特徵導入預先訓練的素材網頁識別模型;素材內容特徵提取模塊,配置用於響應於確定待提取網頁為素材網頁,提取待提取網頁中的圖片和文本。

在一些實施例中,特徵提取模塊進一步配置用於:從html標籤中篩選出與待提取網頁的正文相對應的html正文標籤;以及遍歷待提取網頁的各html正文標籤以確定待提取網頁的html特徵。

在一些實施例中,html特徵包括以下至少一者:類別為圖片標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例;待提取網頁的各html正文標籤的文本密度,文本密度為該html正文標籤所包含的文本長度與待提取網頁的各html正文標籤所包含的文本長度之和的比例;以及待提取網頁的各html正文標籤的文本密度的統計特徵。

在一些實施例中,解析模塊在解析待提取網頁以確定待提取網頁包含的第一超文本標記語言html標籤之前,還配置用於:響應於接收到網頁的統一資源定位符url,解析與網頁隸屬於同一網站的各網頁作為待提取網頁。

第三方面,本申請提供了一種電子設備,包括一個或多個處理器;存儲裝置,用於存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上的網頁內容提取方法。

第四方面,本申請提供了一種計算機可讀存儲介質,其上存儲有電腦程式,該程序被處理器執行時實現如上的網頁內容提取方法。

本申請提供的技術方案,通過解析待提取網頁,確定其包含的html標籤,再從html標籤中提取html特徵,基於html特徵確定待提取網頁是否為圖片網頁,若待提取網頁為圖片網頁,則提取該待提取網頁中的圖片。從而可以基於待提取網頁的類型(例如圖片類型和非圖片類型),來採用不同的策略提取網頁內容,實現了網頁內容提取的準確性、全面性的提升。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特徵、目的和優點將會變得更明顯:

圖1是本申請可以應用於其中的示例性系統架構圖;

圖2是根據本申請的網頁內容提取方法的一個實施例的示意性流程圖;

圖3是根據本申請的網頁內容提取方法的另一個實施例的示意性流程圖;

圖4是本申請各實施例的網頁內容提取方法中,從html標籤中提取出所提取網頁的html特徵的分解流程圖;

圖5是根據本申請的網頁內容提取方法的一個應用場景的示意圖;

圖6是根據本申請的網頁內容提取裝置的一個實施例的結構示意圖;

圖7是適於用來實現本申請實施例的終端設備或伺服器的計算機系統的結構示意圖。

具體實施方式

下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用於解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便於描述,附圖中僅示出了與有關發明相關的部分。

需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本申請。

圖1示出了可以應用本申請的網頁內容提取方法或網頁內容提取裝置的實施例的示例性系統架構100。

如圖1所示,系統架構100可以包括第一伺服器101、多個網站伺服器102以及網絡103。網絡103用以在第一伺服器101和各網站伺服器102之間提供通信鏈路的介質。網絡103可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

用戶可以使用第一伺服器101通過網絡103與各網站伺服器102交互,以接收或發送消息等。第一伺服器101上可以安裝有各種通訊應用,例如網頁瀏覽器應用、網絡爬取應用等。

第一伺服器101可以是提供各種服務的伺服器,例如對網站伺服器102提供的網頁進行網頁內容提取的數據挖掘伺服器。數據挖掘伺服器可以對爬取得到的網頁頁面數據進行分析等處理,從而提取出網頁的正文內容。

需要說明的是,本申請實施例所提供的網頁內容提取方法一般由第一伺服器101執行,相應地,網頁內容提取裝置一般設置於第一伺服器101中。

應該理解,圖1中的第一伺服器101、網絡103和網站伺服器102的數目僅僅是示意性的。根據實現需要,可以具有任意數目的第一伺服器、網絡和網站伺服器。

繼續參考圖2,其示出了根據本申請的網頁內容提取方法的一個實施例的流程200。所述的網頁內容提取方法,包括以下步驟:

步驟210,解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤。

在本實施例中,網頁內容提取方法運行於其上的電子設備(例如圖1所示的伺服器)可以通過有線連接方式或者無線連接方式從一個或多個網站伺服器中獲取網頁數據。例如,電子設備可以接收用戶輸入的期望進行網頁內容提取的網頁的地址,即網址。實踐中,網址一般由統一資源定位符(uniformresourcelocator,url)來表示。需要指出的是,上述無線連接方式可以包括但不限於3g/4g連接、wifi連接、藍牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現在已知或將來開發的無線連接方式。

在一些應用場景中,在接收到用戶輸入的網址後,電子設備可以基於網址來向與之對應的網站伺服器發送網頁內容獲取請求,以請求獲取與網址對應的網頁(即待提取網頁)的數據。

一般而言,網頁的數據可以包括多個超文本標記語言(hypertextmarkuplanguage,html)文件,html文件可以表明該部分的網頁數據的類型,例如,文字、圖形、動畫、聲音、表格、連結等類型。每個html文件可以表示網頁的一部分內容。html文件中可以包括多個html標籤,通過對待提取網頁進行解析,可以得到屬於該網頁的全部html標籤。

步驟220,從html標籤中提取出待提取網頁的html特徵。

在這裡,html特徵可以理解為任何可以體現該待提取網頁的特點的定量和/或定性的描述。

步驟230,將所提取出的html特徵導入預先訓練的圖片網頁識別模型。

本步驟中,通過將待識別網頁的html特徵導入預先訓練的圖片網頁識別模型,可以確定出該待識別網頁是否為圖片網頁。在這裡,圖片網頁例如可以理解為在該網頁中,圖片內容所佔比例超過一預設比例閾值的網頁。

在這裡,圖片網頁識別模型例如可以是支持向量機學習分類模型。在訓練時,例如,可以首先採集多個網頁的html文件數據,對這些網頁進行是否為圖片網頁的標註,並提取這些網頁的html特徵。將對這些網頁的標註信息和這些網頁的html特徵作為標註數據輸入支持向量機學習分類模型並對模型進行循環訓練,當該模型的準召率達到一預設的準召率閾值時,可認為該模型訓練完成。

步驟240,響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的html標籤。

在步驟230中將待提取網頁導入預先訓練的圖片網頁識別模型進行了判斷。若待識別網頁為圖片網頁,則在本步驟240中,可以將待識別網頁中所有為圖片格式(包括但不限於.jpg格式、.bmp格式、.png格式、.raw等等)的內容以及與各圖片對應的標籤提取出來,作為最終提取出的網頁內容。

本實施例的網頁內容提取方法,在對網頁內容進行提取之前,首先基於待提取網頁的html特徵判斷該待提取網頁是否為圖片網頁,當待提取網頁為圖片頁面時,提取其中的圖片和與圖片對應的標籤作為該頁面的內容提取結果。從而避免了待提取頁面為非圖片頁面(例如,正文內容不僅包括圖片還包括一定比例文字的圖文混排頁面)時,僅提取頁面中的圖片導致的網頁內容提取不全面的問題。

參見圖3所示,其示出了本申請的網頁內容提取方法的另一個實施例的示意性流程300。

本實施例的網頁內容提取方法,包括:

步驟310,解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤。

步驟320,從html標籤中提取出待提取網頁的html特徵。

步驟330,將所提取出的html特徵導入預先訓練的圖片網頁識別模型。

步驟340,響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的標籤。

本實施例的步驟310~步驟340與圖2所示實施例的步驟210~步驟240類似,在此不再贅述。

與圖2所示的實施例不同的是,本實施例還進一步包括:

步驟350,響應於確定待提取網頁為非圖片網頁,將所提取出的html特徵導入預先訓練的素材網頁識別模型。

在這裡,「素材網頁」可以理解為具有網頁內容提取價值的非圖片類型的網頁。

例如,在一些應用場景中,待提取網頁為某一公司的主頁,由於該網頁包含了對該公司的業務範圍的描述並且提供了一些公司產品的照片圖片,可以認為,該待提取網頁所包含的網頁內容具有一定提取價值,屬於素材網頁的範疇。

而在另一些應用場景中,待提取網頁為一導航頁面,用戶需對該導航頁面中針對某一分類的超連結進行點擊才能夠獲得針對該分類的具體描述信息。由於該導航頁面本身並未包含有實用價值的內容,可以認為,該待提取網頁所包含網頁內容不具有提取價值,不屬於素材網頁的範疇。例如,待提取網頁為一天氣預報網站的主頁。在該主頁上,僅提供了與多個城市對應的超連結,用戶需要點擊期望進行天氣查詢的城市對應的超連結進入該天氣預報網站的一個子頁面,才能夠獲得與該城市對應的天氣信息。由於該天氣預報網站的主頁上並未包含任何天氣信息,因而,可認為該主頁未包含有實用價值的內容,該主頁所包含的網頁內容不具有提取價值,不屬於素材網頁的範疇。

此外,本步驟中,與預先訓練的圖片網頁識別模型類似,預先訓練的素材網頁識別模型同樣可以是支持向量機學習分類模型。在訓練時,例如,可以首先採集多個網頁的html文件數據,對這些網頁進行是否為素材網頁的標註,並提取這些網頁的html特徵。將對這些網頁的標註信息和這些網頁的html特徵作為標註數據輸入支持向量機學習分類模型並對模型進行循環訓練,當該模型的準召率達到一預設的準召率閾值時,可認為該模型訓練完成。

由於在對素材網頁識別模型進行訓練時,可以手動對網頁進行「是」或「否」素材網頁的標註。因此,在素材網頁識別模型的訓練過程中,可以不斷地學習素材網頁的html特徵,從而不斷地調整模型輸出,最終達到預設的準召率。

步驟360,響應於確定待提取網頁為素材網頁,提取待提取網頁中的圖片和文本。

若通過步驟350的預先訓練的素材網頁識別模型判斷出待提取網頁為素材網頁,可以提取其中的圖片和文本,作為該網頁的網頁內容。

另一方面,若通過步驟350的預先訓練的素材網頁識別模型判斷出待提取網頁不是素材網頁,則可以表明該待提取網頁未包含有價值內容(例如,待提取網頁為如上描述的導航頁),此時,可以不再對該待提取網頁進行任何的內容提取操作以避免計算資源和/或網絡資源的浪費。

本步驟中,若待提取網頁為素材網頁,可以基於現有的網頁內容分析算法(例如,redability算法)來提取網頁中的圖片和文本。

本實施例的網頁內容提取方法,在對網頁內容進行提取之前,首先基於待提取網頁的html特徵判斷該待提取網頁是否為圖片網頁,當待提取網頁為圖片頁面時,提取其中的圖片作為該頁面的內容提取結果。從而避免了待提取頁面為非圖片頁面(例如,正文內容不僅包括圖片還包括一定比例文字的圖文混排頁面)時,僅提取頁面中的圖片導致的網頁內容提取不全面的問題。

此外,本實施例的網頁內容提取方法,通過將非圖片網頁導入預先訓練的素材網頁識別模型,並判斷待提取網頁是否為素材網頁,若待提取網頁時素材網頁,則對其中的圖片和文字進行提取,從而確保了網頁內容提取的全面性。另一方面,若待提取網頁不是素材網頁,此時,可以不再對該待提取網頁進行任何的內容提取操作以避免計算資源和/或網絡資源的浪費。

在本申請上述二實施例的網頁內容提取方法的一些可選的實現方式中,步驟220和步驟320的從html標籤中提取出待提取網頁的html特徵可以通過如圖4所示的分解流程400來實現。

具體而言,在步驟410中,從html標籤中篩選出與待提取網頁的正文相對應的html正文標籤。

在一些應用場景中,例如,可以將處於標籤和標籤之間的html標籤作為與待提取網頁的正文相對應的html正文標籤。

在步驟420中,遍歷待提取網頁的各html正文標籤以確定待提取網頁的html特徵。

在這些可選的實現方式中,html特徵例如可以包括以下至少一者:類別為圖片標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例;待提取網頁的各html正文標籤的文本密度,文本密度為該html正文標籤所包含的文本長度與待提取網頁的各html正文標籤所包含的文本長度之和的比例;以及待提取網頁的各html正文標籤的文本密度的統計特徵。在這裡,待提取網頁的各html正文標籤的文本密度的統計特徵例如可以包括但不限於各html正文標籤的文本密度的均值、方差等統計特徵。

在一些可選的實現方式中,儘管在步驟220和步驟320中提取出了待提取網頁的多個html特徵。但在導入相應的識別模型(例如預先訓練的圖片網頁識別模型或預先訓練的素材網頁識別模型)進行網頁類型的判斷時,各識別模型可以僅從多個html特徵中選取一部分作為識別網頁類型的依據。

例如,在一些應用場景中,預先訓練的圖片網頁識別模型可以採用類別為圖片標籤的html正文標籤佔待提取網頁的html正文標籤的比例、類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例、類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例、待提取網頁的各html正文標籤的文本密度這幾個html特徵作為依據來進行識別。而預先訓練的素材網頁識別模型可以採用類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例、類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例、待提取網頁的各html正文標籤的文本密度、待提取網頁的各html正文標籤的文本密度的統計特徵這幾個html特徵作為依據來進行識別。

此外,在本申請上述二實施例的網頁內容提取方法的一些可選的實現方式中,在步驟210和步驟310的解析待提取網頁以確定所述待提取網頁包含的超文本標記語言html標籤之前,本申請的網頁內容提取方法還可以進一步包括:

響應於接收到網頁的統一資源定位符url,解析與網頁隸屬於同一網站的各網頁作為待提取網頁。

這樣一來,用戶僅需輸入隸屬於某一網站的一個網頁的url,電子設備便可以解析得到該網站的各網頁並將這些網頁作為待提取網頁,並對這些待提取網頁分別執行網頁內容提取的操作。從而提升了網頁內容提取的提取效率。

參見圖5所示,其示出了本申請的網頁內容提取方法的一個應用場景的示意圖。

在步驟510中,用戶輸入期望進行內容提取的網站的主頁網址。

在步驟520中,解析與該網頁的各級子頁面。例如,可以利用後臺爬蟲程序爬取出該網站的各級子頁面。

在步驟530中,分別解析隸屬於該網站的各網頁的html特徵。

在步驟540中,將各網頁的html特徵輸入預先訓練的圖片網頁識別模型進行識別。

在步驟550中,網站的子頁面a屬於圖片網頁,則提取該子頁面a中的圖片和與各圖片對應的標籤。

在步驟560中,網站的子頁面b不屬於圖片網頁,則將該子頁面進一步輸入預先訓練的素材網頁識別模型進行識別。

在步驟570中,子頁面b屬於素材網頁,則對子頁面b執行redability算法以提取子頁面b中的圖片和文本。

從以上的對步驟510~570的描述可以看出,本申請的網頁內容提取方法,可以對不同類型的網頁採用不同的提取策略進行網頁內容提取,從而提升網頁內容提取的準確度和全面度。

進一步參考圖6,作為對上述各圖所示方法的實現,本申請提供了一種網頁內容提取裝置的一個實施例,該裝置實施例與圖2或圖3所示的方法實施例相對應,該裝置具體可以應用於各種電子設備中。

本實施例的網頁內容提取裝置包括解析模塊610、特徵提取模塊620、圖片網頁識別模塊630和圖片內容特徵提取模塊640。

其中,解析模塊610可配置用於解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤。

特徵提取模塊620可配置用於從html標籤中提取出待提取網頁的html特徵。

圖片網頁識別模塊630可配置用於將所提取出的html特徵導入預先訓練的圖片網頁識別模型。

圖片內容特徵提取模塊640可配置用於響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的html標籤。

在一些可選的實現方式中,本實施例的網頁內容提取裝置還可以進一步包括素材網頁識別模塊650和素材內容特徵提取模塊660。

其中,素材網頁識別模塊650可配置用於響應於確定待提取網頁為非圖片網頁,將所提取出的html特徵導入預先訓練的素材網頁識別模型。

素材內容特徵提取模塊660可配置用於響應於確定待提取網頁為素材網頁,提取待提取網頁中的圖片和文本。

在一些可選的實現方式中,特徵提取模塊620還可以進一步配置用於:從html標籤中篩選出與待提取網頁的正文相對應的html正文標籤;以及遍歷待提取網頁的各html正文標籤以確定待提取網頁的html特徵。

在一些可選的實現方式中,html特徵包括以下至少一者:類別為圖片標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為超連結標籤的html正文標籤佔待提取網頁的html正文標籤的比例;類別為表單標籤的html正文標籤佔待提取網頁的html正文標籤的比例;以及待提取網頁的各html正文標籤的文本密度,文本密度為該html正文標籤所包含的文本長度與待提取網頁的各html正文標籤所包含的文本長度之和的比例。

在一些可選的實現方式中,解析模塊610在解析待提取網頁以確定待提取網頁包含的第一超文本標記語言html標籤之前,還可以進一步配置用於:響應於接收到網頁的統一資源定位符url,解析與網頁隸屬於同一網站的各網頁作為待提取網頁。

本領域技術人員可以理解,上述網頁內容提取裝置600還可包括一些其他公知結構,例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結構在圖6中未示出。

下面參考圖7,其示出了適於用來實現本申請實施例的終端設備或伺服器的計算機系統700的結構示意圖。

如圖7所示,計算機系統700包括中央處理單元(cpu)701,其可以根據存儲在只讀存儲器(rom)702中的程序或者從存儲部分708加載到隨機訪問存儲器(ram)703中的程序而執行各種適當的動作和處理。在ram703中,還存儲有系統700操作所需的各種程序和數據。cpu701、rom702以及ram703通過總線704彼此相連。輸入/輸出(i/o)接口705也連接至總線704。

以下部件連接至i/o接口705:包括鍵盤、滑鼠等的輸入部分706;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分707;包括硬碟等的存儲部分708;以及包括諸如lan卡、數據機等的網絡接口卡的通信部分709。通信部分709經由諸如網際網路的網絡執行通信處理。驅動器710也根據需要連接至i/o接口705。可拆卸介質711,諸如磁碟、光碟、磁光碟、半導體存儲器等等,根據需要安裝在驅動器710上,以便於從其上讀出的電腦程式根據需要被安裝入存儲部分708。

特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟體程序。例如,本公開的實施例包括一種電腦程式產品,其包括有形地包含在機器可讀介質上的電腦程式,所述電腦程式包含用於執行流程圖所示的方法的程序代碼。在這樣的實施例中,該電腦程式可以通過通信部分709從網絡上被下載和安裝,和/或從可拆卸介質711被安裝。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。

描述於本申請實施例中所涉及到的單元可以通過軟體的方式實現,也可以通過硬體的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括解析模塊、特徵提取模塊、圖片網頁識別模塊以及圖片內容特徵提取模塊。其中,這些模塊的名稱在某種情況下並不構成對該模塊本身的限定,例如,解析模塊還可以被描述為「解析待提取網頁以確定所述待提取網頁包含的超文本標記語言html標籤的模塊」。

作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存儲有一個或者多個程序,當一個或者多個程序被一個設備執行時,使得設備:解析待提取網頁以確定待提取網頁包含的超文本標記語言html標籤;從html標籤中提取出待提取網頁的html特徵;將所提取出的html特徵導入預先訓練的圖片網頁識別模型;以及響應於確定待提取網頁為圖片網頁,提取待提取網頁中的圖片和與圖片對應的html標籤。

以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發明範圍,並不限於上述技術特徵的特定組合而成的技術方案,同時也應涵蓋在不脫離所述發明構思的情況下,由上述技術特徵或其等同特徵進行任意組合而形成的其它技術方案。例如上述特徵與本申請中公開的(但不限於)具有類似功能的技術特徵進行互相替換而形成的技術方案。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀