新四季網

一種基於網際網路數據形成產品資料庫方法和系統與流程

2023-04-25 15:48:52


本發明涉及網際網路數據處理技術領域,具體而言,涉及一種基於網際網路數據形成產品資料庫方法和系統。

背景技術:
目前,一些主流網站的產品目錄形成,都是針對各行業採用固定產品發布模板,形成一個產品的描述。並且,對於同一個產品的描述方式,各個網站所採取的標準也不同。這樣,由於產品發布標準格式不統一,對於產品需求方來說,需求標準各式各樣,由於各大網站產品描述格式不統一,因此對於產品信息進行綜合整理較為困難,無法獲知符合需求標準的產品較為全面的信息,若按需求標準來進行產品挑選,對於大批量多型號產品選擇的情況,往往需要閱讀海量網頁,效率低下。綜上所述,相關技術中由於缺乏一種統一的產品描述標準,而導致產品信息整理困難的技術問題。

技術實現要素:
本發明的目的在於提供一種基於網際網路數據形成產品資料庫方法和系統,以解決上述的問題。在本發明的實施例中提供了一種基於網際網路數據形成產品資料庫方法,包括步驟:步驟A,採用主題爬蟲技術,抓取與主題相關度高於預設閾值的網頁數據,其中,所述主題相關度通過內容相關度分析和連結相關度分析進行計算;步驟B,將抓取的所述網頁數據進行結構化存儲;步驟C,對所述結構化存儲的網頁數據按照產品所屬類別進行自動分類;步驟D,統計自動分類後的網頁數據中產品屬性的出現次數和出現時間,根據預設的權重對產品屬性出現次數和出現時間進行加權計算,得到產品屬性決策值,根據所述產品屬性決策值確定產品屬性排列順序;其中,產品屬性的出現次數記為F,產品屬性的出現時間記為T,以及數據來源的權重記為W,通過公式(F+T)*W,得到所述產品屬性決策值。其中,所述步驟A包括步驟:對經過內容特徵提取後的網頁數據進行分析,判定網頁內容與指定主題相關度是否達到所述預設閾值,是,則保留該網頁,否,則過濾掉該網頁;和/或,對從網頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關度,將相關度達到預設閾值的網頁保留;將保留的網頁的URL加入到爬行隊列中並根據其與主題相關度的高低進行排序;根據爬行隊列中的URL,與網絡建立連接後以下載其所指頁面內容。其中,所述步驟B包括步驟:對抓取的網頁數據的網頁標籤進行分析,對於不同的產品頁面,通過實體標籤獲取產品實體信息,並形成記錄,通過屬性標籤獲取對應的產品屬性信息以及對應的屬性值進行結構化存儲。其中,所述步驟C包括步驟:提取網頁數據中的文本信息,確定用於自動分類的特徵項集合,根據所述特徵項集合重新描述訓練文本向量,確定訓練文本集;在當前文本到達後,根據所述特徵項集合中的特徵詞分析當前文本,確定當前文本的向量表示;在訓練文本集中選出與當前文本最相似的K個文本,計算公式為:<![CDATA[sim(di,dj)=Σk=1MWik×Wjk(Σk=1MW2ik)(Σk=1MW2jk)]]>Wi表示第i篇文檔的特徵向量,Wj表示第j篇文檔的特徵向量,M為特徵向量的維數,sim(d)表示第i和j篇文檔的相似度,k表示文本向量的第k維;在與當前文本最相似的K個文本中,依次計算每個的權重,計算公式如下:<![CDATA[p(x,Cj)=Σd,KNNsim(x,di)y(di,Cj)]]>x是一個點,Cj是已知類別,di是x的k個最近的鄰居點,是向量和向量的相似度,為類別屬性函數;依據得到的權重,計算當前文本與K個文本之間的相似度,根據相似度,確定該當前文本的所屬類別。其中,所述C包括步驟:預先依據訓練樣本和分類體系建立類別向量空間;對一篇待分樣本進行分類時,計算待分樣本和每一個類別向量的相似度,然後選取相似度最大的類別作為該待分樣本所對應的類別。其中,所述步驟C包括步驟:根據SVM算法和/或Bayes算法對網頁數據進行自動分類。其中,所述步驟D之後,還包括步驟:根據用戶輸入的產品屬性關鍵詞,檢索相匹配的產品信息並按照產品屬性決策值的高低將產品信息以列表形式進行顯示。本發明實施例還提供一種基於網際網路數據形成產品資料庫系統,包括數據抓取模塊、結構化存儲模塊、數據分類模塊和屬性決策模塊;所述數據抓取模塊,用於採用主題爬蟲技術,抓取與主題相關度高於預設閾值的網頁數據,其中,所述主題相關度通過內容相關度分析和連結相關度分析進行計算;所述結構化存儲模塊,用於將抓取的所述網頁數據進行結構化存儲;所述數據分類模塊,用於對所述結構化存儲的網頁數據按照產品所屬類別進行自動分類;所述屬性決策模塊,用於統計自動分類後的網頁數據中產品屬性的出現次數和出現時間,根據預設的權重對產品屬性出現次數和出現時間進行加權計算,得到產品屬性決策值,根據所述產品屬性決策值確定產品屬性排列順序;其中,產品屬性的出現次數記為F,產品屬性的出現時間記為T,以及數據來源的權重記為W,通過公式(F+T)*W,得到所述產品屬性決策值。其中,所述數據抓取模塊,用於:對經過內容特徵提取後的網頁數據進行分析,判定網頁內容與指定主題相關度是否達到所述預設閾值,是,則保留該網頁,否,則過濾掉該網頁;和/或,對從網頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關度,將相關度達到預設閾值的網頁保留;將保留的網頁的URL加入到爬行隊列中並根據其與主題相關度的高低進行排序;根據爬行隊列中的URL,與網絡建立連接後以下載其所指頁面內容。其中,所述結構化存儲模塊,用於:對抓取的網頁數據的網頁標籤進行分析,對於不同的產品頁面,通過實體標籤獲取產品實體信息,並形成記錄,通過屬性標籤獲取對應的產品屬性信息以及對應的屬性值進行結構化存儲。本發明上述實施例的一種基於網際網路數據形成產品資料庫方法和系統,通過抓取數據、結構化存儲、自動分類和屬性決策值計算幾個步驟,將海量網頁數據中的產品信息進行結構化存儲後進行分類,再對產品的各個屬性進行計算,得到產品顯示的各個屬性的排列順序,這樣,便對較為不統一的各種產品信息描述內容進行了整理歸納,用戶在想要獲知某一產品的具體信息時,可根據產品屬性調取相關數據,無需閱讀海量網頁,使得用戶對於網際網路中的產品信息無需進行搜集整理,即可獲知較為全面的綜合信息。同時,計算產品屬性決策值時,通過屬性的出現次數和時間進行加權計算,這樣,可以保證數據的實時性,滿足大多數用戶的實時需求。附圖說明圖1為本發明的一種基於網際網路數據形成產品資料庫方法的一個實施例的流程圖;圖2為本發明的一種基於網際網路數據形成產品資料庫方法的一個實施例中採用SVM算法的原理示意圖;圖3為本發明的一種基於網際網路數據形成產品資料庫系統的一個實施例的結構示意圖。具體實施方式下面通過具體的實施例子並結合附圖對本發明做進一步的詳細描述。本發明實施例提供了一種基於網際網路數據形成產品資料庫方法,參見圖1所示,包括步驟:步驟S110:採用主題爬蟲技術,抓取與主題相關度高於預設閾值的網頁數據。本發明實施例採用主題爬蟲技術,利用主題爬行器實現基於主題的信息採集功能。一般由爬行隊列、網絡連接器、主題模型、內容相關度分析以及連結相關度分析等功能模塊組成。其中,爬行隊列是由一系列主題相關度較高的URL(UniformResourceLocator,網頁地址)組成。除特別說明以外,本發明中URL均指網頁地址。爬行隊列在主題搜尋引擎進行主題搜索之初是由種子站點組成,這些種子站點可以由該行業領域的專家給出,也可以藉助一些權威網站自動生成。在搜索過程開始之後,系統發現新的URL,並根據主題相關度對其排序後補充到爬行隊列中。網絡連接器則根據爬行隊列中的URL,與網絡建立連接後以下載其所指頁面內容。主題模型由主題建模方法來實現,主題詞法是常用的主題建模方法。關鍵詞法以一組特徵關鍵詞來表示主題內容,包括用戶需求主題以及文檔內容。一個主題關鍵詞可以是單個的詞短語,包括權重、語種等屬性,常用的相關度算法是詞頻統計法。其中,計算主題相關度,可以通過內容相關度分析和連結相關度分析。內容相關度分析是指系統對經過內容特徵提取後的網頁數據進行分析,判定網頁內容與指定主題相關度如何,過濾無關頁面,保留相關度達到閾值的網頁。連結相關度分析是指系統對從網頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關度,將符合主題度要求的URL加入到爬行隊列中,並對其進行爬行優先度排序,以保證相關度高的頁面優先被檢索到。所述預設閾值,是根據網頁上數據與主題相關度大小判斷是否保留該網頁數據的一個相關度的量化分界值,可由本領域技術人員根據實際情況具體確定,本發明不一一列舉。若相關度用百分制表示,則預設閾值可以為60-100。步驟S111:將抓取的所述網頁數據進行結構化存儲。本發明實施例,通過對抓取數據的網頁標籤進行分析,形成標籤知識庫,對抓取網頁數據進行結構化存儲。對於不同的產品頁面,通過實體標籤獲取產品實體,並形成記錄,通過屬性標籤獲取對應的產品屬性以及對應的屬性值,進行結構化存儲。步驟S112:對所述結構化存儲的網頁數據按照產品所屬類別進行自動分類。自動分類的方式有多種,下面列舉幾種可實施方式:其中一種方法依據的分類規則為:該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。具體的算法步驟如下:根據特徵項集合重新描述訓練文本向量;在當前文本到達後,根據特徵詞分詞當前文本,確定當前文本的向量表示;在訓練文本集中選出與當前文本最相似的K個文本,計算公式為:<![CDATA[sim(di,dj)=Σk=1MWik×Wjk(Σk=1MW2ik)(Σk=1MW2jk)]]>Wi表示第i篇檔的特徵向量,Wj表示第j篇文檔的特徵向量,M為特徵向量的維數,sim(d)表示第i和j篇文檔的相似度,K為向量的第k維;在當前文本的K個鄰居中,依次計算每類的權重,計算公式如下:<![CDATA[p(x,Cj)=Σd,KNNsim(x,di)y(di,Cj)]]>x是一個點,Cj是已知類別,di是x的k個最近的鄰居點,是向量和向量的相似度,為類別屬性函數,如果di屬於類Cj,那麼函數值為1,否則為0。之後,依據得到的權重,計算當前文本與K個文本之間的相似度,根據相似度,確定該當前文本的所屬類別。另一種方式為,將文檔表示為加權的特徵向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然後通過計算文本相似度的方法來確定待分樣本的類別。當文本被表示為空間向量模型的時候,文本的相似度就可以藉助特徵向量之間的內積來表示。此種方式一般事先依據語料庫中的訓練樣本和分類體系建立類別向量空間。當需要對一篇待分樣本進行分類的時候,只需要計算待分樣本和每一個類別向量的相似度即內積,然後選取相似度最大的類別作為該待分樣本所對應的類別。此外,還可採用SVM算法和/或Bayes算法對網頁數據進行自動分類。SVM算法,參見圖2所示,是從線性可分情況下的最優分類面發展而來的,基本思想可見圖,分割線1和分割線2都能正確地將2類樣本分開,這樣的分割線有無線多條,但分割線1使2類樣本的間隙最大,稱之為最優分類線(更高維即為最優分類面或最優超平面)。Bayes算法是一種在已知先驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決於各類域中樣本的全體。設訓練樣本集分為M類,記為C={c1,…,ci,…cM},每類的先驗概率為P(ci),i=1,2,…,M。當樣本集非常大時,可以認為P(ci)=ci類樣本數/總樣本數。對於一個待分樣本X,其歸於cj類的類條件概率是P(X/ci),則根據Bayes定理,可得到cj類的後驗概率P(ci/X):P(ci/x)=P(x/ci)·P(ci)/P(x)(式1-1)若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,則有x∈ci(式1-2)式(1-2)是最大後驗概率判決準則,將式(1-1)代入式(1-2),則有:若P(x/ci)P(ci)=Maxj[P(x/cj)P(cj)],i=1,2,…,M,j=1,2,…,M,則x∈ci。步驟S113:統計自動分類後的網頁數據中產品屬性的出現次數和出現時間,根據預設的權重對產品屬性出現次數和出現時間進行加權計算,得到產品屬性決策值,根據所述產品屬性決策值確定產品屬性排列順序。屬性決策包含兩個參數,屬性的出現次數(F),屬性的出現時間(T),以及數據來源的權重(W),通過公式:(F+T)W,得到屬性決策值。依據該屬性決策值獲得屬性入選及排序。其中,屬性的出現時間的權重以及出現次數的權重,都可根據實際情況具體確定,一般地,數據來源的時間越久遠,則該數據的出現時間的權重越小。本發明實施例還提供一種基於網際網路數據形成產品資料庫系統,參見圖3所示,包括數據抓取模塊1、結構化存儲模塊2、數據分類模塊3和屬性決策模塊4。所述數據抓取模塊1,用於採用主題爬蟲技術,抓取與主題相關度高於預設閾值的網頁數據。所述結構化存儲模塊2,用於將抓取的所述網頁數據進行結構化存儲。所述數據分類模塊3,用於對所述結構化存儲的網頁數據按照產品所屬類別進行自動分類。所述屬性決策模塊4,用於統計自動分類後的網頁數據中產品屬性的出現次數和出現時間,根據預設的權重對產品屬性出現次數和出現時間進行加權計算,得到產品屬性決策值,根據所述產品屬性決策值確定產品屬性排列順序。該資料庫系統還應設置有檢索器和管理平臺。檢索器為用戶提供查詢界面,根據用戶提出的檢索式對索引資料庫進行檢索,按相關度高低對查詢結果排序後將頁面連結及相關信息返回給用戶。管理平臺負責對整個系統進行監控和管理,主要實現確定主題、初始化爬行器、控制爬行過程、協調優化模塊間功能實現、用戶交互等功能。作為一個完善的搜尋引擎,管理平臺還應供跨平臺應用網絡服務應用接口。其中,作為一種可實施方式,所述數據抓取模塊1,用於:對經過內容特徵提取後的網頁數據進行分析,判定網頁內容與指定主題相關度是否達到所述預設閾值,是,則保留該網頁,否,則過濾掉該網頁;和/或,對從網頁中提取的超鏈信息進行測算,得出每個URL所指頁面與指定主題的相關度,將相關度達到預設閾值的網頁保留;將保留的網頁的URL加入到爬行隊列中並根據其與主題相關度的高低進行排序;根據爬行隊列中的URL,與網絡建立連接後以下載其所指頁面內容。優選地,作為一種可實施方式,所述結構化存儲模塊2,用於:對抓取的網頁數據的網頁標籤進行分析,對於不同的產品頁面,通過實體標籤獲取產品實體信息,並形成記錄,通過屬性標籤獲取對應的產品屬性信息以及對應的屬性值進行結構化存儲。綜上,本發明實施例所提供的方法和系統,主要運用網絡爬蟲技術,對海量網頁進行抓取,主要對綜合類電子商務網站、垂直類電子商務網站、生產商網站、採購商網站進行抓取,並提取出最新、有效產品及相關數據,之後運用數據結構化存儲技術對抓取的數據進行結構化存儲,建立電子商務數據源。再運用數據分類技術,把抓取的數據進行分類。通過為各類目建立學習樣本數據,通過數據的語料,命名實體識別,語義理解,優化樣本等智能化技術,並輔以人工修正,實現數據自動分類。最後,通過屬性決策系統,對屬性出現的頻率、時間進行分析,結合用戶錄入習慣分析,形成各分類下的屬性排列規則,生成各分類的描述標準。這樣,通過對以上技術的綜合運用,形成了對各行業產品描述的統一標準,通過對採購商標準進行採集,可形成正對特定採購商的產品描述標準,同時產品描述內容可以在多個標準間進行轉換,適應不同的採購商查看,並可對接採購系統,通過接口實現訂單內容自動初始化,極大的提高系統的處理效率。顯然,本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本發明不限制於任何特定的硬體和軟體結合。以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀