新四季網

數據過濾方法與流程

2023-10-31 08:01:00


本發明涉及數據處理技術領域,尤其涉及一種數據過濾方法。



背景技術:

隨著網際網路的飛速發展,日益膨脹的網絡數據使網際網路用戶逐漸迷失在了信息的海洋之中。為此,各種個性化服務技術被提出來,為不同的用戶提供不同的服務,以滿足不同的需求。協同過濾推薦(collaborativefilteringrecommendation)是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。

然而,常常會有一些無效數據混雜在其中,造成協同過濾結果不準確,導致預測結果與實際存在偏差。



技術實現要素:

本發明的目的是提供一種數據過濾方法,能夠對於數據進行識別和篩選,濾出有效數據,從而保證後續用於數據計算的數據有效性。

為實現上述目的,本發明提供了一種數據過濾方法,包括:

獲取面向第一用戶的待篩選的目標數據;

確定每個待篩選的目標數據的訪問日誌;所述訪問日誌包括所述目標數據的播放時長、訪問所述目標數據的終端ip地址和訪問動作的時間戳;

驗證第一目標數據的訪問日誌中所述用戶id和所述目標對象id的格式;

當驗證通過時,統計同一終端ip地址對同一目標數據的訪問動作的時間戳,並計算得到所述第一目標數據的訪問頻率;

確定所述第一目標數據的訪問頻率是否超過預定頻率閾值;

當所述第一目標數據的訪問頻率超過預定頻率閾值時,對所述第一目標數據添加所述第一數據屬性;所述第一數據屬性用以表示所述第一目標數據為無效數據;

將所述第一目標數據從所述待篩選的目標數據中刪除。

優選的,所述方法還包括:

當所述驗證不通過時,對所述第一目標數據添加所述第一數據屬性;

根據所述第一數據屬性,將所述第一目標數據從所述待篩選的目標數據中刪除。

優選的,所述訪問日誌還包括:所述第一用戶的用戶id和所述目標數據的目標對象id的格式;在所述對所述第一目標數據添加第一數據屬性之前,所述方法還包括:

確定所述第一目標數據的播放時長是否超過有效播放時間閾值;

當所述第一目標數據的播放時長不超過所述有效播放時間閾值時,對所述第一目標數據添加第一數據屬性。

進一步優選的,所述方法還包括:

當所述第一目標數據的播放時長超過所述有效播放時間閾值時,將所述第一目標數據添加至有效數據集合。

優選的,所述驗證所述用戶id和所述目標對象id的格式具體為:

通過正則方式進行所述用戶id和所述目標對象id的格式的數據校驗。

優選的,當所述第一目標數據的訪問頻率不超過預定頻率閾值時,將所述第一目標數據添加至有效數據集合。

本發明實施例提供的數據過濾方法,通過對目標數據的數據格式和數據訪問頻率的過濾來濾除無效數據,確定有效數據,從而保證後續用於數據計算的數據有效性。

附圖說明

圖1為本發明實施例提供的數據過濾方法的流程圖。

具體實施方式

下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。

本發明實施例提供的數據過濾方法,能夠用於自動的數據有效性的過濾和篩選。

下面結合圖1所示的數據過濾方法的流程圖,以面向用戶的數據過濾服務的應用場景為例,對本發明實施例提供的數據過濾方法進行說明。

如圖1所示,本發明的數據過濾方法包括如下步驟:

步驟110,獲取面向第一用戶的待篩選的目標數據;

具體的,在本實施例中,目標數據是按照用戶屬性存儲的。每個用戶具有一個目標數據的資料庫,用以存儲目標數據。

在具體的例子中,例如在對用戶的影片觀看喜好進行數據過濾的場景中,目標數據可以是用戶觀看影片的影片信息,比如影片名稱、影片id、主演名稱等等;在對用戶的購物喜好進行數據過濾的場景中,目標數據可以是用戶關注商品的商品信息,比如商品名稱、商品id等。對於不同的應用場景,目標數據可以不同,但本發明的方法可以適用於多種場景。

因為目標數據是基於用戶id進行存儲的,所以可以通過用戶id獲取到所需要進行篩選的目標數據。

步驟120,確定每個待篩選的目標數據的訪問日誌;

具體的,訪問日誌是在目標數據被訪問、查看的時候生成的。

訪問日誌可以包括目標數據的播放時長、第一用戶的用戶id和目標數據的目標對象id的格式等。

其中,目標數據的播放時長並不限制於其字面意思所顯示的播放的概念。比如,對於目標數據是用戶觀看影片的影片信息的情況,播放時長可以是用戶觀看影片的時間;又比如對於目標數據是用戶關注商品的商品信息的情況,播放時長可以是指用戶停留在商品頁面上查看的時間,或者在一定時段內的累計查看時間。

用戶的用戶id以及被查看的目標數據的目標對象id的格式也相應的都記錄在訪問日誌中。這裡所說的目標數據的目標對象id是指目標數據的唯一標識信息。比如商品id、影片id等等。

步驟130,驗證第一目標數據的訪問日誌中用戶id和目標對象id的格式,確定數據格式驗證是否通過;

具體的,進行數據過濾時,在本例中首先對數據格式進行校驗,確定待篩選目標數據的數據格式是否正確。

在具體實現中,進行數據格式驗證可以通過正則方式來實現。

當數據格式驗證通過時,執行步驟140,當數據格式驗證不通過時,執行步驟170。

步驟140,統計同一終端ip地址對同一目標數據的訪問動作的時間戳,並計算得到所述第一目標數據的訪問頻率;

具體的,在待篩選的目標數據中可能混入一類無效數據,比如用戶模擬注入或者頻繁調用上報的數據,這些數據需要進行過濾的。

具體可以通過目標數據相關聯的終端ip地址和訪問動作的時間戳來判定。例如可以統計同一終端ip地址對同一目標數據的訪問動作的時間戳,確定對該目標數據的訪問頻率是否超過預定頻率閾值。

當目標數據被訪問時,每次訪問都會添加一個時間戳,因此可以統計一端時間內的時間戳的數量來計算在這段時間內的平均訪問頻率。如果訪問頻率過高,則說明很有可能該數據是被頻繁調用上報的數據,是非正常訪問的數據。因此需要剔除。

步驟150,確定第一目標數據的訪問頻率是否超過預定頻率閾值;

當第一目標數據的訪問頻率超過預定頻率閾值時,執行步驟170。

當第一目標數據的訪問頻率不超過預定頻率閾值時,執行步驟160。

步驟160,確定第一目標數據為有效數據;

具體的,可以對確定為有效數據的第一目標數據添加數據屬性,用以表示其為有效數據。或者也可以將第一目標數據加入有效數據的數據列表中,在後續進行數據處理時,直接通過獲取數據列表中的數據來得到有效數據。

步驟170,對第一目標數據添加第一數據屬性;

具體的,第一數據屬性用以表示第一目標數據為無效數據。通過為目標數據添加數據屬性來標識該數據為無效數據。

步驟180,根據第一數據屬性,將第一目標數據從待篩選的目標數據中刪除。

當然也可以跳過步驟170,直接將無效的第一目標數據從待篩選的目標數據中刪除。

此外,還可以通過設定有效播放時間閾值,可以對播放時間過短的數據進行篩除。因為如果用戶觀看時間過短,雖然是進行了目標數據的訪問,但並不能客觀反映用戶的真實興趣,而往往是因為沒有興趣才會出現觀看時間過短的情況。

比如,以觀看影片為例,觀看時間小於1分鐘,或者小於3分鐘,並不能反映用戶的興趣。

而以查閱商品為例,用戶在商品頁面停留的時間小於5秒鐘,可以認為用戶對該商品沒有興趣,因此可以設定5秒這個時間為播放時間閾值。

為了更加準確的進行數據過濾,對於不同類型的目標數據,可以設置不同的有效播放時間閾值。具體的可以根據目標數據的目標對象id確定相應的有效播放時間閾值。

當第一目標數據的播放時長超過有效播放時間閾值時,確定第一目標數據為有效數據;

當第一目標數據的播放時長不超過有效播放時間閾值時,對第一目標數據添加第一數據屬性,並且根據第一數據屬性,將第一目標數據從待篩選的目標數據中刪除。

本發明實施例提供的數據過濾方法,通過對目標數據的數據格式和數據訪問頻率的過濾來濾除無效數據,確定有效數據,從而保證後續用於數據計算的數據有效性。

專業人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬體、計算機軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。

結合本文中所公開的實施例描述的方法或算法的步驟可以用硬體、處理器執行的軟體模塊,或者二者的結合來實施。軟體模塊可以置於隨機存儲器(ram)、內存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬碟、可移動磁碟、cd-rom、或技術領域內所公知的任意其它形式的存儲介質中。

以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀