新四季網

一種數據處理方法及設備與流程

2023-09-18 19:34:00 1


本申請涉及網絡數據處理領域,特別涉及一種數據處理方法及設備。



背景技術:

隨著移動網際網路的迅速發展,移動網際網路用戶不斷增加,從而使網絡互聯中的網絡數據呈指數倍數增加。面對如此龐大的網絡數據,運營商在要求保證網絡優化質量的前提下,對網絡數據的實時性,準確性也提出了更高的要求。

網絡數據一般存儲在網絡伺服器中,網絡伺服器是指一個管理資源並為用戶提供服務的計算機軟體和硬體的集合,用於接收數據請求並對所述數據請求進行響應。

現有技術中,從廠家的網絡伺服器中獲取網絡數據進行分析,一般採用整體下載的方式,即將網絡伺服器中的數據文件全部下載,然後再進行數據分析,數據處理效率低。



技術實現要素:

本申請所要解決的技術問題是提供一種數據處理方法,提升對伺服器中網絡數據的處理效率。

一種數據處理方法,包括:

實時掃描伺服器中的數據文件;

觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,並將所述數據流存放到本地緩存區中;

觸發解析線程從所述本地緩存區中,讀取數據進行解析;所述解析線程的數量至少為一個,所述解析線程與所述讀取線程為預先創建的獨立線程。

上述的方法,優選的,還包括:

緩存已完成解析的數據文件的文件名;

將再次掃描獲得的數據文件的文件名與所述緩存的文件名進行比較;當比較相同時,對所述再次掃描獲得的數據文件進行捨棄;

當比較不相同時,觸發流讀取線程對所述再次掃描獲得的數據文件進行讀取。

上述的方法,優選的,還包括:

將經過解析的文件數據緩存到內存或緩存文件中;

當緩存的文件數據的數量到達預設量值時,將緩存的文件數據作為一個數據塊,將所述數據塊緩存到本地緩存文件中;

當所述本地緩存文件中的文件數據達到所述本地緩存文件的容量臨界值時,新建本地緩存文件。

上述的方法,優選的,還包括:

觸發多個分發線程從所述本地緩存文件中讀取文件數據;並按預設的分發方式進行分發。

上述的方法,優選的,所述實時掃描伺服器中的數據文件,觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,包括:

當同時掃描到多個數據文件時,依據各個數據文件的文件名對各個數據文件進行篩選;

按掃描順序對經過篩選的數據文件進行排序;

觸發流讀取線程,依序從各個已掃描數據文件中讀取預設的數據緩存區大小的數據流。

一種數據處理設備,包括:

掃描單元,用於實時掃描伺服器中的數據文件;

第一觸發單元,用於觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,並將所述數據流存放到本地緩存區中;;

第二觸發單元,用於觸發解析線程從所述本地緩存區中,讀取數據進行解析;所述解析線程的數量至少為一個,所述解析線程與所述讀取線程為預先創建的獨立線程。

上述的設備,優選的,還包括:

第一緩存單元,用於緩存已完成解析的數據文件的文件名;

比較單元,用於將再次掃描獲得的數據文件的文件名與所述緩存的文件名進行比較。

上述的設備,優選的,還包括:

第二緩存單元,用於將經過解析的文件數據緩存到內存或緩存文件中。

上述的設備,優選的,還包括:

第三觸發單元,用於觸發多個分發線程按預設的分發方式對緩存的文件數據進行分發。

上述的設備,優選的,還包括:

篩選單元,用於當同時掃描到多個數據文件時,依據各個數據文件的文件名對各個數據文件進行篩選。

本申請實施例提供了一種數據處理方法,實時掃描伺服器中的數據文件,對於掃描到的數據文件,觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,並將所述數據流存放到本地緩存區中;觸發解析線程從所述本地緩存區中,讀取數據進行解析。本申請實施例中,對於掃描到的數據文件,分塊進行讀取,並且在讀取到文件數據時,開始對讀取的文件數據進行解析,文件的讀取與解析同步進行,互不幹擾,提升了數據處理的效率。

附圖說明

為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附+圖僅僅是本申請的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1是本申請的一種數據處理方法的方法流程圖;

圖2是本申請的一種數據處理方法的又一方法流程圖;

圖3是本申請的一種數據處理設備的結構示意圖;

圖4是本申請的一種數據處理設備的又一結構示意圖。

具體實施方式

下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請保護的範圍。

本申請可用於眾多通用或專用的計算裝置環境或配置中。例如:個人計算機、伺服器計算機、手持設備或可攜式設備、平板型設備、多處理器裝置、包括以上任何裝置或設備的分布式計算環境等等。

本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算環境中實踐本申請,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位於包括存儲設備在內的本地和遠程計算機存儲介質中。

本申請實施例提供了一種數據處理方法,該方法應用於本地客戶端,其方法流程圖如圖1所示,可以包括以下步驟:

步驟s101:實時掃描伺服器中的數據文件;

本申請實施例中,當需要獲取廠家網絡伺服器上的數據文件時,與伺服器建立連接,實時掃描伺服器中的數據文件。

步驟s102:觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,並將所述數據流存放到本地緩存區中;

本申請實施例中,預先創建有至少一個解析線程,以及與所述解析線程獨立的流讀取線程;當掃描到網絡伺服器中的數據文件時,對於每一個掃描到的數據文件,觸發流讀取線程依據讀取指令中的數據緩存區的大小,順序讀取該數據文件中的文件數據。

步驟s103:觸發解析線程從所述本地緩存區中,讀取數據進行解析;所述解析線程的數量至少為一個,所述解析線程與所述讀取線程為預先創建的獨立線程。

在流讀取線程讀取文件數據的同時,觸發解析線程對每一次讀取到的文件數據進行解析。

本申請實施例提供的數據處理方法,對於掃描到的數據文件,不採用整體下載的方式,而是按預設數據緩存區的大小,每次讀取一定的文件數據,並在讀取到文件數據的同時,並行進行數據解析過程,同時文件數據的讀取過程依然繼續,形成讀取與解析的並行操作,在很大程度上,提升了數據處理的效率。

本申請提供了一種數據處理方法,實時掃描伺服器中的數據文件,對於掃描到的數據文件或新增文件,對於已經處理的文件名會緩存到本地緩存,針對伺服器上的新增文件,觸發流讀取線程,依據預設的數據緩存區大小,順序讀取放入緩存區,且觸發解析線程,對於每一次從緩存區中讀取到的數據進行解析,解析出的數據,按照預設記錄大小進行組裝成一個數據塊,當數據塊達到預設個數時,將這批數據放到緩存區或緩存文件中,同時觸發分發線程,從緩存區或緩存文件中讀取數據按照分發策略進行數據分發,在整個數據的接入,解析,分發,都是異步的,互補幹擾,極大的提升了整體的數據處理的效率。本申請實施例中,就是按照上述描述的數據處理方法進行處理的。

本申請實施例中,所述數據緩存區大小設定可以根據數據文件的大小進行設定,例如當數據文件為10m時,可以將所述數據緩存區的大小設定為2m,這樣可以分5次對數據文件中的文件數據進行讀取。

本申請實施例中,以流式數據的方式對數據文件進行讀取,同時以流式數據的方式對讀取的數據進行解析並存儲,實現了數據實時性的讀取與解析。

參考圖2,示出了本申請實施例一種數據處理方法的一個完整的執行示意圖,在圖2中:

本申請實施例提供的處理方法,對於已經解析完成的數據文件,對該數據文件的文件名進行緩存,當再次掃描伺服器中的數據文件時,將緩存的文件名與再次掃描到的數據文件的文件名進行比較,如果文件名相同,則不再對該掃描到的文件數據進行讀取,以避免重複。如果文件名不相同,再觸發讀取線程對該掃描到的數據文件進行讀取,文件數據讀取的過程與圖1中記載的方法相同。

本申請實施例提供的處理方法,對於已經解析完成的文件數據,將經過解析的文件數據緩存到內存或緩存文件中;

當緩存的文件數據的數量到達預設量值時,將緩存的文件數據作為一個數據塊,將所述數據塊緩存到本地緩存文件中;

當所述本地緩存文件中的文件數據達到所述本地緩存文件的容量臨界值時,新建本地緩存文件。

本申請實施例提供的處理方法,通過多線程的方式,觸發多個分發線程從所述本地緩存文件中讀取文件數據;並按預設的分發方式進行分發。

由圖2所記載的技術方案可以看出,本申請實施例提供的數據處理方法中,通過採集程序與廠家伺服器建立連接,並指定數據緩存區大小,採集程序實時掃描廠家伺服器的數據文件,並將掃描到的數據文件進行數據流數據接入,採集程序每次從廠家伺服器上讀取一定的緩衝數據,並實時性的針對接入回來的數據進行數據解析,實時性的斷點記錄,直到本次接入的數據接入完成。對於已經解析完成的數據文件名,並緩存到本地。當再次掃描廠家伺服器上的文件或新增文件,並和本地的緩存記錄進行比對,對於已經採集過的文件不再採集,對於未採集的文件,再按照流數據接入,解析,緩存,分發。對於解析出來的數據,會將一定數量的數據成批緩存到內存中,當達到指定的緩存個數時,會緩存到本地文件中,當緩存數據文件達到一定大小時,再新建一個本地緩存文件進行緩存,並開啟多個分發線程從緩存文件中獲取數據,按照預先指定的分發模板進行分發。在此過程中,數據的接入解析,和數據的存儲分發是異步的,不會干擾,大大提高了採集的時效性,提高了用戶的感知。

本申請實施例提供的數據處理方法中,從廠家伺服器上接入指定大小的緩衝區數據流大小後,並對數據流進行數據解析,形成結構化數據或非結構化數據,將數據緩存到內存和本地映射文件,大大減少io。

本申請實施例中,通過多線程的方式,實時從本地緩存數據文件或內存中獲取數據,並利用預先定義好的規則進行數據分發,例如輸出文件方式,ftp方式,資料庫方式,hadoop中的hbase等輸出策略。

當對本地緩存區的文件數據處理完成之後,再次從廠家伺服器上獲取指定緩存區大小的數據流,重新執行上述流程進行處理。

上述方法的執行過程中,對於掃描伺服器的過程中,每次掃描到一個數據文件時,即對該數據文件進行流式讀取,讀取完成後,再進行掃描,對於已經讀取過的文件不再進行重複讀取,對於未讀取的,重新進行流式讀取。

本申請實施例中,還提供了另外一種實現方式,對於伺服器的掃描,一次性掃描全部的數據文件,掃描到這些數據文件之後,進行篩選,對於重複的數據文件進行捨棄,然後按掃描順序,對數據文件進行排序,讀取線程,按所述順序,依次流式讀取各個數據文件。具體執行過程如下:

當同時掃描到多個數據文件時,依據各個數據文件的文件名對各個數據文件進行篩選;

按掃描順序對經過篩選的數據文件進行排序;

觸發流讀取線程,依序從各個已掃描數據文件中讀取預設的數據緩存區大小的數據流。。

綜上,本申請實施例提供的數據處理方法,採用流式讀取的方式,對於讀取與解析過程同步進行,提升了數據處理的效率,保證了數據的實時性。。

對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本申請所必須的。

與上述本申請一種數據處理方法相對應,參見圖3,本申請還提供了一種數據處理設備,在本實施例中,該設備可以包括:

掃描單元201,用於實時掃描伺服器中的數據文件;

第一觸發單元202,用於觸發流讀取線程,從已掃描數據文件中讀取預設的數據緩存區大小的數據流,並將所述數據流存放到本地緩存區中;

第二觸發單元203,用於觸發解析線程從所述本地緩存區中,讀取數據進行解析;所述解析線程的數量至少為一個,所述解析線程與所述讀取線程為預先創建的獨立線程。

本申請實施例提供的數據處理設備,對於掃描到的數據文件,不採用整體下載的方式,而是按預設數據緩存區的大小,每次讀取一定的文件數據,並在讀取到文件數據的同時,並行進行數據解析過程,同時文件數據的讀取過程依然繼續,形成讀取與解析的並行操作,在很大程度上,提升了數據處理的效率。

參見圖4,示出了本申請實施例一種數據處理設備的又一詳細結構示意圖,具體還包括:

第一緩存單元204,用於緩存已完成解析的數據文件的文件名;

比較單元205,用於將再次掃描獲得的數據文件的文件名與所述緩存的文件名進行比較。

本申請實施例中,對於已經解析完成的數據文件,對該數據文件的文件名進行緩存,當再次掃描伺服器中的數據文件時,將緩存的文件名與再次掃描到的數據文件的文件名進行比較,如果文件名相同,則不再對該掃描到的文件數據進行讀取,以避免重複。如果文件名不相同,再觸發讀取線程對該掃描到的數據文件進行讀取,文件數據讀取的過程與圖1中記載的方法相同。

第二緩存單元206,用於將經過解析的文件數據緩存到內存或緩存文件中。

第三觸發單元207,用於觸發多個分發線程按預設的分發方式對緩存的文件數據進行分發。

本申請實施例中,對於已經解析完成的文件數據,將所述解析完成的文件數據緩存到內存中,當緩存到內存中的文件數據的數量到達預設量值的時候,將所述內存中的文件數據緩存到本地的緩存文件中,當本地緩存文件的緩存空間滿時,新建一個本地緩存文件。

通過多線程的方式,觸發多個分發線程從所述本地緩存文件中讀取文件數據;並按預設的分發方式進行分發。

篩選單元208,用於當同時掃描到多個數據文件時,依據各個數據文件的文件名對各個數據文件進行篩選。

對於伺服器的掃描,一次性掃描全部的數據文件,掃描到這些數據文件之後,進行篩選,對於重複的數據文件進行捨棄,然後按掃描順序,對數據文件進行排序,讀取線程,按所述順序,依次流式讀取各個數據文件。

需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。

最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本申請時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。

通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本申請可藉助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以存儲在存儲介質中,如rom/ram、磁碟、光碟等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。

以上對本申請所提供的一種數據處理方法及設備進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀