數據分析方法、系統及伺服器的製作方法

2023-05-17 07:42:51 3

專利名稱：數據分析方法、系統及伺服器的製作方法
技術領域：
本申請涉及通信和計算機技術領域，特別涉及一種數據分析方法、系統及伺服器。
背景技術：
隨著《吐2.0技術的發展，網際網路應用或者網際網路平臺中的業務數據，如用戶行為數據和平臺系統數據，都呈現出海量增長的趨勢。為了便於海量業務數據的處理，挖掘其內在價值，通常採用一種並行的數據處理架構來支撐海量數據的處理工作，即利用多個分布式的計算機相互協作工作，共同完成對海量數據的處理。當前，在大型的網際網路網站平臺中，應用最為廣泛的一種並行的數據處理架構為 Hadoop系統框架。在Hadoop的系統架構中包括有一個主伺服器和多個從伺服器組成的集群，主伺服器將海量數據分割成多個數據塊，再將分割後的數據塊分配給多個並行的從伺服器，由每個從伺服器處理各自的數據塊，並將處理的結果發送至主伺服器，主伺服器將處理的結果合併後輸出。此外，當前階段主伺服器輸出的合併結果又可以作為下一階段主伺服器進行數據處理的一個輸入，得到下一階段的合併結果。這種並行和串行相結合的處理方式可以使並行的數據處理系統高效地處理海量數據。目前，對於數據的分析方法主要為基於關係型資料庫的數據分析方法，然而，這種方法很難基於並行的數據處理架構對關係型資料庫的數據進行分析，特別是在需要進行歸類、報表生成等複雜的數據分析處理工作時，難以滿足實際需要。因此，基於關係型資料庫的數據分析方法並不適用於對並行的數據處理架構中的海量數據進行分析。

發明內容
為了解決上述技術問題，本申請實施例提供了一種數據分析方法、系統及伺服器，以實現對並行的數據處理架構中的海量數據進行分析。本申請實施例公開公開了如下技術方案一種數據分析方法，包括從伺服器接收主伺服器發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；從伺服器根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；從伺服器根據所述分割標識將獲取的原始數據切割成數據元素；從伺服器按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；從伺服器按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。本申請還提供另一種數據分析方法，包括多線程中子線程接收主線程發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程對待分析的原始數據進行歸類的方式，所述預置值定義了子線程對歸類後的原始數據進行分析處理的方式；子線程根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；子線程根據所述分割標識將獲取的原始數據切割成數據元素；子線程按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；子線程按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程。本申請還提供一種數據分析系統，包括一主伺服器和至少兩個從伺服器，其中，所述主伺服器，用於向從伺服器發送文件，並對接收到的分析處理結果進行合併，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；所述從伺服器，用於接收主伺服器發送的文件，根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離，根據所述分割標識將獲取的原始數據切割成數據元素，按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類，按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。本申請還提供另一數據分析系統，包括一主線程模塊和至少兩個子線程模塊，其中，所述主線程模塊，用於向子線程模塊發送文件，並對接收到的分析處理結果進行合併，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程模塊對待分析的原始數據進行歸類的方式，所述預置值定義了子線程模塊對歸類後的原始數據進行分析處理的方式；所述子線程模塊，用於接收主線程模塊發送的文件，根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離，根據所述分割標識將獲取的原始數據切割成數據元素，按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類，按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程模塊。本申請還提供一種從伺服器，包括第一文件接收模塊，用於接收主伺服器發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；第一數據獲取模塊，用於根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；第一數據切割模塊，用於根據所述分割標識將獲取的原始數據切割成數據元素；第一數據歸類模塊，用於按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；第一數據計算模塊，用於按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。本申請還提供另一種伺服器，包括第二文件接收模塊，用於接收主線程發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程對待分析的原始數據進行歸類的方式，所述預置值定義了子線程對歸類後的原始數據進行分析處理的方式；第二數據獲取模塊，用於根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；第二數據切割模塊，用於根據所述分割標識將獲取的原始數據切割成數據元素；第二數據歸類模塊，用於按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；第二數據計算模塊，用於按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程。由上述實施例可以看出，首先從數據源中獲取待分析的原始數據，然後按照分割標識將原始數據切割成數據元素，並將切割得到的數據元素作為鍵值對中的鍵，再從切割得到的數據元素中，提取出符合預置鍵值對中的鍵定義的數據元素，最後按照預置鍵值對中的值定義，對提取出的數據元素進行分析處理，並將分析處理結果反饋給主伺服器，以便主伺服器對接收到的分析處理結果進行合併。因此，為並行的數據處理架構中的海量數據進行分析提供了具體的實現方案。

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。圖1為本申請一種數據分析方法的一個實施例的流程圖；圖2為本申請一種數據分析方法的另一個實施例的流程圖；圖3為本申請一種從伺服器的一個實施例的結構圖；圖4為本申請一種從伺服器的另一個實施例的結構圖；圖5為本申請一種從伺服器的另一個實施例的結構圖；圖6為本申請一種伺服器的一個實施例的結構圖；圖7為本申請一種數據分析系統的一個實施例的結構圖；圖8為本申請一種數據分析系統的另一個實施例的結構圖。
具體實施例方式為使本申請的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖對本申請實施例進行詳細描述。本申請實施例中的數據分析方法可以對任何並行的數據處理架構中的海量數據進行分析，例如，Hadoop系統框架中的海量數據。本申請實施例對並行的數據處理架構並不進行限定。實施例一請參閱圖1，其為本申請一種數據分析方法的一個實施例的流程圖，其應用於包括一個主伺服器和多個從伺服器組成的集群系統中，該方法包括以下步驟步驟101 從伺服器接收主伺服器發送的文件，其中，所述文件中攜帶從伺服器待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；例如，在一個並行的數據處理架構中，主伺服器向各個從伺服器發送一個文件，在文件中攜帶有數據標識和預置鍵值對，其中的預置鍵值對可以有多個。其中，所述數據標識指示了對應的從伺服器需要獲取的待分析的原始數據，例如，數據的地址信息等可以作為數據標識，指示對應的從伺服器待分析的原始數據。所述預置鍵值對包括預置鍵和預置值，預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式；預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式。例如，假設一預置鍵值對中，預置鍵為key=「l，2，
73」，預置值為=Value = max($a$+$b$+$c$)。則該預置鍵值對具體定義了從伺服器需要對待分析的原始數據按照第1至3列數據元素進行歸類，並按照預置值的定義，對歸類後的原始數據中第a列、第b列和第c列的數據元素的分析處理方法為求和後再取最大值。需要說明的是，預置值定義的分析處理方法可以包括但不限於統計最小值 (min)、統計最大值(max)、計算平均值(average)、計數(count)、求和(sum)及直接顯示 (plain)等，直接顯示(plain) —般用於主鍵列的顯示。當然，分析處理過程也可以包括其他的計算方法，本申請實施例對分析處理的方式並不進行限定。步驟102 從伺服器根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；例如，各個從伺服器根據自身接收的數據標識，從數據源處獲取數據標識所指示的待分析的原始數據，如，數據源可以是FTP伺服器、資料庫(DB)或文件系統，具體數據的格式可以是數據表、記錄、日誌等。並且，在本申請的原始數據中，各個數據元素之間以分割標識進行隔離。該分割標識可以是逗號、分號、空格、冒號等。本申請實施例中以逗號作為數據元素之間的分割標識進行舉例說明。例如，以下為一段從數據源處獲取原始數據，該原始數據為日誌片段。在這個日誌片段中，每個數據元素之間以逗號隔離。並且，在這個日誌片段中，共有兩段記錄，每個記錄以回車換行符作為記錄的結束。0, 203. 171. 227. 1 17，null, xml, 12005554，taobao. user, get, 0, 0, 0, 172. 24. 14. 65，小郭 cc, 1. 0，null，3，null，0，1274803197776，0，0，0，1，0，0，0，0，8，0,0，0，90,97. 74. 215. Ill, null, xml, 12028711, taobao. taobaoke. items, detail. get,0, 0，null, 172. 24. 14. 65，null, 2. 0，md5，4，null, 221000,1274803197765，0，2，-1，1,0,0,0, 0,23,0,0,0,26步驟103 :從伺服器根據所述分割標識將獲取的原始數據切割成數據元素；例如，如果各個數據元素之間以逗號隔離，則可以按照逗號將第一條記錄切割成以下共30個數據元素第一個數據元素為0，第二數據元素為203. 171. 227. 117，第三個數據元素為皿11，第四個數據元素為xml，第五個數據元素為12005554，第六個數據元素為 taobao. user, get,......,第 30 個數據元素為 9。同樣，可以按照上述方式將第二條記錄切割成30個數據元素。步驟104 從伺服器按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；仍以上述第一條記錄為例，如果在預置鍵值對中定義的預置鍵為key =「1，2， 3」，則從切割得到的數據元素中提取出的符合預置鍵值對中預置對應的數據元素，即原始數據中的第1至3列數據元素0,203. 171. 227. 117和null。例如，仍舊以預置鍵為:key=「 1，2，3」，預置值為:value = max ($a$+$b$+$c$)例來說明上述預置鍵值對的作用。如，對於一個從伺服器上的10個待分析的原始數據而言，當通過預置鍵的歸類後，發現在10個待分析的原始數據中，有7個原始數據中的第1至3 列數據元素相同，另外3個原始數據中的第1至3列的數據元素相同，則分別對7個原始數據中第a列、第b列和第c列的數據元素求和，再取最大值，並且分別對另外3個原始數據中第a列、第b列和第c列的數據元素求和，再取最大值。
但是，當記錄中的數據元素較多時，或者數據元素在原始數據中的順序發生變化時，容易發生數據元素操作錯誤的現象。例如，當數據元素在原始數據中的順序發生變化，相應地，該數據元素對應的預置鍵的定義也會發生變化。如，假設數據元素0對應的預置鍵的定義為key =「1」，當其在原始數據中的順序向右移動一位後，其對應的預置鍵的定義變為key =「2」。此時，如果要提取數據元素0，必須修改其在預置鍵值對中的預置鍵的定義，即由key = 1修改為key = 2，否則就會提取錯誤的數據元素。為了保證當數據元素移位時，不必重新修改其在預置鍵值對中的預置鍵的定義，優選地，為每個數據元素設定-別名，如下所示，每個數據元素都對應一個別名。〈aliases〉
<alias name =』 appStatus/rkey =「1〃 /
<alias name =』 remotelp"key =「2〃 1、
<alias name =『partnerld〃key =「3" /

<alias name =』 readBytes"key =「7〃 /
<alias name =『errorCode〃key =「8〃 /
<alias name =』 subErrorCode!f key =="9
<alias name ='localIp" /)

<alias name =』 version" /)
<aliasname = 〃signMethod"key =「13"

<aliasname = 〃responseMappingTime『『key
<aliasname = 〃timestamp0〃key = 〃17"
<aliasname = 〃timestampl〃key = 〃18"
<aliasname = 〃timestamp2〃key = 〃19"
<aliasname = 〃timestamp3〃key = 〃20"
<aliasname = 〃timestamp4〃key =「21"
<aliasname = 〃timestamp5〃key =「22"
<aliasname = 〃timestamp6〃key =「23"
<aliasname = 〃timestamp7〃key =「24"
<aliasname = 〃timestamp8"key = 〃25"
<aliasname = 〃timestamp9"key =「26"
<aliasname = 〃timestamplO「key='27"
<aliasname = 〃timestampl1「key='28"
<aliasname = 〃timestampl2「key='29"
<aliasname = 〃timestampl3'key='30"
〈/aliases〉由上述內容可知，在一個記錄中，第一個數據元素的別名為"appStatus"，第二
個數據元素的別名為〃 remotelp"，......，依此類推。此時，上述預置鍵值對中定義的
預置鍵相應地被別名替換為:key = "appStatus, remotelp, partnerld」。可見，即使第一個數據元素0在記錄中向右移動一位後，其在記錄中的順序發生變化，但是其別名仍為「appStatus」，因此，不必修改預置鍵值對中的預置鍵的定義。步驟105 從伺服器按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器，主伺服器對接收到的分析處理結果進行匯總。並且還可以進一步執行對應的分析處理工作，例如採用與從伺服器相同的處理方式，對收到的分析結果進行分析、合併等工作。例如，如果在預置鍵值對中定義的預置鍵為key = 〃 version，apiName， format"，定義的預置值為value = 〃 average ($responseMappingTime$) 〃，當從伺服器按照預置鍵的定義從獲取的原始數據中提取出數據元素version、apiName和format相同的原始數據(記錄)後，即，對原始數據進行歸類後，按照預置值的定義，從伺服器對提取出的原始數據中的數據元素responseMappingTime進行求平均計算。以下為一個文件中的預置鍵值對中對預置鍵和預置值的定義。〈entry name = 〃月艮務名稱「key = 「 version, apiName, format 「 value
=「plain($apiName$) <entry name =「片反本號〃 key = " version, apiName, format " value
="plain ($version$)〈entry name =" Mapping 時間〃 value ="average ($responseMappingTime$)" />〈entry name = " Mapping 時間最大"key = " version, apiName, format" value =" max($responseMappingTime$)" />〈entry name =「業務平均消耗時間(ms) 『『 key = 『『 version, apiName, format" value = " average($timestamp9$)" />其中，在第一條預置鍵值對中，預置鍵定義了從伺服器對數據元素version、 apiName和format相同的原始數據進行歸類，預置值定義了從伺服器對歸類後的原始數據中的數據元素apiName進行顯示；在第二條預置鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了從伺服器對歸類後的原始數據中的數據元素version進行顯示；
在第三條鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了從伺服器對歸類後的原始數據中的數據元素format進行顯示；在第四條鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了從伺服器對歸類後的原始數據中的數據元素responseMappingTime進行求平均計算；在第五條鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了對歸類後的原始數據中的數據元素 responseMappingTime 求最大值；在第六條鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了從伺服器對歸類後的原始數據中的數據元素timestamp9進行求平均計算；在第七條鍵值對中，預置鍵定義了從伺服器對數據元素version、apiName和 format相同的原始數據進行歸類，預置值定義了從伺服器統計(count)歸類後預置鍵相同的的原始數據(記錄)的數量。另外，上述七條鍵值對中還指定了預置值結果的顯示名稱，如，「服務名稱」、「版本號」、「返回格式」、「Mapping時間」、「Mapping時間最大」、「業務平均消耗時間(ms) 」和「處
理總數」等。經過上述數據分析處理後，下面為數據分析處理結果的一個數據片段。
1權利要求
1.一種數據分析方法，其特徵在於，包括從伺服器接收主伺服器發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；從伺服器根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；從伺服器根據所述分割標識將獲取的原始數據切割成數據元素；從伺服器按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；從伺服器按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。
2.根據權利要求1所述的數據分析方法，其特徵在於，所述從伺服器按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類之後，還包括從伺服器從歸類後的原始數據中篩選出符合第一預置過濾條件的原始數據；則按照預置值的定義，對歸類後的原始數據鍵進行分析處理為按照預置值的定義，對篩選出的原始數據進行分析處理。
3.根據權利要求1所述的數據分析方法，其特徵在於，所述從伺服器按照預置值的定義，對歸類後的原始數據進行分析處理之後，還包括從伺服器從分析處理得到的分析處理結果中篩選出符合第二預置過濾條件的分析處理結果；則所述將分析處理結果反饋給主伺服器為將篩選出的分析處理結果反饋給主服務ο
4.根據權利要求1-3中任意一項所述的數據分析方法，其特徵在於，所述方法還包括當主伺服器對接收到的分析處理結果進行合併處理後，將得到的合併處理結果與同一時間下的歷史合併結果進行對比分析，根據對比分析的結果產生預警信號。
5.一種數據分析方法，其特徵在於，包括多線程中子線程接收主線程發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程對待分析的原始數據進行歸類的方式，所述預置值定義了子線程對歸類後的原始數據進行分析處理的方式；子線程根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；子線程根據所述分割標識將獲取的原始數據切割成數據元素；子線程按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；子線程按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程。
6.一種數據分析系統，其特徵在於，包括一主伺服器和至少兩個從伺服器，其中，所述主伺服器，用於向從伺服器發送文件，並對接收到的分析處理結果進行合併，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；所述從伺服器，用於接收主伺服器發送的文件，根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離，根據所述分割標識將獲取的原始數據切割成數據元素，按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類，按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。
7.根據權利要求6所述的數據分析系統，其特徵在於，當所述主伺服器對接收到的分析處理結果進行合併後，所述主伺服器還用於將得到的分析處理結果與同一時間下的歷史合併結果進行對比分析，根據對比分析的結果產生預警信號。
8.一種數據分析系統，其特徵在於，包括一主線程模塊和至少兩個子線程模塊，其中，所述主線程模塊，用於向子線程模塊發送文件，並對接收到的分析處理結果進行合併，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程模塊對待分析的原始數據進行歸類的方式，所述預置值定義了子線程模塊對歸類後的原始數據進行分析處理的方式；所述子線程模塊，用於接收主線程模塊發送的文件，根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離，根據所述分割標識將獲取的原始數據切割成數據元素，按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類，按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程模塊。
9.一種從伺服器，其特徵在於，包括第一文件接收模塊，用於接收主伺服器發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式，所述預置值定義了從伺服器對歸類後的原始數據進行分析處理的方式；第一數據獲取模塊，用於根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；第一數據切割模塊，用於根據所述分割標識將獲取的原始數據切割成數據元素；第一數據歸類模塊，用於按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；第一數據計算模塊，用於按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。
10.根據權利要求9所述的從伺服器，其特徵在於，還包括第一過濾模塊，用於從歸類後的原始數據中篩選出符合第一預置過濾條件的原始數據；則所述第一數據計算模塊按照預置值的定義，對篩選出的原始數據進行分析處理。
11.根據權利要求9所述的從伺服器，其特徵在於，還包括第二過濾模塊，用於從分析處理得到的分析處理結果中篩選出符合第二預置過濾條件的分析處理結果；則所述第一數據計算模塊將篩選出的分析處理結果反饋給主伺服器。
12.一種伺服器，其特徵在於，包括第二文件接收模塊，用於接收主線程發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了子線程對待分析的原始數據進行歸類的方式，所述預置值定義了子線程對歸類後的原始數據進行分析處理的方式；第二數據獲取模塊，用於根據所述數據標識，從數據源中獲取待分析的原始數據，其中，所述原始數據中數據元素之間以分割標識進行隔離；第二數據切割模塊，用於根據所述分割標識將獲取的原始數據切割成數據元素；第二數據歸類模塊，用於按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；第二數據計算模塊，用於按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主線程。
全文摘要
本申請實施例公開了一種數據分析方法、系統及伺服器。其中，所述方法包括從伺服器接收主伺服器發送的文件，其中，所述文件攜帶待分析的原始數據的數據標識和預置鍵值對，所述預置鍵定義了從伺服器對待分析的原始數據進行歸類的方式；從伺服器根據所述數據標識，從數據源中獲取待分析的原始數據；從伺服器根據所述分割標識將獲取的原始數據切割成數據元素；從伺服器按照預置鍵中對數據元素的定義方式，對獲取的原始數據進行歸類；從伺服器按照預置值的定義，對歸類後的原始數據進行分析處理，並將分析處理結果反饋給主伺服器。根據本申請實施例，可以實現對並行的數據處理架構中的海量數據進行分析。
文檔編號G06F17/30GK102314460SQ20101022260
公開日2012年1月11日申請日期2010年7月7日優先權日2010年7月7日
發明者岑文初申請人:阿里巴巴集團控股有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

數據分析方法、系統及伺服器的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法