一種數據處理方法及裝置製造方法
2023-12-07 06:32:01
一種數據處理方法及裝置製造方法
【專利摘要】本發明適用於計算機【技術領域】,提供了一種數據處理方法及裝置,所述方法包括:接收數據,將所述數據發送給至少一個分類單元;獲取所述至少一個分類單元的處理結果;根據所述處理結果,確定所述接收數據的類別;其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。本發明由於靈活的利用多個分類單元的處理結果,使得在分類數據處理過程中,在類別體系及分類數據比較動態的情況下,分類過程中數據處理簡單、方便。
【專利說明】一種數據處理方法及裝置
【技術領域】
[0001]本發明屬於數據處理【技術領域】,尤其涉及一種數據處理方法及裝置。
【背景技術】
[0002]分類是指對某些對象分門別類,標識出所屬的目錄,以方便使用與存儲,例如,對信息分類,如文檔的分類,數據的查詢等,通過對信息分類能夠方便用戶的瀏覽以及進一步的數據分析。分類的目標是通過學習,進而可以自動的將數據分到已知的類別,常用的分類方法,例如:支持向量機分類算法(Support Vector Machine, SVM), K最近鄰分類算法(k-Nearest Neighbor, KNN),貝葉斯分類算法等等,這些分類方法基本上都是通過對一些已知數據的學習,形成分類模型,然後利用模型預測未知數據的類別。
[0003]現有技術,在分類實現過程中,通常通過不同的分類器對不同的對象進行分類,分類器是一種電腦程式,它的目標是在通過學習,進而實現自動將數據分到已知類別。它可以應用在搜尋引擎以及各種檢索程序中,同時也大量應於數據分析與預測領域。
[0004]現有技術的分類方法,在針對固定類別體系以及數據比較穩定的情況下,能夠獲得比較好的分類效果。但是,在類別體系及分類數據比較動態的情況下,以前的學習結果很難直接利用,需要重新標定訓練數據,並訓練新的分類模型,從而導致分類過程中數據處理複雜。
【發明內容】
[0005]本發明實施例的目的在於提供一種數據處理方法,旨在解決現有技術的分類數據處理過程中,在類別體系及分類數據比較動態的情況下,分類過程中數據處理複雜的問題。
[0006]為了實現上述目的,本發明實施例提供如下技術方案:
[0007]本發明實施例是這樣實現的,一種數據處理方法,所述方法包括:
[0008]接收數據,將所述數據發送給至少一個分類單元;
[0009]獲取所述至少一個分類單元的處理結果;
[0010]根據所述處理結果,確定所述接收數據的類別;
[0011]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0012]本發明實施例還提供了一種分類裝置,所述裝置包括:
[0013]接收單元,用於接收數據;
[0014]發送單元,用於將所述數據發送給至少一個分類單元;
[0015]獲取單元,用於獲取所述至少一個分類單元的處理結果;
[0016]確定單元,用於根據所述處理結果,確定所述接收數據的類別;
[0017]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0018]本發明實施例與現有技術相比,有益效果在於:接收數據,將所述數據發送給至少一個分類單元,獲取所述至少一個分類單元的處理結果,根據所述處理結果,確定所述接收數據的類別。由於靈活的利用多個分類單元的處理結果,使得在分類數據處理過程中,在類別體系及分類數據比較動態的情況下,分類過程中數據處理簡單、方便。
【專利附圖】
【附圖說明】
[0019]為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0020]圖1是本發明實施例一提供的數據處理方法的實現的流程圖;
[0021]圖2是本發明實施例一提供的分類單元的結構圖;
[0022]圖3是本發明實施例二提供的數據處理方法的實現的流程圖;
[0023]圖4是本發明實施例三提供的數據處理裝置的結構圖;
[0024]圖5是本發明實施例四提供的數據處理裝置的結構圖。
【具體實施方式】
[0025]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
[0026]本發明實施例提供了一種分類方法,所述方法包括:
[0027]接收數據,將所述數據發送給至少一個分類單元;
[0028]獲取所述至少一個分類單元的處理結果;
[0029]根據所述處理結果,確定所述接收數據的類別;
[0030]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0031]本發明實施例還提供了一種分類裝置,所述裝置包括:
[0032]接收單元,用於接收數據;
[0033]發送單元,用於將所述數據發送給至少一個分類單元;
[0034]獲取單元,用於獲取所述至少一個分類單元的處理結果;
[0035]確定單元,用於根據所述處理結果,確定所述接收數據的類別;
[0036]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0037]以下結合具體實施例對本發明的實現進行詳細描述:
[0038]實施例一
[0039]圖1示出了本發明實施例一提供的數據處理方法的實現的流程圖,詳述如下:
[0040]在SlOl中,接收數據,將所述數據發送給至少一個分類單元;
[0041]本實施例中,可以根據客戶的需求,將數據發送至不同的分類單元的,具體的,用戶需求由程序設置這進行預先設置,比如,可以根據用戶需要對數據的結構進行分類、也可以對數據的內容進行分類。
[0042]本實施例中,每一分類單元接收數據,並對分類數據進行分類,其中,所述每個分類單元採用不同的分類算法對接收數據進行處理。
[0043]本實施例中,可以將所述至少一個分類單元作為一個分類體,該分類體與一個分類體系相對應,以方便用戶使用,即,所述至少一個分類單元與一個分類體系對應,其中,當分類單元為多個時,多個分類單元與多種分類算法一一對應,從而,可以通過不同的算法對接收的分類數據進行分類評價。
[0044]在S102中,獲取所述至少一個分類單元的處理結果;
[0045]在S103中,根據所述處理結果,確定所述接收數據的類別;
[0046]在本實施例中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理,類單元可以是在線的分類器,圖2給出了一個分類單元的示例,也可以是離線的優質分類數據,例如,可以是已經進行分類的分類數據。
[0047]可選的,還可以根據用戶的實際需求,引入新的分類單元,從而使整個分類方法具有良好的可擴展性,例如,當分類數據發生動態變化時,可以及時增加新的分類單元以適應數據發生的變化。
[0048]本實施例中,所述處理結果為:所述至少一個分類單元對所述接收數據分類的類別及分類置信度值,此時,所述S103可以採用以下方式實現:
[0049]在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值超過預設值的分類單元分類的類別作為所述接收數據的類別;或者
[0050]在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值最高的分類單元分類的類別作為所述接收數據的類別。
[0051]其中,可以採用評分的方式表示分類單元分類的類別的分類置信度值,具體的,每一分類單元可以通過相應的算法計算給出分類數據的類別及該類別的評分值,根據該分類體系中所有分類單元給出分類數據的類別及該類別的評分值,可以採用不同的策略,確定接收數據的最終分類結果,則S103具體為:
[0052]在所述至少一個分類單元對所述接收數據分類的類別中,選擇類別的評分值超過預設值的分類單元分類的類別作為所述接收數據的類別;或者
[0053]在所述至少一個分類單元對所述接收數據分類的類別中,選擇類別的評分值最高的分類單元分類的類別作為所述接收數據的類別。
[0054]可選的,所述分類單元串行或者並行對所述接收數據進行分類,以滿足不同場景下性能的要求。當串行對接收數據進行分類時,接收到數據後,則依次發送分類數據至每一分類單元,此時,當某一分類單元計算的分類置信度值超過預設閾值,則可以不再分發數據至剩餘的分類單元,從而提高分類的效率;當並行對接收數據進行分類時,接收到數據後,同時發送分類數據至所有分類單元進行數據分類。
[0055]本實施例中,接收數據,將所述數據發送給至少一個分類單元,獲取所述至少一個分類單元的處理結果,根據所述處理結果,確定所述接收數據的類別由於靈活的利用多個分類單元的處理結果,使得在分類數據處理過程中,在類別體系及分類數據比較動態的情況下,分類過程中數據處理簡單、方便。
[0056]另外,由於多個分類單元相互獨立,因此,當某一分類模型發生變化時,無需重新訓練新的整體分類模型,而只需針對改變的類別進行訓練即可,因而可以充分的利用已有的分類數據,能夠良好的適應分類體系以及數據分布的變化,因而也就能更好的適應實際需求的變化。
[0057]並且,通過多個分類單元的分類結果對分類數據進行綜合分類,使得分類質量與效率都有所提聞,提升了用戶體驗。[0058]實施例二
[0059]圖3示出了本發明實施例二提供的數據處理方法的實現的流程圖,詳述如下:
[0060]在S301中,預先為每個分類單元配置質量因子,所述質量因子用於調整所述至少一個分類單元的處理結果;
[0061]本實施例中,可以根據實際需要設置質量因子的值,例如,可以設置質量因子為大於0,小於I的任一值。
[0062]在實際的數據處理過程中,同一分類單元可能能夠較好的識別某些類別的分類數據,但是對其他類別的分類數據的識別能力就比較弱,基於此,為每一個分類單元配置一個質量因子Q,以對分類單元給出的候選分類評分值進行調整,當質量因子Q值較大時,則分類單元給出的分類置信度值在確定所述數據對象的類別時所起作用較大,當質量因子Q值較小時,分類單元給出的分類置信度值在確定所述數據對象的類別時所起作用較小。
[0063]可選的,S301具體可以採用以下方式實現:
[0064]根據每個分類單元數據分析的召回率和/或準確率,預先為每個分類單元配置質量因子,具體為:召回率(Recall)和/或準確率(Precision)越高,則為每個分類單元配置的質量因子值越大,其中,召回率=正確分為某類的數據數/測試集中屬於該類數據總數;準確率=正確分為某類的數據數/測試集中分為該類數據總數。
[0065]在S302中,接收數據,將所述數據發送給至少一個分類單元;
[0066]在S303中,獲取所述至少一個分類單元的處理結果;
[0067]在S304中,根據調整過的處理結果,確定所述接收數據的類別;
[0068]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0069]本實施例中,根據不同的用戶需求及實際應用場景,可以對不同的分類單元設置不同的質量因子,以實現能夠靈活的調整每個分類單元在分類結果中的貢獻,從而保證了優質分類器的效果。
[0070]實施例三
[0071]圖4示出了本發明實施例三提供的數據處理裝置的結構圖,為了便於說明,僅示出了與本發明實施例相關的部分。
[0072]該數據處理裝置針對一個分類體系,完成一個分類數據在該分類體系下的分類,所述數據處理裝置包括:接收單元41、發送單元42、獲取單元43及確定單元44。
[0073]接收單元41,用於接收數據;
[0074]發送單元42,用於將所述數據發送給至少一個分類單元;
[0075]獲取單元43,用於獲取所述至少一個分類單元的處理結果;
[0076]確定單元44,用於根據所述處理結果,確定所述接收數據的類別;
[0077]其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
[0078]可選的,所述處理結果為:所述至少一個分類單元對所述接收數據分類的類別及分類置信度值,此時,所述確定單元44,具體用於在在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值超過預設值的分類單元分類的類別作為所述接收數據的類別;或者所述確定單元44,具體用於在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值最高的分類單元分類的類別作為所述接收數據的類別。
[0079]本實施例中,所述分類單元串行或者並行對所述接收數據進行分類。[0080]本發明實施例提供的數據處理裝置可以使用在前述對應的方法實施例一中,詳情參見上述實施例一的描述,在此不再贅述。
[0081]實施例四
[0082]圖5示出了本發明實施例四提供的數據處理裝置的結構圖,為了便於說明,僅示出了與本發明實施例相關的部分。
[0083]本實施例中,所述數據處理裝置包括:配置單元51,接收單元52、發送單元53、至少一個分類單元54、獲取單元55及確定單元56。
[0084]本實施例與實施例三的區別在於:
[0085]配置單元51,用於預先為每個分類單元配置質量因子,所述質量因子用於調整所述至少一個分類單元的處理結果;
[0086]可以根據實際需要設置質量因子的值,例如,可以設置質量因子為大於0,小於I的任一值。
[0087]所述確定單元56,具體用於根據調整過的處理結果,確定所述接收數據的類別。
[0088]可選的,所述確定單元56,具體用於根據每個分類單元數據分析的召回率和/或準確率,預先為每個分類單元配置質量因子,具體為:召回率和/或準確率越高,則為每個分類單元配置的質量因子值越大。
[0089]本發明實施例提供的數據處理裝置可以使用在前述對應的方法實施例二中,詳情參見上述實施例二的描述,在此不再贅述。
[0090]值得注意的是,上述裝置實施例中,所包括的各個單元只是按照功能邏輯進行劃分的,但並不局限於上述的劃分,只要能夠實現相應的功能即可;另外,各功能單元的具體名稱也只是為了便於相互區分,並不用於限制本發明的保護範圍。
[0091]另外,本領域普通技術人員可以理解實現上述各實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬體來完成,相應的程序可以存儲於一計算機可讀取存儲介質中,所述的存儲介質,如R0M/RAM、磁碟或光碟等。
[0092]以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.一種數據處理方法,其特徵在於,所述方法包括: 接收數據,將所述數據發送給至少一個分類單元; 獲取所述至少一個分類單元的處理結果; 根據所述處理結果,確定所述接收數據的類別; 其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
2.如權利要求1所述的方法,其特徵在於,所述接收數據,將所述數據發送給至少一個分類單元之前,所述方法還包括: 預先為每個分類單元配置質量因子,所述質量因子用於調整所述至少一個分類單元的處理結果; 所述根據所述處理結果確定所述接收數據的類別具體為: 根據調整過的處理結果,確定所述接收數據的類別。
3.如權利要求2所述的方法,其特徵在於,所述預先為每個分類單元配置一質量因子具體為: 根據每個分類單元數據分析的召回率和/或準確率,預先為每個分類單元配置質量因子,具體為:召回率和/或準確率越高,則為每個分類單元配置的質量因子值越大。
4.如權利要求1所述的方法,其特徵在於,所述處理結果為:所述至少一個分類單元對所述接收數據分類的類別及 分類置信度值; 所述根據所述處理結果確定所述接收數據的類別具體為: 在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值超過預設值的分類單元分類的類別作為所述接收數據的類別;或者 在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值最高的分類單元分類的類別作為所述接收數據的類別。
5.如權利要求1所述的方法,其特徵在於,所述分類單元串行或者並行對所述接收數據進行分類。
6.一種分類裝置,其特徵在於,所述裝置包括: 接收單元,用於接收數據; 發送單元,用於將所述數據發送給至少一個分類單元; 獲取單元,用於獲取所述至少一個分類單元的處理結果; 確定單元,用於根據所述處理結果,確定所述接收數據的類別; 其中,所述分類單元用於按照確定的分類方法對接收到的數據進行分類處理。
7.如權利要求6所述的裝置,其特徵在於,所述裝置還包括: 配置單元,用於預先為每個分類單元配置質量因子,所述質量因子用於調整所述至少一個分類單元的處理結果; 所述確定單元,具體用於根據調整過的處理結果,確定所述接收數據的類別。
8.如權利要求7所述的裝置,其特徵在於,所述確定單元,具體用於根據每個分類單元數據分析的召回率和/或準確率,預先為每個分類單元配置質量因子,具體為:召回率和/或準確率越高,則為每個分類單元配置的質量因子值越大。
9.如權利要求6所述的裝置,其特徵在於,所述處理結果為:所述至少一個分類單元對所述接收數據分類的類別及分類置信度值;所述確定單元,具體用於在在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值超過預設值的分類單元分類的類別作為所述接收數據的類別;或者在所述至少一個分類單元對所述接收數據分類的類別中,選擇分類置信度值最高的分類單元分類的類別作為所述接收數據的類別。
10.如權利要求6所述的裝置,其特徵在於,所述分類單元串行或者並行對所述接收數據進行分類。`
【文檔編號】G06F17/30GK103488656SQ201210196534
【公開日】2014年1月1日 申請日期:2012年6月14日 優先權日:2012年6月14日
【發明者】羅景 申請人:深圳市世紀光速信息技術有限公司