數據處理方法、個體識別方法及相關裝置與流程
2023-05-01 04:35:11 1

本發明實施例涉及數據處理領域,尤其涉及一種數據處理方法、個體識別方法及相關裝置。
背景技術:
目前,通常通過構建帳號體系對用戶進行識別。但是,在複雜的網際網路環境中,存在用戶在單個設備上註冊多個帳號、在不同業務系統中均存在多種身份(例如,在外賣業務場景中,系統內存在用戶、商戶、銷售、騎士等角色,用戶可能在不同帳戶存在不同角色)、在多個設備上分別註冊有各類帳戶等複雜情況。而基於現有的帳號體系,難以在這種複雜情況下準確地識別出多種複雜信息實際指向的個體。
以反作弊領域為例而言,通常需要對獨立的自然人進行識別。現有技術僅能在用戶登錄的情況下基於已有的帳號體系識別用戶,至於具有複雜信息的用戶是否為單個自然人,則難以進行準確識別。
技術實現要素:
本發明實施例提供一種數據處理方法、個體識別方法及相關裝置,用以解決現有技術無法準確進行個體識別的問題。
第一方面,本發明實施例中提供了一種應用於個體識別的數據處理方法,包括:
根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係;
根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖;
基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
第二方面,本發明實施例提供了一種數據存儲結構,用於存儲連通子圖(包括新建立的連通子圖或更新的連通子圖),該數據存儲結構包括:
索引模塊,用於存儲連通子圖中各個id屬性與所述連通子圖的標識的映射;
內容模塊(或者稱作數據詳情模塊),用於存儲所述連通子圖的標識與所述連通子圖的映射。
第三方面,本發明實施例提供一種個體識別方法,包括:
根據搜索項查詢連通子圖,獲取與所述搜索項關聯的連通子圖;
基於與所述搜索項關聯的連通子圖進行個體識別。
第四方面,本發明實施例提供一種應用於個體識別的數據處理裝置,包括:
關係確定模塊,用於根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係;
關聯關係圖模塊,用於根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖;
連通子圖模塊,用於基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
第五方面,本發明實施例提供一種個體識別裝置,包括:
查詢模塊,用於根據搜索項查詢連通子圖,獲取與所述搜索項關聯的連通子圖;
識別模塊,用於基於與所述搜索項關聯的連通子圖進行個體識別。
在一個可能的設計中,所述數據處理裝置/個體識別裝置的結構中包括處理器和存儲器,所述存儲器用於存儲支持述數據處理裝置/個體識別裝置執行上述第一方面/第三方面的方法的程序,所述處理器被配置為用於執行所述存儲器中存儲的程序。所述數據處理裝置/個體識別裝置還可以包括通信接口,用於數據處理裝置/個體識別裝置與其他設備或通信網絡通信。
第六方面,本發明實施例提供了一種計算機存儲介質,用於儲存前述數據處理裝置/個體識別裝置所用的計算機軟體指令,所述指令被執行以實現前述第一方面/第三方面的方法。
本發明實施例能夠實現準確的個體識別,或者為準確地實現個體識別提供數據基礎以及數據存儲結構。
本發明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1示出了根據本發明一個實施例的應用於個體識別的數據處理方法的流程示意圖;
圖2示出了根據本發明另一個實施例的應用於個體識別的數據處理方法的流程示意圖;
圖3示出了根據本發明一個實施例的數據存儲結構的示意圖;
圖4示出了根據本發明一個實施例的個體識別方法的流程示意圖;
圖5示出了與本發明一個實施例的應用於自然人識別的數據處理方法的流程示意圖;
圖6a示出了一種實現圖5所示實施例中的處理504的流程;
圖6b-圖6g示出了在一種假設情況下對應於圖5所示實施例中的相關步驟的連通子圖的示例;
圖7示出了根據本發明一個實施例的應用於個體識別的數據處理裝置的框圖;
圖8示出了根據本發明一個實施例的個體識別裝置的框圖。
具體實施方式
為了使本技術領域的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。
在本發明的說明書和權利要求書及上述附圖中的描述的一些流程中,包含了按照特定順序出現的多個操作,但是應該清楚了解,這些操作可以不按照其在本文中出現的順序來執行或並行執行,操作的序號如101、102等,僅僅是用於區分開各個不同的操作,序號本身不代表任何的執行順序。另外,這些流程可以包括更多或更少的操作,並且這些操作可以按順序執行或並行執行。需要說明的是,本文中的「第一」、「第二」等描述,是用於區分不同的消息、設備、模塊等,不代表先後順序,也不限定「第一」和「第二」是不同的類型。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
圖1是根據本發明實施例的一種應用於個體識別的數據處理方法的流程示意圖的一例。參照圖1,所述方法包括:
100:根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係。
可選地,在本實施例的一種實現方式中,表徵用戶身份的id屬性可以包括:帳號系統中的passportid(簡寫為pass)、用戶的手機號、imei設備碼、手機sim卡、銀行卡號、微信支付帳號、支付寶支付帳號等網際網路應用帳號。
102:根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖。在本實施例中,採用102建立的關聯關係圖用於反映各個用戶標識之間的關聯關係。
104:基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
可選地,在本實施例的一種實現方式中,基於連通圖理論採用連通圖算法對所述關聯關係圖進行拆分處理。
採用本實施例提供的數據處理方法,採用網圖(即所述關聯關係圖)的方式構建各個用戶標識之間的關聯關係,並通過拆分得到的連通子圖表徵個體,有利於在個體具有複雜信息(例如,多帳戶、多設備等)的情況下準確識別個體。
需要說明的是,在本發明中提及的「個體」可以理解為具有複雜信息的對象,並且這些複雜信息實際指向或標識同一個對象。例如,「自然人」可以作為「個體」的一種示例,網絡系統中與自然人類似或與自然人具有相似屬性的對象(例如,創建的虛擬人物)也可以視為一個「個體」。所述自然人是指現實中的一個獨立的人,一個自然人可能在網際網路系統中擁有多個用戶帳號。
可選地,在本實施例的一種實現方式中,具體採用以下方式實現處理100:首先,從每一組表徵用戶身份的id屬性中選取一種id屬性作為用戶標識,並將該用戶標識與當前組表徵用戶身份的id屬性關聯;然後,基於多組用戶標識以及與用戶標識關聯的id屬性,確定各個id屬性所關聯的用戶標識;其中,如果單個id屬性關聯至少兩個用戶標識,則確定該至少兩個用戶標識具有關聯關係。
其中,每一組表徵用戶身份的id屬性可以通過對多數據源的數據進行挖掘而得到。
可選地,在本實施例的一種實現方式中,在採用處理102建立的關聯關係圖中,具有關聯關係的用戶標識通過二者共同關聯的id屬性連接。在所述關聯關係圖中,不重複地配置有所有用戶標識和id屬性。
可選地,在本實施例的一種實現方式中,保存採用處理100-104建立的連通子圖,以作為識別自然人的基礎。例如,採用如下便於根據id屬性查詢連通子圖的方式存儲所述連通子圖:存儲所述連通子圖中各個id屬性與所述連通子圖的標識的映射,以便於根據id屬性查詢對應的連通子圖的標識;存儲所述連通子圖的標識與所述連通子圖的映射,以便於根據在先確定的連通子圖的標識查詢對應的連通子圖。
圖2是根據本發明實施例的一種應用於個體識別的數據處理方法的流程示意圖的另一例。在該方法中,基於採用前述處理100-104建立的連通子圖更新歷史數據,從而得到更新的連通子圖。具體而言,如圖2所示,除了包括處理100-104之外,還包括:
206:根據所述連通子圖中的id屬性查詢歷史數據獲取與所述連通子圖關聯的歷史連通子圖。其中,所述歷史數據用於反映在先確定的用戶標識之間的關聯關係。在一種具體示例中,所述歷史數據可以是在先建立的關聯關係圖或連通子圖。
208:基於所述連通子圖和所述歷史連通子圖,構建更新的連通子圖。
採用本實現方式中,能夠將當前確定的連通子圖和在先確定的連通子圖融合,實現連通子圖的更新。
可選地,在本實施例的一種實現方式中,分批次地從連通子圖中選取連通子圖從而分批次地構建更新的連通子圖,得到最終的更新結果。
具體而言,處理206可以通過以下方式實現:從所有連通子圖中分批次地取多個連通子圖;根據所述多個連通子圖所關聯的所有id屬性查詢所述歷史數據,獲取與所述所有id屬性中的各id屬性關聯的歷史連通子圖。處理208可以通過以下方式實現:基於所述多個連通子圖和所述與各id屬性關聯的歷史連通子圖,確定其中所包含的用戶標識之間的關聯關係;基於其中所包含的用戶標識之間的關聯關係,採用圖論連通圖算法計算得到更新的連通子圖。換言之,在本實施例中可以重複地採用「選取部分連通子圖→查詢→更新」的循環,得到最終的更新結果。採用這種方式有利於提高數據處理效率。
可選地,在本實施例的一種實現方式中,採用圖1所示實施例中描述的方式存儲所述更新的連通子圖。
圖3是根據本發明實施例的一種數據存儲結構的示意圖,該數據存儲結構用於存儲採用圖1或圖2所示實施例或其實現方式確定的連通子圖。如圖3所示,本實施例提供的數據存儲結構包括索引模塊30和內容(或者稱作數據詳情)模塊32。其中,索引模塊30存儲連通子圖中各個id屬性與連通子圖的標識(map_key)的映射;而內容模塊32則存儲連通子圖的標識與連通子圖(map)(即連通子圖的內容)的映射。
採用本實施例提供的數據存儲結構,在查詢連通子圖時,可以根據id屬性查詢索引模塊30得到對應的連通子圖的標識,然後根據連通子圖的標識查詢內容模塊32得到對應的連通子圖。換言之,採用本實施例提供的數據存儲結構,能夠支持利用任意id屬性查詢關聯的連通子圖。
圖4是根據本發明實施例的一種個體識別方法的流程示意圖。該方法基於圖1所示實施例提供的連通子圖或圖2所示實施例提供的更新的連通子圖進行查詢。具體而言,所述方法包括:
400:根據搜索項查詢連通子圖,獲取與所述搜索項關聯的連通子圖。其中,搜索項為id屬性或者基於所述搜索項可以確定id屬性,與搜索項關聯的連通子圖為包含所述搜索項或包含基於所述搜索項確定的id屬性。
402:基於與所述搜索項關聯的連通子圖進行個體識別。
如前所述,連通子圖用於表徵單個個體,因此,基於與所述搜索項關聯的連通子圖可以確定所表徵的個,例如,自然人。
採用本實施例提供的方法,能夠基於連通子圖識別個體,對於在網際網路中具有複雜信息(例如,多帳號、多設備等)的自然人能夠進行準確的識別。
可選地,在本實施例的一種實現方式中,採用以下方式實現處理402:根據配置信息從與所述搜索項關聯的連通子圖選取滿足所述配置信息的部分連通子圖;基於所述部分連通子圖中包含的用戶標識確定所述自然人。示例性地,在所述配置信息中可以配置黑名單、不需要關聯的id屬性等,這將在下文進行詳細說明。
圖5是根據本發明實施例的一種應用於自然人識別的數據處理方法的流程示意圖。參照圖5,所述方法包括:
500:數據獲取與預處理。數據獲取與預處理的目的是為了挖掘出表徵用戶身份的多種id屬性,並將其格式化處理,以方便後續處理。
可選地,在本實施例的一種實現方式中,採用以下方式實現處理500。
步驟a1:獲取原始數據。所述原始數據包括用戶註冊數據、用戶交易數據、用戶設備信息、用戶瀏覽日誌、業務人員註冊數據、業務人員操作日誌等。
步驟a2:對所述原始數據進行清洗以去除無效的數據。其中,無效的數據是指由於硬軟體等方面的原因產生的不準確的數據。例如,在獲取imei設備碼時,某些相同型號的山寨機會產生相同的imei,如果不清洗,會導致錯誤的關聯。
步驟a3:從清洗後的數據中挖掘表徵用戶身份的id屬性,並生成以其中一種id屬性作為標識的格式化數據,格式如下:pass(id1,id2,idi,…,idn)。
下例中的pass1、pass2和pass3是用戶帳號,被用作用戶標識,id則是與用戶帳號關聯的數據,例如手機號,設備碼,支付帳號等等。
例如,有兩個數據源a和b,二者分別提供了三個帳號的數據。其中,數據源a包括pass1(id1a),pass2(id1a),pass3(id2a),數據源b包括pass1(id1b),pass2(id2b),pass3(id2b)。通過挖掘id屬性,格式化後生成:pass1(id1a,id1b),pass2(id1a,id2b),pass3(id2a,id2b)。
502:基於500輸出的數據確定連通關係。可選地,在本實施例的一種實現方式中,採用以下步驟實現處理502。
步驟b1:將上述步驟a3生成的數據轉換為以id為標識、pass為內容的結構,通過多個pass之間共同的id發現它們之間的關聯。例如,上例中的pass1(id1a,id1b),pass2(id1a,id2b),pass3(id2a,id2b)轉換為:
id1a:pass1,pass2
id2a:pass3
id1b:pass1
id2b:pass2,pass3
步驟b2:對步驟b1的結果數據進行統計,把含有相同id的pass帳號關聯在一起,從而生成任意兩個pass之間的關聯關係。例如,根據步驟b1中的結果,生成:
pass1,pass2:id1a
pass2,pass3:id2b
其中,pass1和pass2因為id1a而產生關聯,pass2和pass3則根據id2b關聯。
步驟b3:根據步驟b2中得到的帳號之間的兩兩關聯關係,生成關係網圖,然後利用圖論連通圖算法,計算得出所有的連通子圖。繼續上面的例子,在步驟b3中,根據步驟b2得到的結果(pass1和pass2關聯、pass2和pass3關聯),得到pass1,pass2,pass3相互關聯。這裡,將pass1,pass2,pass3以及與它們關聯的id構成的連通子圖稱之為一個map。
至此,根據收集的用戶數據構建了數據(包括用戶標識和id)之間的連通關係。在本實施例的一種實現方式中,為了保證持續的更新,需要將新產生的連通關係與歷史的連通關係融合。其中,第一次構建時,通過冷啟動產生第一批歷史數據,之後持續融合更新。
504:更新連通關係。具體而言,將502中生成的所有連通子圖融合進歷史連通關係中。
可選地,在本實施例的一種實現方式中,如圖6a所示,處理504包括以下步驟:
步驟c1:構造處理緩存。為了加快處理速度,分批次地從新生成的所有連通子圖中獲取多個連通子圖(即,map)進行處理,所述處理緩存用於緩存這多個map。例如,假設當前的處理緩存中包含如圖6b所示的3個新連通子圖,其中,pass3和pass4處於同一個連通子圖中,兩者因為y、z而關聯;a-z是除pass外其他類型的id。
步驟c2:查詢是否有歷史記錄。具體而言,利用處理緩存的map中所包含的所有id從歷史關聯關係中查詢,檢查各id是否在歷史關聯關係中出現過。如果出現過,則返回對應的歷史map並執行步驟c3;如果沒有則直接寫入存儲。
為了支持利用任意id查詢關聯的map,可以採用圖3所述的數據存儲結構存儲map。具體請參見下文相關部分的說明。
舉例而言,對於步驟c1中的pass1、pass2、pass3、pass4和它們所關聯的id(a-z)執行查詢處理,發現b、c、e、x在歷史數據中關聯了如圖6c所示的兩個map。
步驟c3:數據融合處理。具體而言,融合採用步驟c2從歷史數據中查詢得到的map和當前處理緩存中的map,重新生成pass與id之間的關係,然後確定pass之間的兩兩關聯,進而根據圖論連通圖算法計算連通子圖(類似於步驟b3)。
繼續上面的例子,對步驟c1和c2中的連通子圖進行融合,生成如圖6d所示的連通子圖。
步驟c4:刪除黑名單id。例如,根據黑名單優化上述步驟c3融合後得到的連通子圖。具體而言,刪除其中的黑名單id,所述黑名單id包括不準確的id、過期的id等,可以自定義或配置。
繼續上面的例子,假設c在黑名單中,則拆除因為c而產生的關聯,如圖6e所示。
步驟c5:生成融合後的連通圖。例如,在通過步驟c4剔除黑名單id之後,重新構造pass之間的關聯關係,生成最終map。
步驟c6:數據存儲。具體而言,將508生成的最終map寫入存儲中。其中,存儲分為索引和數據詳情(內容)兩部分。為便於後續查詢方便,為每一個map生成一個唯一的標識map_key,利用map_key連接map中的每一個id和map詳情,從而滿足通過任意id查詢map的需求。
例如,以如圖6e所示的兩個map為例,假設生成的map_key分別為map_key_pass1,map_key_pass3,則
map索引:
a---→map_key_pass1;
b---→map_key_pass1;
d---→map_key_pass1;
…
pass1---→map_key_pass1;
…
x---→map_key_pass3;
y---→map_key_pass3;
…
pass6---→map_key_pass3;
map數據詳情:
map_key_pass1---→pass1,pass2,pass5,a,b,d,e,f
map_key_pass3---→pass3,pass4,pass6,x,y,z
基於上述存儲結構,在查詢時可以根據任意id從索引中查找出map_key,然後根據map_key從數據詳情中查詢出map數據。
506:識別自然人。採用前述500-504構建了數據間的所有連通子圖,提供了基礎性的數據。因此,在處理506中可以基於前述構建的連通子圖識別自然人。
在本實施例中的一種實現方式中,考慮到不同業務對於同一自然人的認定不盡相同,例如,有的業務在判斷是否享受優惠時認為手機號應該作為關聯id,而有的業務則不認為手機號應該作為關聯id,從而引入業務自定義配置來實現因業務不同而不同的識別處理。具體而言,在所述自定義配置中可以配置業務不產生關聯的id。這樣,在業務方獲取到map詳情數據後,刪除其中的在配置信息中包含的id並消除對應的關聯,從而生成符合業務要求的map數據。
舉例而言,假設查找id為a所關聯的map,得到的map信息如圖6f所示,而配置信息中將b配置為不產生關聯的id。則在處理506中,將圖6f所示的map中的b所產生的關聯刪除,如圖6g所示,其中虛線表示刪除關聯。這樣,最終返回的數據為:a、pass1(即,在所述配置信息配置的條件下,與a關聯的map包含a和pass1)。
採用處理506,可以基於自定義配置(即配置信息)滿足不同業務對於識別自然人的要求。
以上結合附圖對根據本發明的方法實施例進行了詳細說明。下面結合附圖對根據本發明實施例的裝置實施例進行說明。
圖7是根據本發明實施例的一種應用於個體識別的數據處理裝置的框圖。參照圖7,數據處理裝置包括關係確定模塊70、關聯關係圖模塊72和連通子圖模塊74,下面進行詳細說明。
在本實施例中,關係確定模塊70用於根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係。示例性地,關係確定模塊70可以包括:第一關聯子模塊,用於從每一組表徵用戶身份的id屬性中選取一種id屬性作為用戶標識,並將該用戶標識與當前組表徵用戶身份的id屬性關聯;第二關聯子模塊,用於基於多組用戶標識以及與用戶標識關聯的id屬性,確定各個id屬性所關聯的用戶標識;關係確定子模塊,用於將關聯於同一id屬性的至少兩個用戶標識確定為具有關聯關係。
在本實施例中,關聯關係圖模塊72用於根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖。在所述關聯關係圖中,具有關聯關係的用戶標識通過二者共同關聯的id屬性連接。
在本實施例中,連通子圖模塊74用於基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
採用本實施例提供的數據處理裝置,利用網圖的方式構建各個用戶標識之間的關聯關係,並通過拆分得到的連通子圖表徵個體,有利於在個體具有複雜信息(例如,多帳戶、多設備等)的情況下準確識別個體。
可選地,在本實施例的一種實現方式中,如圖7中虛線框所示,數據處理裝置還包括:查詢模塊76,用於根據所述連通子圖中的id屬性查詢歷史數據獲取與所述連通子圖關聯的歷史連通子圖;更新模塊78,用於基於所述連通子圖和所述歷史連通子圖,構建更新的連通子圖。
其中,示例性地,所述查詢模塊76包括:取出子模塊,用於從所述連通子圖中分批次地取多個連通子圖;查詢子模塊,用於根據所述多個連通子圖所關聯的所有id屬性查詢所述歷史數據,獲取與所述所有id屬性中的各id屬性關聯的歷史連通子圖。
其中,示例性地,所述更新模塊78包括:關係確定子模塊,用於基於所述多個連通子圖和所述與各id屬性關聯的歷史連通子圖,確定其中所包含的用戶標識之間的關聯關係;更新子模塊,用於基於關係確定子模塊確定的關聯關係,採用圖論連通圖算法計算得到更新的連通子圖。
可選地,在本實施例的一種實現方式中,數據處理裝置還包括存儲模塊,用於存儲連通子圖模塊74生成的連通子圖和/或更新模塊78生成的更新的連通子圖。更具體而言,所述存儲模塊包括:第一存儲模塊,用於存儲連通子圖中各個id屬性與連通子圖的標識的映射;第二存儲模塊,用於存儲連通子圖的標識與連通子圖的映射。參照圖3所示實施例,本領域技術人員應當理解,第一存儲模塊可以用作索引模塊30,第二存儲模塊可以用作內容模塊32。
圖8是根據本發明實施例的一種個體識別裝置的框圖。參照圖8,個體識別裝置包括查詢模塊80和識別模塊82。下面進行詳細說明。
在本實施例中,查詢模塊80用於根據搜索項查詢已經確定的連通子圖(例如,圖1所示實施例中生成的連通子圖或圖2所示實施例中更新的連通子圖),獲取與搜索項關聯的連通子圖。識別模塊82則用於基於與所述搜索項關聯的連通子圖進行個體識別。
可選地,在本實施例的一種實現方式中,識別模塊82包括:選取子模塊,用於根據配置信息從與所述搜索項關聯的連通子圖中選取滿足所述配置信息的部分連通子圖;識別子模塊,用於基於所述部分連通子圖中包含的用戶標識確定所述個體。
在一個可能的設計中,前文所述的數據處理裝置/個體識別裝置的結構中包括處理器和存儲器,所述存儲器用於存儲支持所述數據處理裝置/個體識別裝置執行前述對應的方法實施例或其實現方式中提及的方法的程序,所述處理器被配置為用於執行所述存儲器中存儲的程序。
所述程序包括一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行。
在所述數據處理裝置中,所述處理器用於執行所述指令以實現以下處理:
根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係;
根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖;
基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
其中,關於各個步驟以及可選步驟的詳細說明,請參照前文的相關描述,此處不再追溯。
在所述個體識別裝置中,所述處理器用於執行所述指令以實現以下處理:
根據搜索項查詢連通子圖(包括更新的連通子圖或已建立的連通子圖),獲取與所述搜索項關聯的連通子圖;
基於與所述搜索項關聯的連通子圖進行自然人識別。
其中,關於各個步驟以及可選步驟的詳細說明,請參照前文的相關描述,此處不再追溯。
本發明實施例還提供一種計算機存儲介質,用於儲存所述數據處理裝置/個體識別裝置所用的計算機軟體指令,所述計算機指令被執行時實現上述相應方法實施例或其實現方式中提及的方法。
【關於本發明的示例性應用場景】
示例性地,本發明可以用於外賣系統的用戶營銷和風控場景中。其中,以應用於用戶營銷場景為例,當多個用戶pass被判斷為屬於一個map時,將這多個用戶pass認定為同一個個體,這樣,如果其中一個pass已經享受了優惠,則其他pass不在享受優惠,從而提高了營銷資金的使用率。再以應用於風控場景為例,根據多個pass之間的關聯可以挖掘出它們的消費行為,進而判斷是否存在一個自然人使用多個pass帳號刷單套取補貼的情況。
相對於現有技術而言,本發明提供的各種實施例或其實現方式,能夠解決同設備上多帳戶註冊、用戶未登陸帳號、跨端跨設備以及多重身份等情況下難以識別個體(例如,自然人)的技術問題,能夠準確識別個體(例如,自然人)。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述裝置和模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性的勞動的情況下,即可以理解並實施。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可藉助軟體加必需的通用硬體平臺的方式來實現,當然也可以通過硬體。基於這樣的理解,上述技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以存儲在計算機可讀存儲介質中,如rom/ram、磁碟、光碟等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行各個實施例或者實施例的某些部分所述的方法。
最後應說明的是:以上實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的精神和範圍。
本發明公開a1、一種應用於個體識別的數據處理方法,包括:
根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係;
根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖;
基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
a2、如a1所述的方法中,所述根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係,包括:
從每一組表徵用戶身份的id屬性中選取一種id屬性作為用戶標識,並將該用戶標識與當前組表徵用戶身份的id屬性關聯;
基於多組用戶標識以及與用戶標識關聯的id屬性,確定各個id屬性所關聯的用戶標識;
如果單個id屬性關聯至少兩個用戶標識,則確定該至少兩個用戶標識具有關聯關係。
a3、如a1或a2所述的方法中,在所述關聯關係圖中,具有關聯關係的用戶標識通過二者共同關聯的id屬性連接。
a4、如a1所述的方法,還包括:
存儲所述連通子圖中各個id屬性與所述連通子圖的標識的映射(例如,用作索引);
存儲所述連通子圖的標識與所述連通子圖的映射(例如,用作與所述索引對應的內容/數據詳情)。
a5、如a1或a4所述的方法中,還包括:
根據所述連通子圖中的id屬性查詢歷史數據獲取與所述連通子圖關聯的歷史連通子圖;
基於所述連通子圖和所述歷史連通子圖構建更新的連通子圖。
a6、如a5所述的方法,所述根據所述連通子圖中的id屬性查詢歷史數據獲取與所述連通子圖關聯的歷史連通子圖,包括:
從所述連通子圖中分批次地取多個連通子圖;
根據所述多個連通子圖所關聯的所有id屬性查詢所述歷史數據,獲取與所述所有id屬性中的各id屬性關聯的歷史連通子圖。
a7、如a6所述的方法,所述基於所述連通子圖和所述歷史連通子圖構建更新的連通子圖,包括:
基於所述多個連通子圖和所述與各id屬性關聯的歷史連通子圖,確定其中所包含的用戶標識之間的關聯關係;
基於其中所包含的用戶標識之間的關聯關係,採用圖論連通圖算法計算得到更新的連通子圖。
本發明還公開了b8、一種數據存儲結構,該數據存儲結構用於存儲採用如a1-a4中任一項所述的方法得到的連通子圖或採用如a5-a7中任一項所述的方法得到的更新的連通子圖,包括:
索引模塊,用於存儲連通子圖中各個id屬性與所述連通子圖的標識的映射;
內容模塊,用於存儲所述連通子圖的標識與所述連通子圖的映射。
本發明還公開了c9、一種個體識別方法,包括:
根據搜索項查詢採用如a1-a4中任一項所述的方法生成的連通子圖或採用如a5-a7中任一項所述的方法生成的更新的連通子圖,獲取與所述搜索項關聯的連通子圖;
基於與所述搜索項關聯的連通子圖進行個體識別。
c10、如c9所述的方法,所述基於與所述搜索項關聯的連通子圖進行個體識別,包括:
根據配置信息從與所述搜索項關聯的連通子圖選取滿足所述配置信息的部分連通子圖;
基於所述部分連通子圖中包含的用戶標識確定所述個體。
本發明還公開了d11、一種應用於個體識別的數據處理裝置,包括:
關係確定模塊,用於根據表徵用戶身份的id屬性確定不同用戶標識之間的關聯關係;
關聯關係圖模塊,用於根據所述不同用戶標識之間的關聯關係建立以用戶標識和id屬性為節點的關聯關係圖;
連通子圖模塊,用於基於所述關聯關係圖進行拆分處理得到多個表徵單個個體的連通子圖。
d12、如d11所述的裝置,所述關係確定模塊包括:
第一關聯子模塊,用於從每一組表徵用戶身份的id屬性中選取一種id屬性作為用戶標識,並將該用戶標識與當前組表徵用戶身份的id屬性關聯;
第二關聯子模塊,用於基於多組用戶標識以及與用戶標識關聯的id屬性,確定各個id屬性所關聯的用戶標識;
關係確定子模塊,用於將關聯於同一id屬性的至少兩個用戶標識確定為具有關聯關係。
d13、如d11或d12所述的裝置,在所述關聯關係圖中,具有關聯關係的用戶標識通過二者共同關聯的id屬性連接。
d14、如d11所述的裝置,還包括:
第一存儲模塊,用於存儲連通子圖中各個id屬性與所述連通子圖的標識的映射;
第二存儲模塊,用於存儲所述連通子圖的標識與所述連通子圖的映射。
d15、如d11或d14所述的裝置,還包括:
查詢模塊,用於根據所述連通子圖中的id屬性查詢歷史數據獲取與所述連通子圖關聯的歷史連通子圖;
更新模塊,用於基於所述連通子圖和所述歷史連通子圖,構建更新的連通子圖。
d16、如d15所述的裝置,所述查詢模塊包括:
取出子模塊,用於從所述連通子圖中分批次地取多個連通子圖;
查詢子模塊,用於根據所述多個連通子圖所關聯的所有id屬性查詢所述歷史數據,獲取與所述所有id屬性中的各id屬性關聯的歷史連通子圖。
d17、如d16所述的裝置,所述更新模塊包括:
關係確定子模塊,用於基於所述多個連通子圖和所述與各id屬性關聯的歷史連通子圖,確定其中所包含的用戶標識之間的關聯關係;
更新子模塊,用於基於關係確定子模塊確定的關聯關係,採用圖論連通圖算法計算得到更新的連通子圖。
本發明還公開e18、一種個體識別裝置,包括:
查詢模塊,用於根據搜索項查詢採用如a1-a4中任一項所述的方法生成的連通子圖或採用如權利要求a5-a7中任一項所述的方法生成的更新的連通子圖,獲取與所述搜索項關聯的連通子圖;
識別模塊,用於基於與所述搜索項關聯的連通子圖進行個體識別。
e19、如e18所述的裝置,所述識別模塊包括:
選取子模塊,用於根據配置信息從與所述搜索項關聯的連通子圖中選取滿足所述配置信息的部分連通子圖;
識別子模塊,用於基於所述部分連通子圖中包含的用戶標識確定所述個體。
本發明還公開了f20、一種應用於個體識別的數據處理裝置,包括存儲器和處理器;其中,
所述存儲器用於存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行;
所述處理器用於執行所述計算機指令以實現如a1-a7中任一項所述的數據處理方法。
本發明還公開了g21、一種個體識別裝置,包括存儲器和處理器;其中,
所述存儲器用於存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調用執行;
所述處理器用於執行所述計算機指令以實現如c9或c10所述的個體識別方法。
本發明還公開了h22、一種計算機存儲介質,所述計算機存儲介質存儲有計算機指令,所述計算機指令被執行時實現如a1-a7或c9-c10中任一項所述的方法。