智能sku匹配方法
2023-05-05 00:45:41 2
智能sku匹配方法
【專利摘要】本發明公開了一種智能SKU匹配方法,包括步驟:輸入客戶SKU數據並存儲於一資料庫單元,客戶SKU數據包括一或複數個客戶商品名稱數據;輸入電商SKU數據並存儲於資料庫單元,電商SKU數據包括複數個電商商品名稱數據以及和電商商品相關數據;提取每一客戶商品名稱數據的關鍵詞序列並根據關鍵詞序列生成所述客戶SKU數據的評分索引;去除每一電商商品名稱數據的幹擾數據並形成商品索引;將每一客戶商品名稱數據與所述商品索引進行匹配,並利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。由於採用了本發明的一種智能SKU匹配方法,具有智能型強、匹配精確度高的優點。
【專利說明】智能SKU匹配方法
【技術領域】
[0001]本發明涉及一種數據匹配方法,尤其涉及一種智能SKU匹配方法。
【背景技術】
[0002]現有的SKU匹配方法普遍存在匹配精確度低、定位準確度差的問題。
【發明內容】
[0003]本發明的目的在於克服現有技術的缺陷,而提供一種智能SKU匹配方法,具有智能型強、匹配精確度高的優點。
[0004]實現上述目的的技術方案是:
[0005]本發明的一種智能SKU匹配方法,包括步驟:
[0006]輸入客戶SKU數據並存儲於一資料庫單元,所述客戶SKU數據包括一或複數個客戶商品名稱數據以及和每一所述客戶商品名稱數據關聯的客戶商品相關數據;
[0007]輸入電商SKU數據並存儲於所述資料庫單元,所述電商SKU數據包括複數個電商商品名稱數據以及和每一電商商品名稱關聯的電商商品相關數據;
[0008]提取每一所述客戶商品名稱數據的關鍵詞序列並根據所述關鍵詞序列生成所述客戶SKU數據的評分索引;
[0009]去除每一所述電商商品名稱數據的幹擾數據並形成商品索引;
[0010]將每一所述客戶商品名稱數據與所述商品索引進行匹配,並利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。
[0011]本發明的進一步改進在於,所述提取每一所述客戶商品名稱數據的關鍵詞序列步驟進一步包括步驟:
[0012]a、去除當前所述客戶商品名稱數據中特殊符號兩側的空格符號,獲得一第一字符串;
[0013]b、對所述第一字符串進行最大詞長切分,並提取形成一第一詞彙數組;
[0014]C、過濾所述詞彙數組中的重複詞,獲得一第二詞彙數組;
[0015]d、對所述第二詞彙數組進行分詞,獲得一第三詞彙數組;
[0016]e、通過預先設置的一過濾模板對所述第三詞彙數組進行過濾,獲得當前所述客戶商品名稱數據的關鍵詞以及由所述關鍵詞組成的關鍵詞數組;
[0017]f、根據所述關鍵詞數組生成所述關鍵詞序列。
[0018]本發明的進一步改進在於,所述根據所述關鍵詞數組生成所述關鍵詞序列步驟進一步包括步驟:
[0019]當所述客戶商品名稱數據個數為一個時,根據當前獲得的所述關鍵詞數組生成所述關鍵詞序列;
[0020]否則重複步驟a_e,獲取所有所述客戶商品名稱數據的關鍵詞數組,並根據所述關鍵詞數組生成所述關鍵詞序列。
[0021]本發明的進一步改進在於,所述生成所述客戶SKU數據的評分索引步驟進一步包括步驟:
[0022]篩選出所述關鍵詞序列中的公用詞,形成公用詞列表;
[0023]通過一算法和所述公用詞列表,計算所述關鍵詞序列中的每一關鍵詞的公用詞評分和個性詞評分,並將所述公用詞評分和個性詞評分的評分數據存入所述客戶SKU數據中,形成所述評分索引。
[0024]本發明的進一步改進在於,所述篩選出所述關鍵詞序列中的公用詞,形成公用詞列表步驟進一步包括步驟:
[0025]將所述關鍵詞序列中的關鍵詞加入一初始序列,
[0026]累計每一所述關鍵詞在所述關鍵詞序列中的出現次數;
[0027]若所述關鍵詞在所述關鍵詞序列中的出現次數小於所述關鍵詞序列中關鍵詞總數的一固定百分比,則將當前所述關鍵詞自所述初始序列中移除,形成所述公用詞列表。
[0028]本發明的進一步改進在於,所述固定百分比為25%。
[0029]本發明的進一步改進在於,所述通過一算法和所述公用詞列表,計算所述關鍵詞序列中的每一關鍵詞的公用詞評分和個性詞評分步驟進一步包括步驟:
[0030]設定一公用詞分值和一個性詞分值,並分別對所述公用詞分值和所述個性詞分值附初值,且所述公用詞分值和所述個性詞分值的和為一定值;
[0031]將所述公用詞與所述關鍵詞列表中的關鍵詞取交集,並獲取所述交集的交集長度值;
[0032]如所述交集長度值為0,則將所述個性詞分值設為100 ;
[0033]如所述交集長度值等於所述關鍵詞長度值,將所述公用詞分值設為100 ;
[0034]公用詞評分=公用詞分值/交集長度值;
[0035]個性詞評分=個性詞分值/ (關鍵詞長度值-交集長度值)。
[0036]本發明的進一步改進在於,所述去除每一所述電商商品名稱數據的幹擾數據並形成商品索引步驟包括:
[0037]預設一量詞模板;
[0038]通過所述量詞模板對所述每一所述電商商品名稱數據進行量詞過濾,獲得第二字符串;
[0039]對所述第二字符串進行分詞並過濾重複詞,獲得第三字符串;
[0040]通過所述第三字符串形成所述商品索引。
[0041]本發明的進一步改進在於,所述利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據步驟進一步包括步驟:
[0042]將所述商品索引中匹配到的第三字符串加入一結果列表中;
[0043]根據所述評分索引計算每一所述第三字符串中包含的公用詞評分總和;
[0044]根據所述公用詞評分總和數值大小進行排序;
[0045]將所述結果列表中所述公用詞評分總和數值最大的第三字符串對應的電商商品名稱數據和電商商品相關數據作為與當前所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。
[0046]本發明的進一步改進在於,所述客戶商品相關數據包括:客戶商品編號數據和客戶商品描述數據;
[0047]所述電商商品相關數據包括:電商商品編號數據、電商商品描述數據和商品標籤數據。
[0048]本發明由於採用了以上技術方案,使其具有以下有益效果是:
[0049]去除每一所述電商商品名稱數據的幹擾數據,從而降低了後續匹配過程的複雜、增強了後續匹配的精確性和效率;通過將每一所述客戶商品名稱數據與所述商品索引進行匹配,並利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據的步驟實現了客戶商品名稱數據與電商商品名稱數據和電商商品相關數據的聞精度的匹配。
【專利附圖】
【附圖說明】
[0050]圖1為本發明智能SKU匹配方法的流程圖。
【具體實施方式】
[0051]下面結合具體實施例對本發明作進一步說明。
[0052]請參閱圖1,本發明的一種智能SKU匹配方法,包括步驟:
[0053]首先,輸入客戶SKU數據並存儲於一資料庫單元,客戶SKU數據包括一或複數個客戶商品名稱數據以及和每一客戶商品名稱數據關聯的客戶商品相關數據,其中,客戶商品相關數據包括:客戶商品編號數據和客戶商品描述數據;
[0054]然後,輸入電商SKU數據並存儲於資料庫單元,電商SKU數據包括複數個電商商品名稱數據以及和每一電商商品名稱關聯的電商商品相關數據,其中電商商品相關數據包括:電商商品編號數據、電商商品描述數據和商品標籤數據;
[0055]接著,提取每一客戶商品名稱數據的關鍵詞序列並根據關鍵詞序列生成客戶SKU數據的評分索引;
[0056]其中提取每一客戶商品名稱數據的關鍵詞序列步驟進一步包括步驟:
[0057]a、去除當前客戶商品名稱數據中特殊符號兩側的空格符號,獲得一第一字符串;
[0058]b、對第一字符串進行最大詞長切分,並提取形成一第一詞彙數組;
[0059]C、過濾詞彙數組中的重複詞,獲得一第二詞彙數組;
[0060]d、對第二詞彙數組進行分詞,獲得一第三詞彙數組;
[0061]e、通過預先設置的一過濾模板對第三詞彙數組進行過濾,獲得當前客戶商品名稱數據的關鍵詞以及由關鍵詞組成的關鍵詞數組;
[0062]f、根據關鍵詞數組生成關鍵詞序列。
[0063]當客戶商品名稱數據個數為一個時,根據當前獲得的關鍵詞數組生成關鍵詞序列;
[0064]否則重複步驟a_e,獲取所有客戶商品名稱數據的關鍵詞數組,並根據關鍵詞數組生成關鍵詞序列。
[0065]例如:客戶商品名稱數據為「HS SHM200ml HAIR&SCALP CARE MOIST海飛絲絲源復活組合TM頭皮保溼洗髮露200毫升」;
[0066]首先,通過el表達式去除當前客戶商品名稱數據中特殊符號兩側的空格符號,獲
得一第一字符串為:
[0067]「HS SHM200ml HAIR&SCALP CARE MOIST海飛絲絲源復活組合TM頭皮保溼洗髮露200暈升」;
[0068]然後,利用Iucene技術對第一字符串進行最大詞長切分,並提取形成一第一詞彙數組,此時第一詞彙數組為:
[0069][hs, shm, 200ml, hair&scalp, care, moist,海飛絲,絲,源,復活,組合,tm,頭
皮,保溼,溼洗,洗髮露,200,毫升];
[0070]接著,過濾詞彙數組中的重複詞,獲得一第二詞彙數組,此時第二詞彙數組為:
[0071][hs, shm, 200ml, hair&scalp, care, moist,海飛絲,源,復活,組合,tm,頭皮,
保溼,洗髮露,200,暈升];
[0072]然後,對第二詞彙數組進行分詞,獲得一第三詞彙數組:
[0073][hs, shm, 200, ml, hair&scalp, care, moist,海飛絲,源,復活,組合,tm,頭皮,
保溼,洗髮露,200,毫升],在該步驟中可對第二詞彙數組中的提取的詞彙進行判斷是否是中文的操作,如是中文可將當前詞彙放入一列表,方便後續操作;也可利用正則表達式根據需要對第二詞彙數組中的詞彙作需要的過濾替換;
[0074]接著,通過預先設置的一過濾模板對第三詞彙數組進行過濾,去除不需要的詞,例如 片〃,〃包〃,〃量多〃,〃ml〃,〃+〃,〃-〃,〃\\〃等詞。此時,獲得當前客戶商品名稱數據的關鍵詞以及由關鍵詞組成的關鍵詞數組和關鍵詞序列:
[0075][hs, shm, 200, hair&scalp, care, moist,海飛絲,源,復活,組合,tm,頭皮,保
溼,洗髮露,200,暈升]。
[0076]其中,生成客戶SKU數據的評分索引步驟進一步包括步驟:
[0077]a、篩選出關鍵詞序列中的公用詞,形成公用詞列表,進一步包括步驟:
[0078]將關鍵詞序列中的關鍵詞加入一初始序列,
[0079]累計每一關鍵詞在關鍵詞序列中的出現次數;
[0080]b、若關鍵詞在關鍵詞序列中的出現次數小於關鍵詞序列中關鍵詞總數的一固定百分比,則將當前關鍵詞自初始序列中移除,形成公用詞列表。本實施例中固定百分比為25%。
[0081]然後,通過一算法和公用詞列表,計算關鍵詞序列中的每一關鍵詞的公用詞評分和個性詞評分,並將公用詞評分和個性詞評分的評分數據存入客戶SKU數據中,形成評分索引,具體包括步驟:
[0082]設定一公用詞分值和一個性詞分值,並分別對公用詞分值和個性詞分值附初值,且公用詞分值和個性詞分值的和為一定值,本實施例中,設定公用詞分值初值為30.0 ;設定個性詞分值初值為70.0 ;
[0083]將公用詞與關鍵詞列表中的關鍵詞取交集,並獲取交集的交集長度值;
[0084]如交集長度值為0,則將個性詞分值設為100 ;
[0085]如交集長度值等於關鍵詞長度值,將公用詞分值設為100 ;
[0086]公用詞評分=公用詞分值/交集長度值;[0087]個性詞評分=個性詞分值/ (關鍵詞長度值-交集長度值)。
[0088]之後,去除每一電商商品名稱數據的幹擾數據並形成商品索引,具體包括步驟:
[0089]預設一量詞模板;
[0090]通過量詞模板對每一電商商品名稱數據進行量詞過濾,獲得第二字符串;
[0091]對第二字符串進行分詞並過濾重複詞,獲得第三字符串。
[0092]通過第三字符串形成商品索引。
[0093]例如:一電商商品名稱數據為「玉蘭油多效修護防曬霜買一送三豪華禮盒裝」;
[0094]通過量詞模板對每一電商商品名稱數據進行量詞過濾,獲得第二字符串:「玉蘭油多效修護防曬霜買一」;
[0095]對第二字符串進行分詞並過濾重複詞,獲得第三字符串:[玉蘭油,多效,修護,防曬霜,買一]。
[0096]最後,將每一客戶商品名稱數據與商品索引進行匹配,並利用評分索引尋找到與每一客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據,具體包括步驟:
[0097]將商品索引中匹配到的第三字符串加入一結果列表中;
[0098]根據評分索引計算每第三字符串中包含的公用詞評分總和;
[0099]根據公用詞評分總和數值大小進行排序;
[0100]將結果列表中公用詞評分總和數值最大的第三字符串對應的電商商品名稱數據和電商商品相關數據作為與當前客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。
[0101]本發明通過對客戶的商品信息的分析提供大量的索引,然後使用索引進行匹配分析出電商平臺的商品信息,採用智能積累詞庫,優化索引,積累商品數據與Sku分配映射關係,提煉出未匹配數據原因,未正確匹配數據原因,優化模型,讓匹配能達到評分更高的數據。通過本發明可解決客戶的商品編號以及名稱和各大電商網站上的sku的匹配,(例如像天貓、京東、亞馬遜等電商平臺上可見的客戶的商品編號以及名稱),解決客戶不能更直觀的看到自己商品在對應電商平臺上的銷售效果以及評論信息的問題。
[0102]以上結合附圖實施例對本發明進行了詳細說明,本領域中普通技術人員可根據上述說明對本發明做出種種變化例。因而,實施例中的某些細節不應構成對本發明的限定,本發明將以所附權利要求書界定的範圍作為本發明的保護範圍。
【權利要求】
1.一種智能SKU匹配方法,其特徵在於,包括步驟: 輸入客戶SKU數據並存儲於一資料庫單元,所述客戶SKU數據包括一或複數個客戶商品名稱數據以及和每一所述客戶商品名稱數據關聯的客戶商品相關數據; 輸入電商SKU數據並存儲於所述資料庫單元,所述電商SKU數據包括複數個電商商品名稱數據以及和每一電商商品名稱關聯的電商商品相關數據; 提取每一所述客戶商品名稱數據的關鍵詞序列並根據所述關鍵詞序列生成所述客戶SKU數據的評分索引; 去除每一所述電商商品名稱數據的幹擾數據並形成商品索引; 將每一所述客戶商品名稱數據與所述商品索引進行匹配,並利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。
2.根據權利要求1所述的智能SKU匹配方法,其特徵在於:所述提取每一所述客戶商品名稱數據的關鍵詞序列步驟進一步包括步驟: a、去除當前所述客戶商品名稱數據中特殊符號兩側的空格符號,獲得一第一字符串; b、對所述第一字符串進行最大詞長切分,並提取形成一第一詞彙數組; C、過濾所述詞彙數組中的重複詞,獲得一第二詞彙數組; d、對所述第二詞彙數組進行分詞,獲得一第三詞彙數組; e、通過預先設置的一過濾模板對所述第三詞彙數組進行過濾,獲得當前所述客戶商品名稱數據的關鍵詞以及由所述關鍵詞組成的關鍵詞數組; f、根據所述關鍵詞數組生成所述關鍵詞序列。
3.根據權利要求2所述的智能SKU匹配方法,其特徵在於:所述根據所述關鍵詞數組生成所述關鍵詞序列步驟進一步包括步驟: 當所述客戶商品名稱數據個數為一個時,根據當前獲得的所述關鍵詞數組生成所述關鍵詞序列; 否則重複步驟a-e,獲取所有所述客戶商品名稱數據的關鍵詞數組,並根據所述關鍵詞數組生成所述關鍵詞序列。
4.根據權利要求3所述的智能SKU匹配方法,其特徵在於:所述生成所述客戶SKU數據的評分索引步驟進一步包括步驟: 篩選出所述關鍵詞序列中的公用詞,形成公用詞列表; 通過一算法和所述公用詞列表,計算所述關鍵詞序列中的每一關鍵詞的公用詞評分和個性詞評分,並將所述公用詞評分和個性詞評分的評分數據存入所述客戶SKU數據中,形成所述評分索引。
5.根據權利要求4所述的智能SKU匹配方法,其特徵在於:所述篩選出所述關鍵詞序列中的公用詞,形成公用詞列表步驟進一步包括步驟: 將所述關鍵詞序列中的關鍵詞加入一初始序列, 累計每一所述關鍵詞在所述關鍵詞序列中的出現次數; 若所述關鍵詞在所述關鍵詞序列中的出現次數小於所述關鍵詞序列中關鍵詞總數的一固定百分比,則將當前所述關鍵詞自所述初始序列中移除,形成所述公用詞列表。
6.根據權利要求4所述的智能SKU匹配方法,其特徵在於:所述固定百分比為25%。
7.根據權利要求5所述的智能SKU匹配方法,其特徵在於:所述通過一算法和所述公用詞列表,計算所述關鍵詞序列中的每一關鍵詞的公用詞評分和個性詞評分步驟進一步包括步驟: 設定一公用詞分值和一個性詞分值,並分別對所述公用詞分值和所述個性詞分值附初值,且所述公用詞分值和所述個性詞分值的和為一定值; 將所述公用詞與所述關鍵詞列表中的關鍵詞取交集,並獲取所述交集的交集長度值; 如所述交集長度值為O,則將所述個性詞分值設為100 ; 如所述交集長度值等於所述關鍵詞長度值,將所述公用詞分值設為100 ; 公用詞評分=公用詞分值/交集長度值; 個性詞評分=個性詞分值/ (關鍵詞長度值-交集長度值)。
8.根據權利要求7所述的智能SKU匹配方法,其特徵在於:所述去除每一所述電商商品名稱數據的幹擾數據並形成商品索引步驟包括: 預設一量詞模板; 通過所述量詞模板對所述每一所述電商商品名稱數據進行量詞過濾,獲得第二字符串; 對所述第二字符串進行分詞並過濾重複詞,獲得第三字符串; 通過所述第三字符串形成所述商品索引。
9.根據權利要求8所述的智能SKU匹配方法,其特徵在於:所述利用所述評分索引尋找到與每一所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據步驟進一步包括步驟: 將所述商品索引中匹配到的第三字符串加入一結果列表中; 根據所述評分索引計算每一所述第三字符串中包含的公用詞評分總和; 根據所述公用詞評分總和數值大小進行排序; 將所述結果列表中所述公用詞評分總和數值最大的第三字符串對應的電商商品名稱數據和電商商品相關數據作為與當前所述客戶商品名稱數據對應的匹配度最高的電商商品名稱數據和電商商品相關數據。
10.根據權利要求9所述的智能SKU匹配方法,其特徵在於: 所述客戶商品相關數據包括:客戶商品編號數據和客戶商品描述數據; 所述電商商品相關數據包括:電商商品編號數據、電商商品描述數據和商品標籤數據。
【文檔編號】G06F17/30GK103838883SQ201410125592
【公開日】2014年6月4日 申請日期:2014年3月31日 優先權日:2014年3月31日
【發明者】何發斌, 王彬, 徐海峰, 周豔 申請人:上海久科信息技術有限公司