資料庫的生成及查詢方法
2023-10-09 12:47:19 2
專利名稱:資料庫的生成及查詢方法
技術領域:
本發明涉及服務數據及信息處理領域,尤其涉及資料庫的生成及查詢方法。
背景技術:
隨著計算機技術的不斷普及和發展,資料庫處理技術也不斷被應用到生產和生活的多個領域。新的資料庫處理技術也伴隨著這些應用而被開發出來。例如,商品關注度數據作為人群的行為數據越來越多的被應用到了群體行為的預測領域。其中,季節性商品的關注度數據屬性更是明顯的呈現出了隨季節性變化的特性。因此季節性商品的關注度數據對於季節性商品的計劃生產、廣告投放及庫存調配都具有較強的指導意義。隨著電子商務及服務計算的快速發展,進一步擴大了人類行為類數據的採集及應用。在該應用例中,由於關注度數據屬於人類行為類數據,因此通常可通過搜索類網站的「搜索」或「成交」記錄的統計進行收集。通過上述數據採集過程獲得的數據,由於是根據每日作為時間點採集,從而產生了較大的數據量。這一龐大的數據量在進行數據後期處理過程中,將直接導致大負荷數據量計算。另一方面,在該應用例中,在商品的關注度數據中普遍存在「小份額、小比重」數據,此類「小份額、小比重」數據通常是由於小眾季節性消費品或近似類季節性消費品所產生的。在整體的季節性商品的關注度計算中單位數據量級小、但單位數據多,同時關注度數據為傾向性指數數據。因此,此類「小份額、小比重」數據由於單位量較小,因此在計算中往往也無法體現出其數據的傾向性。同時需要指出的是,對上述「小份額、小比重」數據進行處理時,為了保證整體數據的信息完整性,此類數據的簡化不能僅通過刪減來實現。另外,現有的季節性商品的關注度數據為單一數據來源,因 此其季節性商品的季節性商品的季節特性無法進行體現。如簡單的通過採集時間來推算,將無法體現出季節變化及南、北方的地域性差異。因此,在上述這樣的應用例中,現有的例如季節性商品的關注度數據的數據量大,在處理過程中無法對數據項結構進行精簡。同時,由於數據來源的單一,無法實現有效的數據聚合,因此在後期的數據使用過程中無法進行有效處理,獲得可用數據。
發明內容
鑑於現有技術中存在的情況,根據本發明的一個方面,提供一種資料庫的生成方法,包括:從多個關注度數據表中選取樣本區域數據表,所述樣本區域數據表包含屬性和與所述屬性的相關的多元組數據;根據所述樣本區域數據表中屬性的多元組關注度數據,對所述屬性項進行合併,獲取樣本屬性項;根據所述樣本屬性項將所述多個關注度數據表中的屬性項映射為多個優化關注度數據表;以所述採集時間作為主碼,關聯同一區域的優化關注度數據表及氣象參數數據表,獲取目標關注度資料庫。在一些實施方式中,所述從多個關注度數據表中選取樣本區域數據表的步驟包括:根據多個區域的年度日氣溫表及氣象學四季溫度設定獲取多個區域的四季平均天數;根據該四季平均天數在一年中的均衡度從所述的多個區域中選取樣本區域,將該樣本區域對應的數據表選取為樣本區域數據表。在一些實施方式中,所述獲取樣本屬性項的步驟包括:根據設定時間間隔提取所述樣本區域數據表的元組項,獲得樣本採樣數據表;在所述樣本採樣數據表中,根據每一屬性項中各元組項的關注度建立維度,構成向量餘弦模型,在任意兩個屬性項的向量餘弦模型之間通過向量餘弦算法獲取多個屬性近似度;根據所述多個屬性近似度對所對應的多個屬性項進行合併,獲取樣本屬性項。在一些實施方式中,所述根據所述多個屬性近似度對所對應的多個屬性項進行合併的步驟包括:從所述多個屬性近似度中獲取最小近似度;將所述最小近似度所對應的兩個屬性項中的一個確定為基準項;以所述基準項的近似度為基準,對其餘屬性項的近似度進行排序,獲取屬性項序列;若所述屬性項序列中相鄰的屬性項間的近似度區間值小於近似度設定值,則將該相鄰屬性項進行合併。在一些實施方式中,所述近似度設定值根據所述屬性序列中相鄰屬性項的最小近似度區間值或中間近似度值區間值確定。在一些實施方式 中,所述獲取目標關注度資料庫的步驟包括:根據本地IP網絡地址確定本地區域;以所述採集時間作為主碼,關聯所述本地區域的優化關注度數據表及氣象參數數據表,獲取本地的目標關注度資料庫。同時本發明還提供了一種資料庫的查詢方法,包括:根據本地信息從所述季節性商品關注度資料庫中調取本地多年季節性商品關注度數據表;根據設定時間確定本地區域當前氣象參數;將所述本地當前氣象參數與本地歷史同期區間內氣象參數進行匹配,獲取與所述本地當前氣象參數匹配的本地歷史年份;從所述本地歷史年份所對應的本地的關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值,根據所述屬性項的關注度總值及每一屬性關注度值獲取每一屬性項的關注度佔比數;根據所述每一屬性項的關注度佔比數確定本地區域在設定時間中的各屬性項的
關注度。在一些實施方式中,所述氣象參數包括:日平均氣溫、日最高氣溫或氣象指數SWD。在一些實施方式中,所述獲取與所述本地當前氣象參數匹配的本地歷史年份的步驟包括:將所述本地當前氣象參數與本地兩年或三年內的歷史同期、三日區間或五日區間內氣象參數進行匹配,獲取與所述本地當前氣象參數匹配的本地多個歷史年份。在一些實施方式中,所述獲取每一屬性項的關注度佔比數的步驟包括:根據本地多個歷史年份與當前年份的年度跨度確定年份權重值;根據本地多個歷史年份與本地當前氣象參數的匹配度確定匹配權重值;從所述本地多個歷史年份所對應的本地的優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值;根據所述年份權重值和/或匹配權重值將所述多個歷史年份所對應的屬性項的關注度總值及每一屬性關注度值加權後,平均為屬性項的關注度總均值及每一屬性關注度均值;根據所述屬性項的關注度總均值及每一屬性關注度均值獲取每一屬性項的關注度佔比數。在一些實施方式中,所述從所述本地歷史年份所對應的本地的季節性商品優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值,根據所述屬性項的關注度總值及每一屬性關注度值獲取每一屬性項的關注度佔比數的步驟包括:從所述本地多個歷史年份所對應的本地的季節性商品優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值;根據每年度的所述屬性項的關注度總值及每一屬性關注度值生成每年度玫瑰圖;將所述每年度玫瑰圖進行圖形擬合,獲取每一屬性項的關注度佔比數。在一些實施方式中,所述根據所述每一屬性項的關注度佔比數確定本地在設定時間中的各屬性項關注度的步驟還包括:根據所述每一屬性項的關注度佔比數確定多個本地在設定時間中的各屬性項關注度;根據所述多個本地在設定時間中的各屬性項關注度獲取多個本地區域間的區域近似度;根據所述多個本地區域間的區 域近似度對所述多個本地區域進行合併,獲取優選區域列表;根據所述優選當前區域列表獲取廣告區域列表;發送系統根據所述優選當前區域進行所述屬性的廣告發放。在一些實施方式中,所述屬性項為當前庫存產品名稱,所述本地區域為多個當前庫存區域;所述根據所述每一屬性項的關注度佔比數確定本地在設定時間中的各屬性項關注度的步驟包括:所述根據每一當前庫存產品名稱所對應的關注度佔比數確定多個當前庫存區域在設定時間中的各當前庫存產品的關注度;根據多個當前庫存區域在設定時間中的各當前庫存產品的關注度生成庫存區域當前庫存產品列表。通過上述技術方案,本發明與現有技術相比具有以下優點:本發明通過商品近似度的分析對季節性商品屬性進行組合,將同一類型並且走勢趨勢相似的屬性進行合併,然後利用合併統計的方式讓同一屬性的數據互相進行對衝,最後得到的給個商品屬性佔比數據;並且通過這種方式也消除了實際數據的數據量的影響,得到的最後數據實際上是各地區各城市的單位數量關注行為的關注強度分布,由此就比較好的解決了數據城市間分布極不平衡的問題。通過這種數據篩選和清洗方式,我們得到了較小數據雜音的數據,最後我們結合各個城市的實況氣象數據製作出了能夠反映一個地區一個時段降溫影響的預測算法。
圖1為本發明關注度資料庫的生成方法的資料庫模型圖;圖2為本發明季節性商品關注度資料庫的生成方法的流程示意圖;圖3為本發明季節性商品關注度資料庫的生成方法中樣本區域數據表的選取流程不意圖;圖4為本發明季節性商品關注度資料庫的「方式I」的合併方法流程示意圖;圖5為本發明季節性商品關注度向量示意圖;圖6為本發明季節性商品關注度的偏移軸示意圖7為本發明季節性商品關注度資料庫的「方式2」的合併方法流程示意圖;圖8為本發明季節性商品關注度資料庫的查詢方法的流程示意圖;圖9為2009 2011年度北京地區溫度折線圖。
具體實施例方式下面結合附圖對本發明作進一步詳細的說明。圖1為可實施本發明的季節性商品關注度資料庫的生成方法的資料庫模型圖。該資料庫模型為關係型資料庫模型,在此資料庫中包括:2009年度的北京季節性商品關注度數據表B1、河南季節性商品關注度數據表B2、吉林季節性商品關注度數據表B3、上海季節性商品關注度數據表B4及廣東季節性商品關注度數據表B5等多個二維數據表,每個數據表的結構如表I所示,其中,數據表的屬性為,即每一列的內容為「圍巾、手套、帽子、涼鞋、羽絨服、風衣及外套」等季節性商品的關注度,例如:圍巾在2009.3.1所採集的關注度值為
653、手套在2009.3.1所採集的關注度值為505......,其每一列的屬性項名稱可使用「圍
巾、手套、帽子、涼鞋、羽絨服、風衣及外套」等季節性商品的名稱表示;數據表的元組,即每
一行為在「圍巾、手套、帽子......」等季節性商品的關注度的採集時間,可具體到每個採集
日期上,其最小的採集時間間隔可以以日作為基本單位,如:2009年3月I日、2009年3月
2日、2009年3月3日、2009年3月4日.......在本實施方式中的上述數據表中,其元組
中的採集時間為數據表的主碼,上述表格的數據表中所提及的「商品關注度」應理解為:是以網絡用戶在搜索類或電子商務類數據平臺(或網站)上的搜索量或成交量為數據基礎,以季節性商品的名稱為統計對象,通過分析而獲得的指數量,該指數量與搜索量或成交量具有對應關係,可體現出其搜索量或成交量的不 同量級。
採集時間I圍巾[¥1 ~ΜΨ~piI羽絨服I風衣phi2009.3.1 653 505 4953520 500
2009.3.2 520 576 ¥0 602 2879 ¥0 497 2009.3.3 501 499 595 θ θ 2215 500 509 2009.3.4 540 186 460 593 1551 400 510......
表I本發明實現季節性商品關注度資料庫的生成方法的步驟如圖2所示:步驟SlOl:如圖1所示,從北京季節性商品關注度數據表B1、河南季節性商品關注度數據表Β2、吉林季節性商品關注度數據表Β3、上海季節性商品關注度數據表Β4及廣東季節性商品關注度數據表Β5等多個二維數據表中選取一個數據表為樣本區域數據表。其具體的選取方式包括以下步驟,如圖3所示:SlOll:根據北京、河南、吉林、上海、廣東等多地的2008年度、2009年度及2010年
度的日平均氣溫數據表(如下表2所示),及日平均氣溫值及氣象學四季溫度設定(如:氣象意義上的春天為:若連續5天的日平均氣溫在一年中首次(北半球)均大於、等於10攝氏度(日平均氣溫以當地2時、8時、14時、20時的平均溫度)。獲取北京、河南、吉林、上海、廣東等多地的四季天數,如北京:春天為80天、夏天為95天,秋天為:100天、冬天為90天;河南:春天為91天、夏天為92天,秋天為:91天、冬天為91天.......
權利要求
1.資料庫的生成方法,其特徵在於,包括以下步驟: 從多個關注度數據表中選取樣本區域數據表,所述樣本區域數據表包含屬性和與所述屬性的相關的多元組數據; 根據所述樣本區域數據表中屬性的多元組關注度數據,對所述屬性項進行合併,獲取樣 本屬性項; 根據所述樣本屬性項將所述多個關注度數據表中的屬性項映射為多個優化關注度數據表; 以所述採集時間作為主碼,關聯同一區域的優化關注度數據表及氣象參數數據表,獲取目標關注度資料庫。
2.根據權利要求1所述的生成方法,其特徵在於,所述從多個關注度數據表中選取樣本區域數據表的步驟包括: 根據多個區域的年度日氣溫表及氣象學四季溫度設定獲取多個區域的四季平均天數; 根據該四季平均天數在一年中的均衡度從所述的多個區域中選取樣本區域,將該樣本區域對應的數據表選取為樣本區域數據表。
3.根據權利要求1或2所述的生成方法,其特徵在於,所述獲取樣本屬性項的步驟包括: 根據設定時間間隔提取所述樣本區域數據表的元組項,獲得樣本採樣數據表; 在所述樣本採樣數據表中,根據每一屬性項中各元組項的關注度建立維度,構成向量餘弦模型,在任意兩個屬性項的向量餘弦模型之間通過向量餘弦算法獲取多個屬性近似度; 根據所述多個屬性近似度對所對應的多個屬性項進行合併,獲取樣本屬性項。
4.根據權利要求3所述的生成方法,其特徵在於,所述根據所述多個屬性近似度對所對應的多個屬性項進行合併的步驟包括: 從所述多個屬性近似度中獲取最小近似度; 將所述最小近似度所對應的兩個屬性項中的一個確定為基準項; 以所述基準項的近似度為基準,對其餘屬性項的近似度進行排序,獲取屬性項序列; 若所述屬性項序列中相鄰的屬性項間的近似度區間值小於近似度設定值,則將該相鄰屬性項進行合併。
5.根據權利要求4所述的生成方法,其特徵在於,所述近似度設定值根據所述屬性序列中相鄰屬性項的最小近似度區間值或中間近似度值區間值確定。
6.根據權利要求1所述的生成方法,其特徵在於,所述獲取目標關注度資料庫的步驟包括: 根據本地IP網絡地址確定本地區域; 以所述採集時間作為主碼,關聯所述本地區域的優化關注度數據表及氣象參數數據表,獲取本地的目標關注度資料庫。
7.資料庫的查詢方法,其特徵在於,包括: 根據本地信息從所述季節性商品關注度資料庫中調取本地多年季節性商品關注度數據表;根據設定時間確定本地區域當前氣象參數; 將所述本地當前氣象參數與本地歷史同期區間內氣象參數進行匹配,獲取與所述本地當前氣象參數匹配的本地歷史年份; 從所述本地歷史年份所對應的本地的關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值,根據所述屬性項的關注度總值及每一屬性關注度值獲取每一屬性項的關注度佔比數; 根據所述每一屬性項的關注度佔比數確定本地區域在設定時間中的各屬性項的關注度。
8.根據權利要求7所述的查詢方法,其特徵在於,所述氣象參數包括:日平均氣溫、日最高氣溫或氣象指數SWD。
9.根據權利要求7所述的查詢方法,其特徵在於,所述獲取與所述本地當前氣象參數匹配的本地歷史年份的步驟包括: 將所述本地當前氣象參數與本地兩年或三年內的歷史同期、三日區間或五日區間內氣象參數進行匹配,獲取與所述本地當前氣象參數匹配的本地多個歷史年份。
10.根據權利要求或9所述的查詢方法,其特徵在於,所述獲取每一屬性項的關注度佔比數的步驟包括: 根據本地多個歷史年份與當前年份的年度跨度確定年份權重值; 根據本地多個歷史年份與本地當前氣象參數的匹配度確定匹配權重值;` 從所述本地多個歷史年份所對應的本地的優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值; 根據所述年份權重值和/或匹配權重值將所述多個歷史年份所對應的屬性項的關注度總值及每一屬性關注度值加權後,平均為屬性項的關注度總均值及每一屬性關注度均值; 根據所述屬性項的關注度總均值及每一屬性關注度均值獲取每一屬性項的關注度佔比數。
11.根據權利要求1或9所述的查詢方法,其特徵在於,所述從所述本地歷史年份所對應的本地的季節性商品優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值,根據所述屬性項的關注度總值及每一屬性關注度值獲取每一屬性項的關注度佔比數的步驟包括: 從所述本地多個歷史年份所對應的本地的季節性商品優化關注度數據表中獲取屬性項的關注度總值及每一屬性關注度值; 根據每年度的所述屬性項的關注度總值及每一屬性關注度值生成每年度玫瑰圖; 將所述每年度玫瑰圖進行圖形擬合,獲取每一屬性項的關注度佔比數。
12.根據權利要求7所述的查詢方法,其特徵在於,所述根據所述每一屬性項的關注度佔比數確定本地在設定時間中的各屬性項關注度的步驟還包括: 根據所述每一屬性項的關注度佔比數確定多個本地在設定時間中的各屬性項關注度; 根據所述多個本地在設定時間中的各屬性項關注度獲取多個本地區域間的區域近似度;根據所述多個本地區域間的區域近似度對所述多個本地區域進行合併,獲取優選區域列表; 根據所述優選當前區域列表獲取廣告區域列表; 發送系統根據所述優選當前區域進行所述屬性的廣告發放。
13.根據權利要求7所述的查詢方法,其特徵在於,所述屬性項為當前庫存產品名稱,所述本地區域為多個當前庫存區域;所述根據所述每一屬性項的關注度佔比數確定本地在設定時間中的各屬性項關注度的步驟包括: 所述根據每一當前庫存產品名稱所對應的關注度佔比數確定多個當前庫存區域在設定時間中的各當如庫存廣品的關注度; 根據多個當前庫存區域在設定時間中的各當前庫存產品的關注度生成庫存區域當前庫存產品列表。 ·
全文摘要
本發明公開了一種資料庫的生成及查詢方法,包括從多個關注度數據表中選取樣本區域數據表,樣本區域數據表包含屬性和與屬性的相關的多元組數據;根據樣本區域數據表中屬性的多元組關注度數據,對屬性項進行合併,獲取樣本屬性項;根據樣本屬性項將多個關注度數據表中的屬性項映射為多個優化關注度數據表;以採集時間作為主碼,關聯同一區域的優化關注度數據表及氣象參數數據表,獲取目標關注度資料庫。從而在對現有數據結構簡化的同時,提高的季節性商品關注度數據的可用性和有效性。
文檔編號G06F17/30GK103235822SQ20131016087
公開日2013年8月7日 申請日期2013年5月3日 優先權日2013年5月3日
發明者杜春生, 張勇, 孫薊旅 申請人:富景天策(北京)氣象科技有限公司