一種有限需求場景下的資源動態調度適配方法及系統

2023-10-28 02:04:39 1

1.本技術屬於資源調度處理技術領域，具體涉及一種有限需求場景下的資源動態調度適配方法及系統。

背景技術：

2.目前，在部署資源有限和調度能力有限的情況下完成區域間的資源需求調度，是現實生活中很多應用領域面臨的一個難題。如實際的物流配送服務中，每個區域中用戶配送服務的需求量是動態變化的，在某些條件下用戶會出現一些臨時的配送需求，如臨時的文件和一些用戶臨時的服務。
3.實際對各個區域之間資源進行調度和調配的過程中，其對資源的調度能力會受到人力、時間、承載能力等諸多因素的限制。因此，如何在有限的資源和有限的資源調度能力的雙重約束下，更好地滿足用戶對資源的需求，成為亟待解決的問題。

技術實現要素：

4.有鑑於此，本技術的目的在於提出一種有限需求場景下的資源動態調度適配方法及系統，用以解決或部分解決上述技術問題。
5.基於上述目的，本技術的第一方面提供了一種有限需求場景下的資源動態調度適配方法，包括：
6.統計資源使用區域內各時段的用戶資源使用量，加入影響用戶資源使用的外部因素，構建基於深度神經網絡的資源使用區域資源需求區間預測模型，通過資源需求區間預測模型對各時段資源使用區域的資源使用需求情況進行預測；
7.把需要進行資源調度區域的因素劃分為靜態因素和動態因素，構建基於強化學習理論的馬爾科夫雙層資源調度策略生成模型，通過雙層資源調度策略生成模型對各時資源使用區域的用戶資源需求進行平衡調度。
8.作為有限需求場景下的資源動態調度適配方法優選方案，影響用戶資源使用的外部因素包括地理位置、氣象特徵和時間特徵；
9.用戶資源需求區間採用具有預定置信度的用戶資源需求預測置信區間表示，使用分位數預測方法預測每個資源使用區域不同時間段的用戶資源需求置信區間。
10.作為有限需求場景下的資源動態調度適配方法優選方案，用戶資源使用區域ni的用戶資源需求量的ρ-分位數加權分位數損失函數定義為：
[0011][0012]
用戶資源使用區域ni的用戶資源需求量的ρ-分位數損失的歸一化表達式l
p
為：
[0013][0014]
式中，di表示過去時間序列，表示資源使用區域ni的資源需求置信度。
[0015]
作為有限需求場景下的資源動態調度適配方法優選方案，對處的資源進行配置後得到的資源調度收益的計算公式為：
[0016]
當且時，在地點處的第t個時刻資源調度收益分數表示為：
[0017][0018]
當且時，在地點處的第t個時刻的資源調度收益分數表示為：
[0019][0020]
當且時，在地點處的第t個時刻的資源調度收益分數表示為：
[0021][0022]
式中，表示最小資源需求量，即資源需求區間預測模型輸出的最小分位資源需求值需求值表示最大資源需求量，即資源需求區間預測模型的最大分位資源需求值表示最大資源需求量，即資源需求區間預測模型的最大分位資源需求值表示在地點處的資源調度量，表示t時刻的資源調度量的合法區間；β是當前資源配置滿足用戶資源需求的資源調度收益增益係數，γ是當前資源配置超出用戶資源需求或不滿足用戶資源需求的收益懲罰係數。
[0023]
作為有限需求場景下的資源動態調度適配方法優選方案，t時刻資源調度過程中調度能力l
t
為：
[0024][0025][0026]
式中，m表示當前系統初始的最大調度能力。
[0027]
作為有限需求場景下的資源動態調度適配方法優選方案，基於強化學習理論的馬爾科夫雙層資源調度策略生成模型包括資源調度任務的馬爾科夫雙層序列決策過程映射階段；
[0028]
資源調度任務的馬爾科夫雙層序列決策過程映射階段包括：
[0029]
馬爾科夫雙層序列決策過程的狀態空間構建；
[0030]
馬爾科夫雙層序列決策過程的雙層協同動作空間構建；
[0031]
馬爾科夫雙層序列決策過程的獎勵機制；
[0032]
無效決策動作的mask機制。
[0033]
作為有限需求場景下的資源動態調度適配方法優選方案，無效決策動作的mask機制包括：
[0034]
將當前時刻資源配置需求量為零的資源調度區域的動作屏蔽；
[0035]
如果當前放置資源的調度能力為零，設置資源配置需求量大於零的資源調度區域不允許訪問；
[0036]
如果當前放置資源的調度能力為l
max
，設置資源配置需求量小於零的站點被屏蔽不允許訪問。
[0037]
作為有限需求場景下的資源動態調度適配方法優選方案，基於強化學習理論的馬爾科夫雙層資源調度策略生成模型還包括基於深度強化學習的雙層協同資源調度策略輸出階段：
[0038]
找到資源的最優調度策略定義每步的資源調度動作在第n步的調度過程中，根據調度環境狀態sn選擇最優的資源調度動作，使得整體的資源調度收益最大化；
[0039]
設計兩個深度網絡模型和分別由θ1和θ2參數化，用於決定在每個狀態s
t
選擇可用動作的概率其中"；"表示兩個向量s
t
和的串聯；
[0040]
通過收益函數獎勵機制引導調度策略生成模型去接近最優的資源調度策略π
*
；其中策略生成函數π
θ
(a
t
|s
t
)由和兩個策略參數函數構成，其最初的θ1和θ2參數為隨機的參數值，通過構建的資源調度環境對其資源分布狀態進行估計同時對動作決策空間進行探索，期望最終找到最佳資源調度決策。
[0041]
作為有限需求場景下的資源動態調度適配方法優選方案，給出資源調度環境狀態向量s
t
，兩個策略網絡和產生兩個編碼後動作向量，兩個編碼後動作向量是soft-max層輸出調度決策動作概率分布的形式；
[0042]
決策調度模型的損失函數包括三部分：截斷代理目標函數、熵損失函數和最小化均方誤差函數。
[0043]
本技術的第二方面提供了一種有限需求場景下的資源動態調度適配系統，採用第一方面或其任意可能實現方式的有限需求場景下的資源動態調度適配方法，包括：
[0044]
資源需求區間預測模塊，用於統計資源使用區域內各時段的用戶資源使用量，加入影響用戶資源使用的外部因素，構建基於深度神經網絡的資源使用區域資源需求區間預測模型，通過資源需求區間預測模型對各時段資源使用區域的資源使用需求情況進行預測；
[0045]
資源調度策略生成模塊，用於把需要進行資源調度區域的因素劃分為靜態因素和
動態因素，構建基於強化學習理論的馬爾科夫雙層資源調度策略生成模型，通過雙層資源調度策略生成模型對各時資源使用區域的用戶資源需求進行平衡調度。
[0046]
本技術的第三方面提出了一種電子設備，包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式，所述處理器執行所述程序時實現第一方面或其任意可能實現方式的有限需求場景下的資源動態調度適配方法。
[0047]
本技術的第四方面提出了一種非暫態計算機可讀存儲介質，所述非暫態計算機可讀存儲介質存儲計算機指令，所述計算機指令用於使計算機執行實現第一方面或其任意可能實現方式的有限需求場景下的資源動態調度適配方法。
[0048]
從上面所述可以看出，本發明充分利用用戶資源使用的歷史數據對資源使用區域的資源需求的置信區間進行預測，綜合考慮了用戶在資源區間使用過程中的高度動態性和不確定性，以需求區間的形式來預測用戶在需求區域中的需求分布情況，從而把用戶需求預測的點估計問題轉化為需求預測的區間預測問題；同時預測模型加入了影響當前區域資源使用的地理位置因素、氣象特徵因素和假期等時間因素特性，從而可以對資源使用區域的用戶資源需求情況做出高魯棒性的精準置信區間預測；本發明實現了在總體資源受限和調度能力受限情況下更好的更優地對每個區域的用戶資源需求分布情況做出高效的資源調度計劃，同時在面對複雜多變的資源調度場景，可以高效穩定的生成資源使用區域的資源調度策略，提高整體資源的有效性適配效率。
附圖說明
[0049]
為了更清楚地說明本技術或相關技術中的技術方案，下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本技術的實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。
[0050]
圖1為本發明實施例中的有限需求場景下的資源動態調度適配方法示意圖；
[0051]
圖2為本發明實施例中的有限需求場景下的資源動態調度適配方法中資源調度任務的馬爾科夫雙層序列決策過程映射結構；
[0052]
圖3為本發明實施例中的馬爾科夫雙層資源調度決策的狀態集合和可選動作集合示意圖；
[0053]
圖4為本發明實施例中的有限需求場景下的資源動態調度適配系統示意圖；
[0054]
圖5為本技術實施例的電子設備的結構示意圖。
具體實施方式
[0055]
為使本技術的目的、技術方案和優點更加清楚明白，以下結合具體實施例，並參照附圖，對本技術進一步詳細說明。
[0056]
需要說明的是，除非另外定義，本技術實施例使用的技術術語或者科學術語應當為本技術所屬領域內具有一般技能的人士所理解的通常意義。本技術實施例中使用的「包括」或者「包含」等類似的詞語意指出現該詞前面的元件或者物件涵蓋出現在該詞後面列舉的元件或者物件及其等同，而不排除其他元件或者物件。
[0057]
相關技術中，主要集中在對需求量十分明確的資源系統優化調度的研究，然而在
面對高動態各異化的用戶需求，以及高實時性的資源使用過程中可用性和便利性的特徵，對用戶的需求量進行準確的預測，需要針用戶不確定的需求場景進行更多細節特徵的採集和感知工作，而更加細粒度的用戶需求信息採集會造成更多的資源的浪費和用戶隱私信息的採集，這些對精準的用戶需求預測帶來巨大的挑戰。
[0058]
在部署資源有限和調度能力有限的情況下，完成區域間的資源需求調度，是現實生活中很多應用領域面臨的一個難題。如實際的物流配送服務中，每個區域中用戶配送服務的需求量是動態變化的，在某些條件下用戶會出現一些臨時的配送需求，如臨時的文件和一些用戶臨時的服務。因此為了滿足城市用戶對物流配送資源的動態需求，需要動態的根據用戶對物流資源的使用需求調配城市中各個區域的物流資源；如商家發送快遞或外賣，用戶接收快遞和外賣等，需要根據用戶的不同需求調配相應的物品配送方案等。實際對各個區域之間資源進行調度和調配的過程中，資源的調度能力會受到人力、時間、承載能力等諸多因素的限制。因此，如何在有限的資源和有限的資源調度能力的雙重約束下，更好地滿足用戶對資源的需求，成為亟待解決的問題。即面對高時空動態性的有限資源分布和受限資源調度能力場景下，如何全面、快速、準確地根據用戶需求，對資源進行調度是資源動態調度領域面臨的重要問題和挑戰。
[0059]
有鑑於此，本發明在有限資源部署的場景下提出了向用戶動態資源需求的用戶資源需求區間預測模型，同時針對用戶的需求區間的動態化調度場景，設計了基於用戶需求區間的資源調度策略生成模型，與現有的資源調度方法相比，其不僅需要決策每一步需要進行資源調度的區域，同時也需要決策當前調度需求需要配置的資源數量，以使調度系統的資源可以更加適配當前的用戶資源需求。即本發明在有限資源部署的場景下，根據用戶資源需求對有限的資源進行匹配調度業務，面對時空動態變化的資源分布與用戶需求，實現實時適配問題，即全面、快速、準確地根據用戶需求對資源進行動態調度是本發明重點解決的問題。以下為本發明實施例的具體內容。
[0060]
參見圖1，本發明實施例提供一種有限需求場景下的資源動態調度適配方法，包括以下步驟：
[0061]
步驟s1：預測資源使用區域各時段的用戶資源需求區間：
[0062]
由於用戶資源使用的個性化和不確定的資源使用方式，資源的使用可以在城市的任何位置。這些導致不同地區用戶的資源需求通常是高度動態的，並且在時間和空間上都發生了變化。因此，根據用戶各時段的資源使用歷史數據和一些影響用戶需求的外部因素數據，設計資源使用區域各時段的用戶資源需求區間預測模型。目的是針對用戶需求各異化的不確定性，分析預測用戶資源需求情況的最大需求情況和的最小需求情況，即使用用戶需求區間的預測來描述用戶需求的上下限，從而為後續的資源調度決策任務提供服務和數據支持，使其可以更好地在有限資源部署和有限調度能力條件下支持用戶資源需求的調度，提高資源的綜合利用率和用戶資源需求滿意度。
[0063]
本實施例中，資源使用區域的用戶資源需求不僅和其自身的歷史需求數據有關，還與其相鄰區域的歷史需求數據存在關聯性，同時資源的需求情況也會受多種複雜因素的影響，包括其地理位置、氣象特徵、時間特徵(一天中的高峰或正常時間、一天中的某個小時、一周中的哪一天、假日或工作日、月中的一周、季節中的月份)等。資源使用區域的用戶資源需求區間預測問題，可以定義為用戶資源使用區域中用戶資源需求的分位數預測。
[0064]
具體的，首先使用表示t時刻所有資源使用區域的用戶資源需求值。de＝(de1,de2,
…
,de
τ
)
t
∈rn×
τ
表示以上所有資源使用區域的在τ個時間段的用戶資源需求值。使用來表示的t期間的氣象和時間特徵等影響需求的外部因素變量，其中，m是外部因素變量特徵的總特徵數。給定過去時間序列和外部因素變量其中τ+1是預測的開始時間點，表示從τ+1到t時刻資源使用區域i的用戶資源需求數量，代表過去τ時間片中區域i用戶資源需求。
[0065]
用戶資源需求區間採用具有一定置信度的用戶資源需求預測置信區間表示，使用分位數預測方法預測每個資源使用區域不同時間段的用戶資源需求置信區間，其中，置信區間的上下線分別表示高分位數預測值和低分位數預測值，用戶資源使用區域ni的資源需求置信區間可以表示為用戶資源使用區域ni在預測時間跨度內的目標值表示為其中(b,b+e)是預測的時間跨度範圍di(b,e)的ρ-分位數預測值為其中，分位數ρ∈(0,1)。
[0066]
具體的，用戶資源使用區域ni的用戶資源需求量的ρ-分位數加權分位數損失函數定義為公式(1)：
[0067][0068]
則用戶資源使用區域ni的用戶資源需求量的ρ-分位數損失的歸一化表達式為公式(2)：
[0069][0070]
然後，根據梯度下降法對該函數進行優化求解，即得用戶資源使用區域的資源需求區間。
[0071]
步驟s2：資源動態調度策略生成：
[0072]
本實施例中，基於用戶需求置信區間的調度收益評估方法以及總體調度收益評估方法：資源調度後的分布對用戶資源需求滿足的情況會直接影響用戶資源使用滿意度，因此本發明對資源調度過程的資源調度收益進行如下設計：
[0073]
假設用m表示當前系統初始的最大調度能力，l
t
為t時刻的調度能力，表示在地點處t時刻的用戶資源需求量的區間值，其中，表示最小資源需求量即需求區間預測模型輸出的最小分位資源需求值區間預測模型輸出的最小分位資源需求值表示最大資源需求量即需求區間預
測模型的最大分位資源需求值測模型的最大分位資源需求值表示在地點處的資源調度量，表示t時刻的資源調度量的合法區間。則對處的資源進行配置後得到的資源調度收益的計算公式定義如下：
[0074]
當且時，在地點處的第t個時刻資源調度收益分數表示為公式(3)：
[0075][0076]
當且時，在地點處的第t個時刻的資源調度收益分數表示為公式(4)：
[0077][0078]
當且時，在地點處的第t個時刻的資源調度收益分數表示為公式(5)：
[0079][0080]
式中，表示最小資源需求量，即資源需求區間預測模型輸出的最小分位資源需求值需求值表示最大資源需求量，即資源需求區間預測模型的最大分位資源需求值值表示在地點處的資源調度量，表示t時刻的資源調度量的合法區間；β是當前資源配置滿足用戶資源需求的資源調度收益增益係數，γ是當前資源配置超出用戶資源需求或不滿足用戶資源需求的收益懲罰係數。
[0081]
由上述公式的定義可知資源調度收益是對當前資源調度場景下每個用戶需求區域資源配置量與用戶資源需求區間匹配程度的一種度量方式。
[0082]
具體的，t時刻資源調度過程中調度能力l
t
可以由以下公式(6)計算得到：
[0083][0084][0085]
假設根據用戶對資源需求的m個資源調度區域進行t個時間段的資源調度，用l
t
表示t時刻系統的資源調度能力，表示在地點處t時刻公共資源的需求區間，表示在資源調度過程中受實際約束條件的影響在地點處的實際資源調度收益。根據用戶需求區間的資源調度決策配置問題的優化目標為在資源調度能力受限的情況下最大化資源調度收益，其調度優化問題的數學模型可以表示為公式(7)：
[0086][0087]
本發明實施例的目標是在有限資源分布、有限資源調度成本和有限調度能力的情況下，根據用戶資源需求的分布情況最大化資源調度總收益，即根據用戶動態需求區間的變化最大化用戶需求的滿意度和資源調度整體收益。
[0088]
本實施例中，基於雙層決策強化學習理論的資源調度策略生成模型，根據用戶在各資源使用區域的資源需求置信區間、資源使用區域的位置數據和當前資源調度能力數據，設計資源動態調度任務的馬爾科夫決策模型。為了實現資源調度任務到馬爾科夫決策過程的映射，使資源任務調度過程可以轉化為調度序列決策的問題，本發明實施例的基於馬爾科夫雙層序列決策的資源調度策略生成模型分為：s21資源調度任務的馬爾科夫雙層序列決策過程映射和s22基於深度強化學習的雙層協同資源調度策略輸出兩個階段。
[0089]
具體的，第一階段s21資源調度任務的馬爾科夫雙層序列決策過程映射：針對需求區間的調度決策問題，可以把該問題轉換成雙層序列決策問題，進而建模成雙層馬爾可夫決策問題。即把資源配置問題轉化為在哪些區域配置資源和在選定區域部署多少資源的問題。馬爾科夫雙層序列決策過程映射的主要思想為，依據用戶資源的需求區間對公共資源進行調度時，期望根據資源分布場景和用戶需求區間學習到在當前環境下應該採取的最優資源調度動作，以使整體的資源調度收益最大化。即馬爾科夫雙層序列決策過程可以定義為一個離散時間隨機控制過程。如圖2所示，通過將資源調度策略模型視為「代理」，通過訪問不同的資源分布區域和用戶的資源需求區間，決策當前需要進行資源調度的區域和資源區域中需要配置的資源數量。馬爾科夫雙層序列建模過程如下：
[0090]
s211：馬爾科夫雙層序列決策過程的狀態空間構建：
[0091]
馬爾科夫雙層序列決策過程的狀態集合如圖3所示，狀態sn∈s是由資源調度問題的資源配置區域的空間位置坐標si＝(xi,yi)表示以及每個地理空間資源配置的最小資源需求、最大資源需求、當前資源調度能力、當前調度資源位置和剩餘的調度成本過程的變量表示。即將其表示為t時刻的狀態向量。
[0092]
s212：馬爾科夫雙層序列決策過程的雙層協同動作空間構建：
[0093]
馬爾科夫雙層序列決策過程的雙層協同動作空間如圖3所示，動作an表示在當前資源調度狀態sn條件下，決定所選擇的資源調度區域和當前區域內需要配置的資源量。設和分別表示可以進行資源調度區域的集合和在該調度區域適配的資源數量集合，其中nk和lk分別表示在第k步資源調度過程中選擇的資源調度區域和該區域的資源調度量。在資源調度過程中合併兩個決策動作，則第k步的動作空間，可以表示為其中，ak包括nk和lk的所有可能的
種組合，其中，和表示動作集和的大小，其中，n是所有資源調度的區域，l
max
是調度資源的最大調度能力絕對值。
[0094]
如圖3所示，一個動作an∈a是一個資源調度選擇決策，使用兩個關聯的動作來表示；第一個動作是選擇要進行資源調度的區間位置，它由一個長度為n的向量表示；第二個動作是在採取調度動作後，在其條件下選擇需要調度的資源數量，動作由長度為h的向量表示。在每一步資源調度過程中，為了在訓練階段保持模型的探索能力，對當前每個動作向量的概率分布進行採樣，其向量位置作為當前兩個調度動作的索引。在模型測試階段，選擇這兩個向量中最大概率值的位置作為當前兩個調度動作索引。例如，假設調度動作和的當前動作索引是和其中表示當前調度決策下選擇訪問的資源配置位置，表示需要在當前資源配置位置下需要配置資源的數量。如果要配置資源的數量。如果則表示調度走數量的資源，否則，則表示調度來數量的資源。
[0095]
s213馬爾科夫雙層序列決策過程的獎勵機制：
[0096]
馬爾科夫雙層序列決策過程的獎勵機制主要包括每進行一步資源調度動作後得到的及時獎勵，和在完成一個階段的資源調度任務後對所有調度區域的整體收益情況的獎勵。其中，及時獎勵指資源調度過程中資源調度動作的及時收益，即在狀態sn∈s下採取調度行動an並導致下一個狀態s
n+1
後得到的及時獎勵機制，其定義如下：
[0097]
當且則及時獎勵函數可以定義為公式(8)：
[0098][0099]
當時，獎勵函數定義為公式(9)：
[0100][0101]
其中，是對無效調度動作的懲罰評價值。
[0102]
具體的，階段獎勵函數定義為str(sn)，表示在完成一段時間內的資源調度決策後，對所有資源調度區域整體資源調度收益的獎勵評價。其可以通過公式(10)得到：
[0103][0104]
其中和是調節係數，用於調整獎勵函數的整體範圍，該問題的目標是最大化長期獎勵，使資源調度過程中的所有區域整體的資源收益得分最大化。
[0105]
s214無效決策動作的mask機制：
[0106]
如圖3所示，本發明實施例設計一個馬爾科夫雙層序列決策過程中特定的無效決策動作的mask方案，其可以將在生成調度動作決策中不可行的調度動作屏蔽掉，具體實現方式為令無效策略選擇動作的條件概率以便更快地生成可行的資源調度決策解決方案。
[0107]
mask機制方案如下所示：(1)將當前時刻資源配置需求量為零的資源調度區域的動作屏蔽；(2)如果當前放置資源的調度能力為零(即可以回收冗餘的資源而不能調度缺失的資源)，則設置資源配置需求量大於零的資源調度區域不允許訪問；(3)如果當前放置資源的調度能力為l
max
(即可以度缺失的資源而不能回收冗餘的資源)，則設置資源配置需求量小於零的站點被屏蔽不允許訪問。
[0108]
具體的，第二階段s22基於深度強化學習的雙層協同資源調度策略輸出過程，基於深度強化學習的雙層協同資源調度策略輸出模型，其主要思想是找到資源的最優調度策略定義每步的資源調度動作即期望在第n步的調度過程中，根據調度環境狀態sn選擇最優的資源調度動作，使得整體的資源調度收益最大化。本發明實施例設計了兩個深度網絡模型和分別由θ1和θ2參數化，用於決定在每個狀態s
t
選擇可用動作的概率其中"；"表示兩個向量s
t
和的串聯。通過收益函數獎勵機制來引導調度策略生成模型去接近最優的資源調度策略π
*
。其中策略生成函數π
θ
(a
t
|s
t
)由和兩個策略參數函數構成，其最初的θ1和θ2參數為隨機的參數值，然後通過構建的資源調度環境對其資源分布狀態進行估計同時對動作決策空間進行探索，期望其最終可以找到最佳資源調度決策。其資源調度決策動作的隨機性隨著訓練過程的進行而逐漸降低。策略生成模型的目標是使資源調度策略π接近最優調度策略π
*
，這樣可以在滿足實際問題約束的同時最大化資源調度的整體收益期望。
[0109]
具體的，給出資源調度環境狀態向量s
t
，通過兩個策略網絡和來產生兩個編碼以後動作向量。這兩個向量是由soft-max層輸出其調度決策動作概率分布的形式，例如和和其中和然後根據相應的概率分布情況選擇相應的決策動作和其中，代表當前選定的資源調度區域，代表當前調度狀態s
t
和上一層調度動作下，在選定調度區域中調度的資源數量，其中的mask機制是限制不合理調度區域的動作空間和不合理的資源調度量的動作空間。其中決策調度模型的損失函數定義為公式(11)：
[0110][0111]
其中，損失函數包括三部分，第一部分表示截斷代理目標函數，其可以通過公式(12)計算得到：
[0112]
[0113]
具體的，截斷代理目標函數中設置了兩個限制條件，第一個限制是對兩個決策動作生成網絡中的新舊策略的概率比r
t
(θ1)和r
t
(θ2)之和的限制。其比例總和將限制在[1-ε,1+ε]，保證兩個策略生成網絡的每次更新不會有太大的波動。第二個限制是取最小值函數，選擇一個較低的值作為結果，其含義為：如果模型可以更好地優化其較低的值，那麼模型在其他情況下也會表現得更好。其中ε∈(0,1)是預設參數，定義r
t
(θ1)+r
t
(θ2)的上下限間隔為[1-ε,1+ε]。其中概率比r
t
(θ1)和r
t
(θ2)的定義為公式(13)和公式(14)：
[0114][0115][0116]
具體的，表示從策略函數中選擇決策動作的優勢函數值。如果表示決策動作a
t
將導致更好的預期總回報。此處採用廣義優勢估計gae，如公式(15)所示：
[0117][0118]
其中，δ
t
是採用單步的時間差值td估計，其可以由公式(16)得到：
[0119][0120]
價值函數用於估計在狀態s
t
從第t步調度開始到資源調度完成後可以獲得的預期總獎勵。可以由公式(17)計算得到：
[0121][0122]
中的參數φ將通過公式(18)所示的最小化均方誤差函數得到：
[0123][0124]
具體的，為了保證對資源調度決策空間的充分探索，在目標函數中加入了熵損失函數其定義為公式(19)：
[0125][0126]
通過加入最大化熵損失函數項，會增加來自策略函數π
θ
的決策採樣的隨機性，更有利於對調度決策空間的探索。因此引入最大化熵損失函數項以在特定狀態下
嘗試不同的決策，其中權重是為了平衡決策空間的探索和利用之間的權衡，隨著訓練過程的進行，權重逐漸減小，以便在以後的迭代中減少探索，增加利用，以確保收斂。
[0127]
具體的，和如下式所示，將通過最小化均方誤差函數迭代更新，表示公式(20)：
[0128][0129]
通過訓練得到兩個資源調度決策的深度網絡模型和分別用來生成需求調度的需求區域和該區域需要調度的資源數量，即生成雙層協同資源調度策略從而實現資源調度系統的整體資源利用率和優化用戶資源需求的滿意度。
[0130]
綜上所述，本發明充分利用用戶資源使用的歷史數據對資源使用區域的資源需求的置信區間進行預測，設計基於深度學習網絡模型的用戶資源需求區間預測模型，相較於傳統的時間序列預測方法，綜合考慮了用戶在資源區間使用過程中的高度動態性和不確定性以需求區間的形式來預測用戶在需求區域中的需求分布情況，從而把用戶需求預測的點估計問題轉化為需求預測的區間預測問題。同時預測模型加入了影響當前區域資源使用的地理位置因素、氣象特徵因素和假期等時間因素特性從而可以對資源使用區域的用戶資源需求情況做出高魯棒性的精準置信區間預測。本發明在總體資源有限場景下的，基於用戶需求置信區間的調度收益評估方法以及總體調度收益評估方法，同時基於雙層決策強化學習理論的資源動態調度策略生成模型，極大的突破了在總體資源受限和調度能力受限情況下，如何更好更優地對每個區域的用戶資源需求分布情況做出高效的資源調度計劃。同時在面對複雜多變的資源調度場景可以高效穩定的生成資源使用區域的資源調度策略，提高整體資源的有效性適配效率。
[0131]
需要說明的是，本技術實施例的方法可以由單個設備執行，例如一臺計算機或伺服器等。本實施例的方法也可以應用於分布式場景下，由多臺設備相互配合來完成。在這種分布式場景的情況下，這多臺設備中的一臺設備可以只執行本技術實施例的方法中的某一個或多個步驟，這多臺設備相互之間會進行交互以完成所述的方法。
[0132]
需要說明的是，上述對本技術的一些實施例進行了描述。其它實施例在所附權利要求書的範圍內。在一些情況下，在權利要求書中記載的動作或步驟可以按照不同於上述實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多任務處理和並行處理也是可以的或者可能是有利的。
[0133]
參見圖4，基於同一發明構思，與上述任意實施例方法相對應的，本技術還提供了
一種有限需求場景下的資源動態調度適配系統，採用上述實施例或其任意可能實現方式的有限需求場景下的資源動態調度適配方法，包括：
[0134]
資源需求區間預測模塊1，用於統計資源使用區域內各時段的用戶資源使用量，加入影響用戶資源使用的外部因素，構建基於深度神經網絡的資源使用區域資源需求區間預測模型，通過資源需求區間預測模型對各時段資源使用區域的資源使用需求情況進行預測；
[0135]
資源調度策略生成模塊2，用於把需要進行資源調度區域的因素劃分為靜態因素和動態因素，構建基於強化學習理論的馬爾科夫雙層資源調度策略生成模型，通過雙層資源調度策略生成模型對各時資源使用區域的用戶資源需求進行平衡調度。
[0136]
其中，資源調度策略生成模塊2包括雙層序列決策過程映射子模塊21和雙層協同資源調度策略輸出子模塊22。其中，雙層序列決策過程映射子模塊21包括狀態空間構建子模塊211、雙層協同動作空間構建子模塊212、獎勵子模塊213和無效決策動作處理子模塊214。
[0137]
其中，雙層序列決策過程映射子模塊21的用途對應上述步驟s21，雙層協同資源調度策略輸出子模塊22的用途對應上述步驟s22，狀態空間構建子模塊211的用途對應上述步驟s211，雙層協同動作空間構建子模塊212的用途對應上述步驟s212，獎勵子模塊213的用途對應上述步驟s213，無效決策動作處理子模塊214的用途對應上述步驟s214。
[0138]
上述實施例的系統用於實現前述任一實施例中相應地有限需求場景下的資源動態調度適配方法，並且具有相應的方法實施例的有益效果，在此不再贅述。
[0139]
基於同一發明構思，與上述任意實施例方法相對應的，本技術還提供了一種電子設備，包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式，所述處理器執行所述程序時實現上任意一實施例所述的有限需求場景下的資源動態調度適配方法。
[0140]
圖5示出了本實施例所提供的一種更為具體的電子設備硬體結構示意圖，該設備可以包括：處理器1010、存儲器1020、輸入/輸出接口1030、通信接口1040和總線1050。其中處理器1010、存儲器1020、輸入/輸出接口1030和通信接口1040通過總線1050實現彼此之間在設備內部的通信連接。
[0141]
處理器1010可以採用通用的cpu(central processing unit，中央處理器)、微處理器、應用專用集成電路(application specific integrated circuit，asic)、或者一個或多個集成電路等方式實現，用於執行相關程序，以實現本說明書實施例所提供的技術方案。
[0142]
存儲器1020可以採用rom(read only memory，只讀存儲器)、ram(random access memory，隨機存取存儲器)、靜態存儲設備，動態存儲設備等形式實現。存儲器1020可以存儲作業系統和其他應用程式，在通過軟體或者固件來實現本說明書實施例所提供的技術方案時，相關的程序代碼保存在存儲器1020中，並由處理器1010來調用執行。
[0143]
輸入/輸出接口1030用於連接輸入/輸出模塊，以實現信息輸入及輸出。輸入輸出/模塊可以作為組件配置在設備中(圖中未示出)，也可以外接於設備以提供相應功能。其中輸入設備可以包括鍵盤、滑鼠、觸控螢幕、麥克風、各類傳感器等，輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。
[0144]
通信接口1040用於連接通信模塊(圖中未示出)，以實現本設備與其他設備的通信
交互。其中通信模塊可以通過有線方式(例如usb、網線等)實現通信，也可以通過無線方式(例如行動網路、wifi、藍牙等)實現通信。
[0145]
總線1050包括一通路，在設備的各個組件(例如處理器1010、存儲器1020、輸入/輸出接口1030和通信接口1040)之間傳輸信息。
[0146]
需要說明的是，儘管上述設備僅示出了處理器1010、存儲器1020、輸入/輸出接口1030、通信接口1040以及總線1050，但是在具體實施過程中，該設備還可以包括實現正常運行所必需的其他組件。此外，本領域的技術人員可以理解的是，上述設備中也可以僅包含實現本說明書實施例方案所必需的組件，而不必包含圖中所示的全部組件。
[0147]
上述實施例的電子設備用於實現前述任一實施例中相應地有限需求場景下的資源動態調度適配方法，並且具有相應的方法實施例的有益效果，在此不再贅述。
[0148]
基於同一發明構思，與上述任意實施例方法相對應的，本技術還提供了一種非暫態計算機可讀存儲介質，所述非暫態計算機可讀存儲介質存儲計算機指令，所述計算機指令用於使所述計算機執行如上任一實施例所述的有限需求場景下的資源動態調度適配方法。
[0149]
本實施例的計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括，但不限於相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光碟只讀存儲器(cd-rom)、數字多功能光碟(dvd)或其他光學存儲、磁盒式磁帶，磁帶磁磁碟存儲或其他磁性存儲設備或任何其他非傳輸介質，可用於存儲可以被計算設備訪問的信息。
[0150]
上述實施例的存儲介質存儲的計算機指令用於使所述計算機執行如上任一實施例所述的有限需求場景下的資源動態調度適配方法，並且具有相應的方法實施例的有益效果，在此不再贅述。
[0151]
所屬領域的普通技術人員應當理解：以上任何實施例的討論僅為示例性的，並非旨在暗示本技術的範圍(包括權利要求)被限於這些例子；在本技術的思路下，以上實施例或者不同實施例中的技術特徵之間也可以進行組合，步驟可以以任意順序實現，並存在如上所述的本技術實施例的不同方面的許多其它變化，為了簡明它們沒有在細節中提供。
[0152]
另外，為簡化說明和討論，並且為了不會使本技術實施例難以理解，在所提供的附圖中可以示出或可以不示出與集成電路(ic)晶片和其它部件的公知的電源/接地連接。此外，可以以框圖的形式示出裝置，以便避免使本技術實施例難以理解，並且這也考慮了以下事實，即關於這些框圖裝置的實施方式的細節是高度取決於將要實施本技術實施例的平臺的(即，這些細節應當完全處於本領域技術人員的理解範圍內)。在闡述了具體細節(例如，電路)以描述本技術的示例性實施例的情況下，對本領域技術人員來說顯而易見的是，可以在沒有這些具體細節的情況下或者這些具體細節有變化的情況下實施本技術實施例。因此，這些描述應被認為是說明性的而不是限制性的。
[0153]
儘管已經結合了本技術的具體實施例對本技術進行了描述，但是根據前面的描述，這些實施例的很多替換、修改和變型對本領域普通技術人員來說將是顯而易見的。例如，其它存儲器架構(例如，動態ram(dram))可以使用所討論的實施例。
[0154]
本技術實施例旨在涵蓋落入所附權利要求的寬泛範圍之內的所有這樣的替換、修改和變型。因此，凡在本技術實施例的精神和原則之內，所做的任何省略、修改、等同替換、改進等，均應包含在本技術的保護範圍之內。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種有限需求場景下的資源動態調度適配方法及系統

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法