電力調度方法、電子設備、車載微電網、存儲介質

2024-04-16 02:57:05 4

1.本技術涉及電力調度領域，特別涉及一種電力調度方法、電子設備、車載微電網和計算機可讀存儲介質。

背景技術：

2.近年來，光伏電動車越來越廣泛地進入到市場中，光伏電動車因其裝配有太陽能電池板，能夠利用太陽能發電為其裝載的電池充電。在合適的行駛環境下，光伏電動車能夠做到「自給自足」地行駛。但是，光伏發電不穩定，容易受到外界溫度、光照條件和用電負載等因素的影響，所以在大多數情況下，太陽能主要作為是輔助供能的角色。
3.因缺少靈活的能源管理策略，光伏電動車往往不能最大化光伏電能的利用率。一方面，光伏電動車在白天處於停放狀態時，可以利用太陽能為電動車充電，但當電動車電池滿載時，該時段太陽能發電產生的電量就浪費了；另一方面，光伏電動車在行駛前需要補充電量，大多數情況下電動車會將電量充滿，當在行駛過程中，太陽能發電產生的電能大於行駛所需電量時，會出現電量浪費的現象，此外，在白天用電高峰期間充電時，不僅會對電網造成很大的壓力，同時還以較高的電價向電網購電，這往往導致電動車的行駛成本高，因此如何制定靈活的能源管理策略，提高光伏電動車電量利用率，降低光伏電動車行駛成本是亟待解決的問題。

技術實現要素：

4.為解決上述問題，本技術實施例提出一種電力調度方法、電子設備、車載微電網和計算機可讀存儲介質，通過指定合理的能源管理策略，提高光伏電動車電量利用率，降低光伏電動車行駛成本，
5.所述方法包括：
6.獲取第一時間周期內的副微電網的第一發電量、主微電網的第一耗電量和副微電網的第二耗電量，其中所述第一時間周期包括多個預設單位時長；
7.根據所述第一發電量、所述第一耗電量和所述第二耗電量確定第一時間周期內的各個所述預設單位時長的電池充放電邊界閾值；
8.通過所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所有所述電池充放電邊界閾值訓練預設策略網絡；
9.將所述主微電網的實時電量、所述副微電網的實時電量、所述外部電網實時電價和所述電池充放電邊界閾值輸入預訓練的所述預設策略網絡，輸出電力調度策略。
10.在一些實施例中，所述方法還包括：
11.獲取第二時間周期內的所述副微電網的發電量影響參數、所述主微電網耗電功率和所述副微電網耗電功率，其中，所述第二時間周期和所述第一時間周期是連續且時間跨度相等的兩個時間區間；
12.通過所述發電量影響參數、所述主微電網耗電功率和所述副微電網耗電功率訓練
預設預測模型；
13.將所述主微電網耗電功率、所述副微電網耗電功率和第一時間周期內的所述發電量影響參數輸入預訓練的所述預設預測模型，得到所述第一時間周期內的所述第一發電量、所述第一耗電量和所述第二耗電量；其中，所述預設預測模型用於根據第一時間周期內的所述發電功率影響參數、所述主微電網耗電功率和所述副微電網耗電功率預測所述第一時間周期內的所述第一發電量、所述第一耗電量和所述第二耗電量。
14.在一些實施例中，所述預設策略網絡包括第一網絡和目標網絡，所述第一網絡包括第一動作網絡和第一評價網絡，所述目標網絡包括目標動作網絡和預設目標評價網絡，所述通過所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所有所述電池充放電邊界閾值訓練預設策略網絡，包括：
15.將所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所述電池充放電邊界閾值輸入所述第一動作網絡，得到第一動作；
16.將所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價、所述電池充放電邊界閾值、所述第一動作輸入第一評價網絡，得到所述第一動作的獎勵值；
17.根據所述第一動作網絡的參數和所述第一評價網絡的參數優化所述第一動作網絡的參數；
18.根據所述第一評價網絡的參數、所述預設目標動作網絡的參數和所述預設目標評價網絡的參數優化所述第一評價網絡的參數。
19.在一些實施例中，所述根據所述第一動作網絡的參數和所述第一評價網絡的參數優化所述第一動作網絡的參數，包括：
20.通過隨機梯度優化所述第一動作網絡的參數；
21.所述隨機梯度是：
[0022][0023]
其中，是所述隨機梯度，θ
μ
是所述第一動作網絡的參數，θq是第一評價網絡的參數，q(s,a|θq)表示所述第一評價網絡中的q值函數，a是所述第一動作，s表示當前狀態，所述當前狀態包括所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所述電池充放電邊界閾值。
[0024]
在一些實施例中，所述根據所述第一評價網絡的參數、所述目標動作網絡的參數和所述預設目標評價網絡的參數優化所述第一評價網絡的參數，包括：
[0025]
通過預設損失函數更新所述第一評價網絡的參數；
[0026]
其中，所述預設損失函數是：
[0027]
l(θq)＝e
s，a，r，s
′
，d
(td
error
)2[0028]
td
error
＝[r+γq
′
(s
′
，π(s
′
|θ
μ
′
)|θq′
)]-q(s，a|θq)
[0029]
其中，θ
μ
′
是所述預設目標動作網絡的參數，θq′
是所述預設目標評價網絡的參數，q
′
(s
′
，π(s
′
|θ
μ
′
)|θq′
)表示所述預設目標評價網絡中的q值函數，γ是折扣因子，a是所述第一動作，s表示當前狀態，所述當前狀態包括所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所述電池充放電邊界閾值。
[0030]
在一些實施例中，所述電池充放電邊界閾值包括所述主微電網允許的最大容量和所述主微電網允許和最小容量，其特徵在於，所述將所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價、所述電池充放電邊界閾值、所述第一動作輸入第一評價網絡，得到所述第一動作的獎勵值，包括：
[0031]
通過如下獎勵函數確定所述獎勵值：
[0032][0033][0034]
其中，a
t
表示t時刻的所述第一動作，a1至a4分別是a
t
的四種取值，分別代表四種不同的所述第一動作，r
t
表示所述第一動作a
t
的獎勵值，k
dh
表示放電獎勵因子，kch表示充電獎勵因子，γ表示折扣因子，表示t時刻所述副微電網充放電電量，表示t時刻所述副微電網向所述主微電網輸入的電量，表示t時刻所述外部電網實時電價，s
t
表示t時刻所述主微電網的實時電量，表示t時刻所述主微電網允許的最小容量，表示t時刻所述主微電網允許的最大容量。
[0035]
在一些實施例中，所述方法還包括：
[0036]
將每個所述第一動作和對應的所述獎勵值構成回放經驗；
[0037]
將所有回放經驗構成經驗池；
[0038]
對所述經驗池中的所有所述回放經驗設置採樣權重，其中所述採樣權重表示從所述經驗池中選取回放經驗作為樣本訓練所述預設策略網絡時的優先級；
[0039]
根據所述採樣權重從所述經驗池中抽取所述回放經驗作為樣本訓練所述預設策略網絡；
[0040]
其中，所述採樣權重通過如下公式確定；
[0041][0042][0043][0044]
其中，其中，s是所述經驗池容量大小，β是控制矯正的範圍參數，wj表示第j條所述回放經驗的採樣權重；rank(j)是第j條回放經驗的排位，rank(j)根據第j條回放經驗對應
的所述第一評價網絡的參數、所述預設目標動作網絡的參數和所述預設目標評價網絡的參數確定；n是存儲在所述經驗池中的回放經驗的數量；ι為控制優先級的參數。
[0045]
本技術實施例的第二方面提出一種電子設備，包括：存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式，其特徵在於，所述處理器執行所述電腦程式時實現如第一方面實施例任意一項所述的電力調度方法。
[0046]
本技術實施例的第三方面提出一種車載微電網，所述車載微電網包括：
[0047]
主微電網，包括蓄電池、底盤負載、其中所述蓄電池向所述底盤負載供電；
[0048]
副微電網，包括光伏儲能模塊、至少一個冷鏈負載，其中，所述光伏儲能系統包括光伏發電系統和動力電池，所述光伏儲能模塊向所述冷鏈負載供電；
[0049]
決策模塊，所述決策模塊包括有如第二方面實施例所述的電子設備；
[0050]
其中所述主微電網和所述副微電網之間通電，所述主微電網和所述副微電網均與外部電網通電。
[0051]
本技術實施例的第四方面提出一種計算機可讀存儲介質，其特徵在於，所述一種計算機可讀存儲介質，其特徵在於，所述計算機可讀存儲介質存儲有一個或者多個程序，所述一個或者多個程序可被一個或者多個處理器運行，以實現如第一方面實施例中任一項所述的方法。
[0052]
本技術實施例提出一種電力調度方法、電子設備、車載微電網和計算機可讀存儲介質，方法包括：獲取第一時間周期內的副微電網的第一發電量、主微電網的第一耗電量和副微電網的第二耗電量，其中所述第一時間周期包括多個預設單位時長；根據所述第一發電量、所述第一耗電量和所述第二耗電量確定第一時間周期內的各個所述預設單位時長的電池充放電邊界閾值；通過所述主微電網的實時電量、所述副微電網的實時電量、外部電網實時電價和所有所述電池充放電邊界閾值訓練預設策略網絡；將所述主微電網的實時電量、所述副微電網的實時電量、所述外部電網實時電價和所述電池充放電邊界閾值輸入預訓練的所述預設策略網絡，輸出電力調度策略。通過根據第一時間周期內的發電量和耗電量，以此確定充電閾值和放電閾值，充放電邊界閾值用於從外部電網購電或向外部電網售電的閾值，再根據該充放電閾值以及主微電網和副微電網的實時電量以及外部電網的實時電價作為樣本訓練預設策略模型，再通過預訓練的預設策略模型根據充放電閾值、主微電網以及副微電網的實時電量以及外部電網實時電價生成電力調度策略，由此，實現根據實時電量微電網自身的耗電與發電量確定各單位時間的用電需求，並結合主微電網和副微電網實時儲電量，外部電網的實時電價確定電力調度策略，實現在滿足自身用電負荷需求的前提下在高電價時向外部電網售電，及時將多餘電量以高電價出售，並在低電價時從外部電網購電滿足自身用電負荷，有效提高光伏電動車電量利用率，降低車輛行駛成本。
[0053]
本技術的其它特徵和優點將在隨後的說明書中闡述，並且，部分地從說明書中變得顯而易見，或者通過實施本技術而了解。本技術的目的和其他優點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
附圖說明
[0054]
圖1是本發明一個實施例提供的一種電力調度方法的流程圖；
[0055]
圖2是本發明一個實施例提供的一種電力調度方法的子流程圖；
[0056]
圖3是本發明一個實施例提供的一種電力調度方法的子流程圖；
[0057]
圖4是本發明提出的一種車載微電網的結構示意圖；
[0058]
圖5是本發明一個實施例提供的一種電子設備結構示意圖。
[0059]
附圖用來提供對本發明技術方案的進一步理解，並且構成說明書的一部分，與本發明的實施例一起用於解釋本發明的技術方案，並不構成對本發明技術方案的限制。
具體實施方式
[0060]
為了使本技術的目的、技術方案及優點更加清楚明白，以下結合附圖及實施例，對本技術進行進一步詳細說明。應當理解，此處所描述的具體實施例僅用以解釋本技術，並不用於限定本技術。
[0061]
需要說明的是，雖然在裝置示意圖中進行了功能模塊劃分，在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同於裝置中的模塊劃分，或流程圖中的順序運行所示出或描述的步驟。說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象，而不必用於描述特定的順序或先後次序。
[0062]
除非另有定義，本文所使用的所有的技術和科學術語與屬於本技術的技術領域的技術人員通常理解的含義相同。本文中所使用的術語只是為了描述本技術實施例的目的，不是旨在限制本技術。
[0063]
此外，所描述的特徵、結構或特性可以以任何合適的方式結合在一個或更多實施例中。在下面的描述中，提供許多具體細節從而給出對本公開的實施例的充分理解。然而，本領域技術人員將意識到，可以實踐本公開的技術方案而沒有特定細節中的一個或更多，或者可以採用其它的方法、組元、裝置、步驟等。在其它情況下，不詳細示出或描述公知方法、裝置、實現或者操作以避免模糊本公開的各方面。
[0064]
本技術實施例的描述中，除非另有明確的限定，設置、安裝、連接等詞語應做廣義理解，所屬技術領域技術人員可以結合技術方案的具體內容合理確定上述詞語在本技術實施例中的具體含義。
[0065]
本技術實施例的第一方面提出一種電力調度方法，方法包括但不限於如下步驟s101至步驟s104。
[0066]
步驟s101，獲取第一時間周期內的副微電網的第一發電量、主微電網的第一耗電量和副微電網的第二耗電量，其中第一時間周期包括多個預設單位時長；
[0067]
步驟s102，根據第一發電量、第一耗電量和第二耗電量確定第一時間周期內的各個預設單位時長的電池充放電邊界閾值；
[0068]
步驟s103，通過主微電網的實時電量、副微電網的實時電量、外部電網實時電價和所有電池充放電邊界閾值訓練預設策略網絡；
[0069]
步驟s104，將主微電網的實時電量、副微電網的實時電量、外部電網實時電價和電池充放電邊界閾值輸入預訓練的預設策略網絡，輸出電力調度策略。
[0070]
在一些實施例中，第一時間周期可以是下一個24小時周期，預設單位時長是每個一小時的時長跨度，可以理解的是，汽車行駛在大多數情況下具有周期性，比如在特定時間段上班，特定時間段下班，其餘時間停放不動等，基於此，可以根據上一時間周期的電動車第一發電量、第一耗電量和第二耗電量預測下一時間周期的第一發電量、第一耗電量和第
二耗電量。
[0071]
在一些實施例中，第一時間周期內各單位時長的電動車發電量以及耗電量後，可以根據其功率平衡計算出電動車各個單位時長的充放電邊界閾值，具體的，即根據耗電量與發電量的差值，設置一定的數值波動區間，在電動車的實時儲電量高於該區間的上邊界閾值時認為電動車電量富餘，可以向外部電網售電，當電動車實時儲電量低於該區間的下邊界閾值時，可以認為電動車缺點，需從外部電網購電以滿足電動車符合需求。
[0072]
在一些實施例中，預設策略網絡可以是ddpg(deep determi ni st ic po l icy，深度確定性策略梯度)網絡，預訓練後的ddpg網絡可以與實時環境交互，獲取外部電網實時電價以更新狀態空間從而更新獎勵函數，根據獎勵函數計算動作空間內存儲的所有動作對應於該獎勵函數的獎勵值，從中選取獎勵值最高動作以確定下一時間點的最優動作。
[0073]
在本技術實施例中，通過預測第一時間周期的第一發電量、第一耗電量和第二耗電量並以此確定各個單位時長的充放電邊界閾值，以該充放電邊界閾值和外部電網的實時電價訓練預設策略模型，並將該充放電邊界閾值和外部電網實時電價輸入到預訓練的預設策略模型中，得到每個特定時間點的最優動作，從而確定電力調度策略，以此使電動車在保證自身行駛電力負荷需求下，在低電價且儲電量不足以支持電動車符合需求時從外部電網購電，在高電價且電動車發電量富餘時向外部電網售電，從而提高電動車用電效率，提高車載微電網的發電收益，降低電動車行駛成本。
[0074]
參照圖2，本技術實施例所提出的電力調度方法還包括但不限於如下步驟s201至步驟s203。
[0075]
步驟s201，獲取第二時間周期內的副微電網的發電量影響參數、主微電網耗電功率和副微電網耗電功率，其中，第二時間周期和第一時間周期是連續且時間跨度相等的兩個時間區間；
[0076]
步驟s202，通過發電量影響參數、主微電網耗電功率和副微電網耗電功率訓練預設預測模型；
[0077]
步驟s203，將主微電網耗電功率、副微電網耗電功率和第一時間周期內的發電量影響參數輸入預訓練的預設預測模型，得到第一時間周期內的第一發電量、第一耗電量和第二耗電量；其中，預設預測模型用於根據第一時間周期內的發電功率影響參數、主微電網耗電功率和副微電網耗電功率預測第一時間周期內的第一發電量、第一耗電量和第二耗電量。
[0078]
可以理解的是，其中第二時間周期和第一時間周期是連續且時間跨度相等的兩個時間區間，具體的，以時間跨度為24小時為例，第二時間周期和第一時間周期即是連續的前後兩天，以副微電網通過光伏發電產生發電量為例，發電量影響參數可以是第二時間周期內的天氣溼度、溫度、風速、地區輻射值等影響光伏發電效率的參數，可以通過對應的傳感器等獲取這些參數，預設預測模型可以是lstm(long short term memory，長短時記憶)模型，通過第二時間周期內的發電量影響參數、主微電網耗電功率以及副微電網耗電功率訓練該lstm模型，得到預訓練的預設預測模型後，預設預測模型可以根據發電量影響參數、主微電網以及副微電網的耗電功率預測第二時間周期內各單位時長的發電量和耗電量，鑑於電動車行駛具備周期性，即對車主而言，一般會在每天的固定時間用車，其餘時間停車的用戶習慣，基於此，可以將第二時間周期內各個單位時長的耗電量作為作為第一時間周期內
各個單位時長的耗電量，而預訓練的lstm模型可以根據發電量影響參數預測發電量，基於此，通過網絡數據或其它方式，比如天氣預報等，可以獲取第一時間周期內的發電量影響參數，基於此，即可預測第一時間周期內的第一發電量，由此，即可預測第一時間周期內的第一發電量、第一耗電量和第二耗電量。
[0079]
在本技術實施例中，通過第二時間周期的發電量影響參數、主微電網耗電功率和副微電網耗電功率訓練預設預測模型，在得到預訓練的預設預測模型後，根據主微電網耗電功率、副微電網耗電功率以及第一時間周期的發電量影響參數預測第一時間周期內的第一發電量、第一耗電量和第二耗電量，基於此，基於此，每天通過網絡數據獲取當天的發電量影響參數，再進一步預測當天發電量，可以提前考慮溫度、溼度、所在地區的太陽輻射等變量對發電量的影響，從而制定對應的電力調度策略。
[0080]
在一些實施例中，參照圖3，步驟s103包括但不限於如下步驟s301至步驟s304.
[0081]
步驟s301，將主微電網的實時電量、副微電網的實時電量、外部電網實時電價和電池充放電邊界閾值輸入第一動作網絡，得到第一動作；
[0082]
步驟s302，將主微電網的實時電量、副微電網的實時電量、外部電網實時電價、電池充放電邊界閾值、第一動作輸入第一評價網絡，得到第一動作的獎勵值；
[0083]
步驟s303，根據第一動作網絡的參數和第一評價網絡的參數優化第一動作網絡的參數；
[0084]
步驟s304，根據第一評價網絡的參數、預設目標動作網絡的參數和預設目標評價網絡的參數優化第一評價網絡的參數。
[0085]
在一些實施例中，預設策略網絡包括第一網絡和目標網絡，第一網絡包括第一動作網絡和第一評價網絡，目標網絡包括目標動作網絡和預設目標評價網絡。第一動作網絡用於根據主微電網實時電量、副微電網實施實時電量、外部電網電價以及電池的充放電邊界閾值輸出一個第一動作，比如根據上述參數判斷此時應該從副微電網向主微電網輸電，此即為第一動作，可以理解的是，第一動作網絡輸出的是一個值，比如a1，而該數值則表示副微電網給負載供電。而第一評價網絡用於確定第一動作網絡所輸出的第一動作的獎勵值，該獎勵值越高，則表示在當前時刻採取該第一動作的收益越大。預設目標動作網絡和預設目標評價網絡則是用於判斷第一動作網絡和第一評價網絡的優化程度，具體的，當第一評價網絡的參數與預設目標評價網絡的參數之間的差值越小，則說明第一評價網絡優化得越好。可以理解的是，預設目標動作網絡以及預設目標評價網絡沒間隔固定時間後會根據更新因子自動更新，具體的，參照如下公式：
[0086]
″
[0087]
θq′
←
αθq+(1-α)θq′
[0088]
θ
μ
′
←
αθ
μ
+(1-α)θ
μ
′
[0089]
在一些實施例中，可以通過隨機梯度優化第一動作網絡的參數；
[0090]
隨機梯度是：
[0091][0092]
其中，是所述隨機梯度，θ
μ
是第一動作網絡的參數，θq是第一評價網絡的參
數，q(s,a|θq)表示第一評價網絡中的q值函數，a是第一動作，s表示當前狀態，當前狀態包括主微電網的實時電量、副微電網的實時電量、外部電網實時電價和電池充放電邊界閾值。
[0093]
在一些實施例中，可以通過預設損失函數更新第一評價網絡的參數；
[0094]
其中，預設損失函數是：
[0095]
l(θq)＝e
s,a,r,s
′d(td
error
)2[0096]
td
error
＝[r+γq′
(s
′
,π(s
′
|θ
μ
′
)|θq′
)]-q(s,a|θq)
[0097]
其中，θ
μ
′
是預設目標動作網絡的參數，θq′
是預設目標評價網絡的參數，q
′
(s
′
,π(s
′
|θ
μ
′
)|θq′
)表示預設目標評價網絡中的q值函數，γ是折扣因子，a是第一動作，s表示當前狀態，當前狀態包括主微電網的實時電量、副微電網的實時電量、外部電網實時電價和電池充放電邊界閾值。
[0098]
在一些實施例中，電池充放電邊界閾值包括主微電網允許的最大容量和主微電網允許和最小容量，步驟s302包括：
[0099]
通過如下獎勵函數確定獎勵值：
[0100][0101][0102]
其中，a
t
表示t時刻的第一動作，a1表示副微電網給負載供電，a2表示光伏發電系統和副微電網同時給負載供電，a3表示光伏發電系統給副微電網供電的同時副微電網給負載供電，a4表示光伏系統給副微電網供電，r
t
表示第一動作a
t
的獎勵值，k
dh
表示放電獎勵因子，k
ch
表示充電獎勵因子，γ表示折扣因子，表示t時刻副微電網充放電電量，表示t時刻副微電網向主微電網輸入的電量，表示t時刻外部電網實時電價，s
t
表示t時刻主微電網的實時電量，表示t時刻主微電網允許的最小容量，表示t時刻主微電網允許的最大容量。
[0103]
可以理解的是，為降低電動車行駛成本，應在保持車載微電網儲電量足以支持電動車行駛的前提下，儘可能選擇在高電價時向外部電網出售剩餘電量，在低電價時從外部電網購電補充電量，基於此，將微電網收益公式設置為如下公式：
[0104][0105]
其中，n為時間序列的長度；t表示當前時刻；α為初始購入電量時的電價；為t時刻從副微電網向主微電網輸出電量時外部電網的電價；為t時刻主微電網輸入副
微電網時外部電網的電價；為初始購入電量；為t時刻副微電網輸入主微電網的電量；為t時刻主微電網輸入副微電網的電量。
[0106]
將副微電網的充放電方程設置為如下公式：
[0107][0108][0109][0110][0111]
其中，ηc□
表示電池充電效率；為t時刻充電功率；η
dc
為電池放電效率；為t時刻放電功率；為最大放電功率；為最大充電功率。
[0112]
將電動車的功率平衡約束設置為如下公式：
[0113][0114][0115]
其中，為t時刻光伏系統的發電量；為t時刻動力電池充放電電量；為t時刻負載的耗電量；為t時刻副微電網向主微電網輸入的電量。
[0116]
基於上述約束條件，可以得到獎勵函數如下：
[0117][0118][0119]
其中，a
t
表示t時刻的第一動作，a1至a4分別是a
t
的四種取值，分別代表四種不同的第一動作，r
t
表示第一動作a
t
的獎勵值，k
dh
表示放電獎勵因子，k
ch
表示充電獎勵因子，γ表示折扣因子，表示t時刻副微電網充放電電量，表示t時刻副微電網向主微電網輸入的電量，表示t時刻外部電網實時電價，st表示t時刻主微電網的實時電量，表示t時刻主微電網允許的最小容量，表示t時刻主微電網允許的最大容量。
[0120]
可以理解的是，副微電網包括光伏發電系統和動力電池，a1表示動力電池給負載供電，a2表示光伏發電系統和動力電池同時給負載供電，a3表示光伏發電系統給動力電池供電的同時動力電池給負載供電，a4表示光伏系統給動力電池供電。
[0121]
可以理解的是，預設策略網絡最後會通過上述獎勵函數，計算出t時刻每個動作的獎勵值，並將獎勵值最高的動作作為a
t
的取值輸出，基於此，即可確定出每個t時刻採取的
最優動作。
[0122]
在本技術實施例中，根據外部電網實時電價、車載微電網的充放電方程以及功率平衡約束條件計算在上述約束條件下的獎勵函數，通過獎勵函數確定每個特定時間點採取哪種動作可以使第一時間周期內電動車所獲得的收益最大，根據該獎勵函數計算每個t時刻採取特定動作時的獎勵值，獎勵值高則說明t時刻採取該動作能獲得較高收益，獎勵值低這說明t時刻採取該特定動作收益較低，基於此，通過第一評價網絡輸出的獎勵值確定第一動作網絡所採取的動作的收益高低，在每個t時刻均採取獎勵值高的動作，從而使車載微電網收益最大，降低電動車行駛成本。
[0123]
在一些實施例中，電力調度方法還包括：
[0124]
將每個第一動作和對應的獎勵值構成回放經驗；
[0125]
將所有回放經驗構成經驗池；
[0126]
對經驗池中的所有回放經驗設置採樣權重，其中採樣權重表示從經驗池中選取回放經驗作為樣本訓練預設策略網絡時的優先級；
[0127]
根據採樣權重從經驗池中抽取回放經驗作為樣本訓練預設策略網絡；
[0128]
其中，採樣權重通過如下公式確定；
[0129][0130][0131][0132]
其中，其中，s是經驗池容量大小，β是控制矯正的範圍參數，wj表示第j條回放經驗的採樣權重；rank(j)是第j條回放經驗的排位，rank(j)根據第j條回放經驗對應的第一評價網絡的參數、預設目標動作網絡的參數和預設目標評價網絡的參數確定；n是存儲在經驗池中的回放經驗的數量；ι為控制優先級的參數。
[0133]
其中，rank(j)根據第一評價網絡的參數、預設目標動作網絡的參數和預設目標評價網絡的參數確定，具體的，設第一評價網絡的參數為θq，預設目標動作網絡的參數為θ
μ
′
，預設目標評價網絡的參數θq′
，則第一評價網絡和預設目標評價網絡的td誤差為td
error
＝[r+γq
′
(s
′
,π(s
′
|θ
μ
′
)|θq′
)]-q(s,a|θq)，根據每條回放經驗對應的第一評價網絡的td誤差的大小對每條回放經驗進行進行排序從而確定每條回放經驗的排位rank(j)。
[0134]
在本技術實施例中，通過per(prioritized experience replay，優先經驗回放)改進訓練預設策略網絡時的回放經驗機制，通過以第j條回放經驗對應的第一評價網絡的參數與預設目標評價網絡的參數之間的td誤差確定第j條回放經驗的採樣權重，為td誤差小、即所對應的第一評價網絡與預設目標評價網絡較為接近的回放經驗設置較高的採樣權重，從而在從經驗池中採樣回放經驗訓練預設策略網絡時，會優先採樣權重高的回放經驗，而該部分回放經驗所對應的第一評價網絡與預設目標評價網絡之間的誤差較小，選用權重
高的回放經驗訓練預設策略網絡會使預設策略網絡的第一評價網絡更快收斂於預設目標評價網絡，基於此，可以有效加快模型訓練過程，提高訓練模型的效率。
[0135]
參照圖4，本技術實施例還提出一種車載微電網，包括：
[0136]
主微電網，包括蓄電池401、底盤負載402、其中蓄電池向底盤負載供電；
[0137]
副微電網，包括光伏儲能模塊、至少一個冷鏈負載411，其中，光伏儲能系統包括光伏發電系統412和動力電池413，光伏儲能模塊向冷鏈負載供電；
[0138]
決策模塊420，決策模塊包括有用於執行上述電力調度方法的電子設備；
[0139]
其中主微電網和副微電網之間通電，主微電網和副微電網均與外部電網通電。
[0140]
參照圖5，本技術實施例第五方面還提出一種電子設備500，包括：
[0141]
至少一個處理器，以及，
[0142]
與至少一個處理器通信連接的存儲器；其中，
[0143]
存儲器存儲有指令，指令被至少一個處理器執行，以使至少一個處理器執行指令時實現如本技術第四方面實施例中任一項的方法。
[0144]
下面結合圖5對電子設備500的硬體結構進行詳細說明。該計算機設備包括：處理器510、存儲器520、輸入/輸出接口530、通信接口540和總線550。
[0145]
處理器510，可以採用通用的中央處理器(central processing unit，cpu)、微處理器、應用專用集成電路(application specific integrated circuit，asic)、或者一個或多個集成電路等方式實現，用於執行相關程序，以實現本公開實施例所提供的技術方案；
[0146]
存儲器520，可以採用只讀存儲器(read only memory，rom)、靜態存儲設備、動態存儲設備或者隨機存取存儲器(random access memory，ram)等形式實現。存儲器520可以存儲作業系統和其他應用程式，在通過軟體或者固件來實現本說明書實施例所提供的技術方案時，相關的程序代碼保存在存儲器520中，並由處理器510來調用執行本公開實施例的電力調度方法；
[0147]
輸入/輸出接口530，用於實現信息輸入及輸出；
[0148]
通信接口540，用於實現本設備與其他設備的通信交互，可以通過有線方式(例如usb、網線等)實現通信，也可以通過無線方式(例如行動網路、wifi、藍牙等)實現通信；
[0149]
總線550，在設備的各個組件(例如處理器510、存儲器520、輸入/輸出接口530和通信接口540)之間傳輸信息；
[0150]
其中處理器510、存儲器520、輸入/輸出接口530和通信接口540通過總線550實現彼此之間在設備內部的通信連接。
[0151]
附圖中所示的流程圖僅是示例性說明，不是必須包括所有的內容和操作/步驟，也不是必須按所描述的順序運行。例如，有的操作/步驟還可以分解，而有的操作/步驟可以合併或部分合併，因此實際運行的順序有可能根據實際情況改變。
[0152]
本領域普通技術人員可以理解，上文中所公開方法中的全部或某些步驟、系統、設備中的功能模塊/單元可以被實施為軟體、固件、硬體及其適當的組合。
[0153]
本技術的說明書及上述附圖中的術語「包括」和「具有」以及他們的任何變形，意圖在於覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元，可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
[0154]
應當理解，在本技術中，「至少一個(項)」是指一個或者多個，「多個」是指兩個或兩個以上。「和/或」，用於描述關聯對象的關聯關係，表示可以存在三種關係，例如，「a和/或b」可以表示：只存在a，只存在b以及同時存在a和b三種情況，其中a，b可以是單數或者複數。字符「/」一般表示前後關聯對象是一種「或」的關係。「以下至少一項(個)」或其類似表達，是指這些項中的任意組合，包括單項(個)或複數項(個)的任意組合。例如，a，b或c中的至少一項(個)，可以表示：a，b，c，「a和b」，「a和c」，「b和c」，或「a和b和c」，其中a，b，c可以是單個，也可以是多個。
[0155]
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0156]
以上參照附圖說明了本技術實施例的優選實施例，並非因此局限本技術實施例的權利範圍。本領域技術人員不脫離本技術實施例的範圍和實質內所作的任何修改、等同替換和改進，均應在本技術實施例的權利範圍之內。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

電力調度方法、電子設備、車載微電網、存儲介質

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法