用於以計算機輔助方式探索技術系統的狀態的方法

2023-07-04 21:18:01 3

專利名稱：用於以計算機輔助方式探索技術系統的狀態的方法
技術領域：
本發明涉及一種用於以計算機輔助方式探索技術系統的狀態的方法以及一種相對應的電腦程式產品。
背景技術：
從現有技術中公知各種方法，其中在考慮預先確定的準則的情況下以計算機輔助方式使技術系統的動態時間特性最優。這些方法的例子是基於技術系統的已知數據學習該系統的最優調節的學習方法。該技術系統在這種情況下通過表示技術系統的可測量的狀態量、諸如如壓力、溫度、功率等等的物理量的狀態來描述。此外，在該技術系統中定義了如下動作，所述動作描述了技術系統上的確定的調節量的變化，諸如閥門位置的變化、壓力的提高等等。通過動作將技術系統的狀態轉移到新的後繼狀態。已知的學習方法在此學習最優的動作選擇規則，該最優的動作選擇規則針對技術系統的每個狀態確定最優的動作，用於將系統轉移到新的狀態。每個動作在這種情況下例如通過回報或者懲罰、尤其是在包括成本函數在內的情況下被評估，其中藉助評分(Bewertimg)可以實現技術系統的最優的動態特性。適當地確定技術系統的最優特性的基礎在這種情況下是技術系統的良好探測的狀態空間形式的良好的資料庫。因此必須存在狀態、動作和後繼狀態形式的關於技術系統的多個合適的數據。在這種情況下存在如下問題在探索狀態空間時，為了確定合適的數據庫可以採取要被分級為不安全的狀態，即該狀態可能直接地或間接地引起對技術系統的損害或引起其故障工作。

發明內容
因此，本發明的任務是提出一種用於以計算機輔助方式探索技術系統的狀態的方法，利用該方法避免採取不安全的狀態並且同時經歷狀態空間使得提供了良好的資料庫用於執行接下來的用於確定技術系統的最優的調節的方法。該任務通過獨立權利要求來解決。本發明的擴展方案在從屬權利要求中被限定。在根據本發明的方法中，相繼地經歷技術系統的狀態，其方式是在技術系統的相應狀態中執行引起新狀態的動作。在此，使用了安全函數(Sicherheitsfimktion)和反饋規則(Rueckfuehrungsregel)。藉助安全函數，在執行引起未知的、從前還未經歷的狀態的動作之前確定相應的動作是技術系統中的允許的還是不允許的動作，其中只有當所述動作是允許的時才執行所述動作。因此，安全函數保證只有當未知的狀態根據預先給定的準則被分級為安全的時候，才探索所述未知的狀態。除了安全函數以外，此外還在根據本發明的方法中使用反饋規則，其中在達到技術系統的未知的、從前還未經歷的狀態時基於該反饋規則選擇隨後的動作。該反饋規則用於將技術系統的狀態引回到已知的狀態。利用該反饋規則保證，技術系統的狀態從新的未知的狀態再次返回到已知的狀態區域中。由此避免技術系統的狀態通過動作移動到可引起對技術系統的損害的狀態區中。
根據本發明的方法具有如下優點通過使用安全函數和反饋規則提供了合適的機制，利用這些合適的機制實現了對狀態空間的全面的探索，其中儘可能避免了執行不允許的動作的危險。在根據本發明的方法的優選的實施形式中，不允許的動作被表徵為使得在執行不允許的動作時技術系統以為一的概率或者以大於零的概率到達如下狀態該狀態直接在執行不允許的動作之後或者間接地在執行另外的動作之後引起技術系統的不希望的或有故障的工作狀態。不希望的或有故障的工作狀態在此尤其是導致對技術系統的損害或損毀的狀態。在根據本發明的方法的另一實施形式中，即使在該技術系統中達到其中要執行的動作根據安全函數被分級為不允許的狀態時，才應用反饋規則。由此，進一步改進了對狀態空間的安全探索。在另一實施形式中，所執行的動作分別根據其中執行動作的狀態並且根據通過動作所達到的新狀態以評分來進行評估，其中這些評分尤其是也用於在對狀態進行探索之後學習用於基於所經歷的狀態和所評估的動作調節或控制技術系統的方法。優選地，藉助評分也將動作分類為不允許的，其中其評分小於預先確定的值的動作被分級為不允許。在根據本發明的方法的另一改進方案中，也基於對動作的所確定的評分來學習安全函數。優選地，給所經歷的包含狀態和在該狀態下執行的動作的對分別分配有最小評分，該最小評分出現在執行動作之後和出現在接著經歷針對動作的反饋規則時，其中基於最小評分確定安全函數，並且其中當最小評分小於預先確定的值時，該安全函數接著確定不允許的動作。由此以合適的方式保證了在狀態下執行的動作既不直接地也不間接地引起技術系統的不希望的或有故障的工作狀態。在本發明的優選的變形方案中，安全函數利用函數逼近器來確定，該函數逼近器基於圍繞恰好要隨著動作改變的狀態的局部外插來逼近最小評分。尤其是，函數逼近器執行局部線性的和/或局部二次的外插。在實施形式中，根據本發明所使用的反饋規則可以是針對該技術系統預先給定的規則。尤其是，反饋規則可以基於技術系統的已經現有的調節器。代替預先給定的規則或除了預先給定的規則之外，也可以利用強化的、考慮動作的評分的學習方法來確定反饋規則。強化的學習方法在此優選地基於最優性準則，根據該最優性準則使所有將來的評分的期望值的最小值最大化。以這種方式保證了利用反饋規則快速地返回到已知且安全的狀態。為了通過執行狀態中的所有可能的動作來實現對狀態的基本上完整的探索，在特別優選的實施形式中，在經歷這些狀態時，給這些狀態如下地分配相繼的類別i)如果狀態基於反饋規則被改變，則給通過動作達到的未知的、從前還未經歷的狀態分配有在執行該動作之前分配給該狀態的類別。ii)在所有其它情況下，給通過動作達到的未知的、從前還未經歷的狀態分配有跟隨在執行該動作之前分配給該狀態的類別的類別。狀態優選地按類別來經歷，使得在一個類別中首先探索所有可能的要執行的動作並且接著轉變到下一類別。概念「動作的探索」在這種情況下意味著該動作被執行或者被分級為不允許的。
在優選的實施形式中，在使用類別的情況下使用基於圖形的路徑發現方法，用於經歷狀態和可能的動作。在該方法中，在經歷狀態期間建立圖形，該圖形的節點對應於所經歷的狀態而其稜邊對應於所執行的動作，並且在該圖形中為每個節點存儲了相對應的狀態的類別，其中在達到其中已經探索、即執行所有可能的動作和/或利用安全函數將所有可能的動作分級為不允許的動作的狀態時，在該圖形中搜索至相同類別中的其中還可以探索動作的狀態的路徑，並且在找到這種路徑時通過該路逕到達該狀態。在沒有發現至相同類別中的其中還可探索動作的狀態的路徑的情況下，經歷後續類別的狀態。
可替換於基於圖形的路徑發現方法或除了基於圖形的路徑發現方法之外，也可以使用強化的學習方法來發現路徑。在此，一個類別的狀態利用強化的學習方法基於回報函數(Belohnugsfimktion)來經歷，其中當動作引起在恰好經歷的類別中的其中還可能探索至少一個動作的狀態時，根據回報函數為該動作分配回報。優選地，在強化的學習方法中，動作選擇規則在經歷預先確定數目的狀態之後被更新，其中在更新時考慮新添加的動作和其中執行相應的新添加的動作的相應的狀態以及通過動作所達到的新狀態。也為了利用根據本發明的方法來處理大的狀態空間，在優選的實施形式中，在基於圖形的學習方法中和/或在強化的學習方法中將技術系統的相似的狀態匯總成共同的群集。在使用類別的情況下，優選地不僅在達到未知的狀態時應用反饋規則，而且在達到跟隨恰好要經歷的類別之後的類別的狀態時應用反饋規則。在另一改進方案中，經歷根據反饋規則的狀態直至達到恰好要經歷的類別的狀態。在使用類別的情況下，該方法優選地被啟動來使得首先在不考慮安全函數的情況下經歷根據反饋規則的狀態並且在此給這些狀態分配相同的類別，其中經歷這些狀態直至不再拋棄確定數量的狀態，並且其中接著在考慮安全函數的情況下到達未知的、從前還未經歷的狀態，其中給該狀態分配隨後的類別。根據本發明的方法尤其是在技術系統的真實工作中被採用。必要時，該方法也可以在對技術系統的工作的仿真中被使用。在特別優選的實施形式中，該方法被用於探索燃氣輪機的狀態。燃氣輪機的狀態和/或分配給這些狀態的動作優選地包括一個或多個如下的量燃氣輪機的總功率；對燃氣輪機的燃料供給；燃氣輪機中的或者在燃氣輪機的環境中的一個或多個壓力和/或溫度；燃氣輪機的蜂鳴音(Brummen)；燃氣輪機中的燃燒室加速；燃氣輪機上的一個或多個調整參數、尤其是閥門調整和/或燃料比和/或進口導向葉片的調整。除了上面所描述的方法之外，本發明此外還包括電腦程式產品，其具有存儲在機器可讀的載體上的程序代碼，用於當程序運行在計算機上時執行根據本發明的方法。

以下參照所附的附圖詳細地描述了本發明的實施例。其中圖1示出了闡述了根據本發明的方法的實施形式的可能組合的示意圖；圖2示出了用於基於基準問題(Benchmark-Problem)測試根據本發明的方法的實施形式的評估函數(Bewertungs-Funktion)的三維圖；圖3示出了闡述了按照根據本發明的方法的實施形式的備份策略 (Backup-Policy)的學習的圖形；以及圖4示出了闡述了基於基準問題的根據本發明的方法的結果的圖形。
具體實施例方式以下所描述的根據本發明的方法的實施形式涉及對包含技術系統的多個狀態的狀態空間進行探索，其中應基於所謂的強化學習(Reinforcement-Learning)根據預先給定的狀態來學習最優的動作選擇規則。根據該規則，在對技術系統的工作進行仿真時或者在真實工作中以適當的方式從技術系統的狀態出發來選擇最優動作，該最優動作引起技術系統的接下來的狀態。利用該動作選擇規則，根據預先給定的準則最優地選擇技術系統的工作狀態，例如這些狀態可被選擇為使得出現技術系統的最好的效率或者技術系統的最低的磨損。在這裡所描述的實施形式中，藉助所謂的回報函數(Reward-Fimktion)來描述最優的動作選擇規則，該回報函數根據其中執行動作的狀態以及由此得到的後繼狀態來將回報Rs,s, 3分配給所執行的動作，該回報Rs, s, a對應於權利要求意義上的評分。強化學習在現有技術中已充分公知並且是一種用於解決最優控制問題的機器學習的方法。如上面已解釋的那樣，利用強化學習(下面也稱作RL方法)來識別動作選擇規則(以下也稱作策略(Policy))，該動作選擇規則最優地在預先給定的環境之內控制執行這些動作的所謂的主體(Agent)。在這裡所描述的實施形式中，該策略被限定成馬爾可夫(Markov)決策過程，該馬爾可夫決策過程包括狀態空間S、大量動作A和動態性。後者由從當前狀態s至新的後繼狀態s'以及引起後繼狀態s'的動作a的轉移概率得到。在每個相對應的轉移中，主體獲得上面已提及的回報。
該回報同樣遵循分布並且僅僅在特定情況下是確定性的，使得R表示函數。通常，感興趣的是在策略空間π en, π —A上使折扣值函數(diskontierende ValueFunction) 最大化，其中針對所有狀態s的折扣因子O < Y < 1。作為中間步驟使用所謂的 Q函數該Q函數與狀態和動作有關。在這種情況下，V* =Vπopt被限定為最優的值函數並且相對應地被限定為最優的Q函數。上述方程表示本領域技術人員公知的貝爾曼(Bellman) 最優性方程，該貝爾曼最優性方程的解提供了最優策略η (s) = argmax, Q*(s，a)。上面所描述的RL方法能夠根據合理數目的相互作用來使諸如燃氣輪機的複雜的技術設備最優化。為了實現上述RL方法所需的是為了學習該方法已經存在以包括狀態、動作、後繼狀態和評分的元組為形式的、預先確定數量的數據記錄，以便基於這些數據記錄來執行學習。根據本發明的方法關注的是以適當的方式生成用於學習的數據記錄，其中該生成藉助通過執行相對應的動作對技術系統的狀態的狀態空間進行探索來實現。由於在對狀態空間進行探索時尚未已知技術系統的特徵，所以能保證的是不執行不允許的動作，這些不允許的動作在技術系統中是不希望的並且尤其是可引起對系統的損害。此外，利用探索方法應能夠實現經歷如下狀態空間，在該狀態空間中大數目的不會引起對技術系統的損害的安全狀態被採用。以下所描述的實施形式能夠實現這種對技術系統的狀態空間的安全探索。以下所描述的方法的兩個主要組成部分是安全函數和備用策略。安全函數具有確定狀態-動作對是否安全的任務，而備用策略應將臨界的或者未知的狀態引回到安全的並且已經已知的狀態。為了將這兩個組分相聯繫，在以下所描述的根據本發明的方法的實施形式中使用了所謂的基於水平的探索方案，該探索方案將狀態劃分成彼此相繼的水平的序列的水平。在該方法中使用的安全函數必須針對狀態_動作對發表關於其安全狀態的觀點，該安全狀態能被劃分成「安全的」、「臨界的」和「超臨界的」類別。此外，動作可以被劃分成「致命的」和「非致命的」類別。如果適用其中τ是預先確定的邊界值)，則存
在用於從狀態S過渡至狀態S'的非致命動作。而如果適用，則動作是致命的。如果針對所有在一個狀態下能被執行的動作a存在策略P(對於其適用
R≥T)，則狀態被分類為安全W。臨界狀態是其中存在雲力作使得以概率
Psas『 > ο達到超臨界的後繼狀態S'的狀態。超臨界狀態在這種情況下是如下狀態在該狀
態中，對於所有在該狀態下被執行的動作，所有隨後的策略也在任何位置引起致命轉移，以所述所有隨後的策略可以經歷這些狀態。也就是說，對於在超臨界狀態下的所有動作a適用從上述對安全的、臨界的和超臨界的定義得到主體從臨界狀態(在安全地執行隨後的動作的情況下)又可轉化成安全狀態。此外，分級為安全的動作(即其後繼狀態是安全的)可以在狀態空間的探索中始終被執行，因為該動作始終具有大於τ的回報。如果出現值在邊界值τ之下的回報，則這在通常情況下引起對技術系統的損害或者引起技術系統的有故障的工作。安全函數的問題的不重要的解決方案在於預先定義該安全函數。然而，這以關於 RL環境的詳細了解為前提，然而詳細了解大多不存在。因而需要的是從已經存在的探索數據、即從對(s，a, r, s')元組形式的狀態過渡的觀察中學習安全函數。在此，r標明針對動作a被給予的回報，該動作a將狀態s轉化成狀態s 』。在以下所描述的本發明的實施形式中，使用安全函數，該安全函數避免了不安全的動作，所述不安全的動作直接地或間接地在其執行之後引向致命狀態。對此，考慮了下面還將進一步描述的備用策略。當在探索狀態空間時達到了技術系統的未知的、從前還未經歷的狀態時，始終採用該策略。在這種情況下，基於在權利要求中通常稱作反饋規則的備用策略執行動作，使得又返回至已知的、從前經歷過的狀態。安全函數在以下所描述的實施形式中被實現為回報的最小估計(最小回報估計)。該估計在於估計在狀態s下執行動作a並且遵循該備用策略之後獲得的最小回報。尤其是，安全函數基於以下兩個步驟來確定1.在探索期間，收集(s，a，rmin)形式的最小回報樣本。在此，(s,a)標明在狀態s 下執行動作a並且rmin標明在備用軌跡(Backup-Trajektorie)上的所觀察的最小回報，該備用軌跡緊接著轉移由備用策略生成。2.基於在探索期間所收集的樣本來學習函數逼近器，該函數逼近器從狀態-動作對映射到期望的最小回報—最小回報樣本與所使用的備用策略有關。類似地，當在狀態s下執行動作a並且接著遵循策略η時Q函數(T (s，a)的值如何提供將來的回報的期望的(已打折扣的)總和，當在狀態s下執行動作a並且此後遵循備用策略時，Rfflin(s, a)提供了期望的最小回報。備用策略具有如下任務當在執行該方法時所使用的主體因為其處於新狀態而不再可以做出安全決策時將該主體引回到已知的區域中，在所述新狀態下，該主體不能足夠良好地估計各個動作的安全性。在此，備用策略本身不允許引導至臨界狀態。這例如通過如下方式來實現備用策略接近可能的固定點或者嘗試停留在狀態空間的確定的區域中。對於在真實工作中的已經在沒有強化學習的情況下被驅動的技術系統，常常已經存在如下調節器只要該調節器處於安全的情況並且不引起致命轉移，該調節器就可以被用作預先詳細說明的備用策略。如果還不存在這種調節器，則需要從已經存在的探索數據、即從已經存在的(s，a,r, s')元組中學習備用策略。如上面所闡明的那樣，動作的安全性通過相對應的回報來表達，其中回報小於邊界值τ的動作對應於致命的轉移。在從探索數據中學習備用策略時，備用策略因此必須考率回報。在本發明的可能的變形方案中，備用策略藉助通用的RL方法來確定，其中然而現在並不使用開頭所定義的值函數，因為由此確定的最優策略通常也不是同時安全的。此外，主觀想像上最優的並且安全的策略可能由於生成中的錯誤而是不安全的。為了使這一點得到保障，使回報的最小值的期望值而不是回報的總和的期望值最大化。相對應的貝爾曼最優性方程內容如下在此省去了折扣因子Y，因為通過目標函數的變形不再存在發散和的問題。當針對給定的RL問題確定適當地滿足該方程的時，由此能確定關於ρ-的貪
婪策略;Twk，該貪婪策略力求避免低的回報。如果策略在任何狀態下都執行具有最大的Q值的動作，則該策略在此是貪婪的(greedy)。類似於也可以確定最優策略的Q函數那樣，這種滿足上述方程(1)的最大-最小Q 函數例如能夠利用在現有技術中公知的動態編程來確定。然而，在此不存在唯一的檢驗點，因為大約Q =-⑴是儘管不希望但是允許的解。利用Q =⑴進行初始化保證了達到正確的解，因為在第一迭代步驟中使用最小值的回報而不使用最初的Q值。為了確定上面所描述的備用策略，可以使用任意的在現有技術中公知的RL方法，尤其是上面已提及的動態編程、神經適配的Q迭代(NFQ，Neural Fitted Q-Iteration)以及基於遞歸神經網絡的方法，這些方法例如被描述在專利申請DE 10 2007 001 025.9中。
為了創建一種多個探索數據形式的儘可能廣泛的資料庫，採用了所謂的基於水平的探索。在這種情況下涉及逐步探索，所述逐步探索緩慢地從狀態空間的已知為安全的區域中去除執行的主體並且首先嘗試收集儘可能多的局部觀察。對此，給每個狀態s分配水平1 e N(N =自然數的數量)。從探索在安全區域中開始出發，針對開始狀態Stl設置水平 Ks0) =O0如果在探索期間進入迄今未知的狀態Si，則其水平被設置為I(Si) =1(8^+1, 其中I(Sg)對應於前任狀態的水平。如果在遵循備用策略時進入新的狀態Si,則其水平 1 (Si)被前任狀態的水平接管，也就是說適用1 (Si) = 1 (Si^1)。這通過對備用策略的遵循不引起安全性的惡化來激發。基於該水平概念，探索如下進行-以水平I(Stl)= 0開始，為每個在技術系統中已知的狀態都分配水平。-維持當前要探索的水平1。，其中1。=0在開始時被初始化。探索的目標是分別針對水平1。，在水平1。所對應的所有狀態下，只要動作的執行被估計為是安全的，就執行所有在那裡可能的動作。如果完整探索當前水平的所有狀態，則提高1。。-探索繼續直至滿足中斷準則為止，所述中斷準則諸如是對全部可安全探索的區域的完整探索。然而，在實踐中，這常常幾乎不能被實現，因此達到所希望的最小性能是更合乎目的的。為了可以以這種方式和方法來進行探索，需要有針對性地接近狀態的可能性。在執行該方法的主體在達到具有提高的水平的新狀態之後遵循該備用策略之後，該主體遲早又到達已知狀態。從那裡開始，必須存在達到當前水平的狀態的可能性。以下描述了兩種方法如何可以以合適的方式達到一個水平的所有已知的狀態並且因此可以執行一個水平中的所有可能的動作。第一方法是基於圖形的路徑發現，該基於圖形的路徑發現可以在確定性的RL問題中找到任意的已知的狀態。該方法基於如下構思在探索期間建立其節點表示狀態而其稜邊表示所執行的動作的圖形。除了狀態之外，在節點上註明狀態的水平。該方法的特徵在於如下步驟-當在當前狀態下不再探索動作時，在圖形中搜索如下狀態該狀態的水平對應於當前要探索的狀態並且針對該狀態存在尚可安全探索的動作。如果未發現這種狀態，則提高當前要探索的水平並且使該探索停止。_為了發現從當前狀態至要探索的狀態的路徑，執行該圖形上的廣度優先搜索 (Bereitensuche)。通過執行利用其沿著所發現的路徑的稜邊被標記的動作從當前狀態到達目的地狀態。上述方法不適於包括多餘數千個狀態的技術系統。在合理的計算時間內，僅可以完整探索低的二位水平。因此，在基於圖形的路徑發現的優選的實施形式中將相鄰的狀態適當地匯合成群集。在該基於圖形的方法的上下文中，群集因此對應於圖形中的節點。通常，馬爾科夫條件在此被違反，使得依據應用情況必須發現在計算開銷與問題的可解決性之間的合適的折衷。用於探索一個水平的狀態的第二方法在於藉助強化學習的路徑發現。該方法也可以在隨機情況下被採用，並且在這種情況下可以使用通用的RL方法，例如相對於備用策略的學習所述的方法之一。對此，定義了馬爾科夫決策過程，該馬爾科夫決策過程的狀態對應於預先定義的群集。現在，如果R'是所追求的狀態，則定義回報函數乂。= 1，否則
= 0。對於這樣定義的RL問題確定了最優策略並且遵循該最優策略直至達到所希望的群集。也可能的是，將多個群集定義為目標。在這種情況下，所述策略會嘗試達到最接近當前群集的群集。下面描述了算法的實施形式，該算法的實施形式再現了藉助強化學習的路徑發現的整個方法。在這種情況下學習並且更新強化學習的策略，其中對策略的更新在執行確定數目的動作之後進行。用於強化學習的算法包括如下步驟默認設置在開始存在(s，a, s')元組形式的觀察列表0。Z標明目標群集的集合，也就是通過路徑發現達到的並且包含其中還可以執行可能的動作的狀態的那些群集。N標明其後要更新用於進行路徑發現的策略的動作的數目。m是其後必須達到目標群集(中斷準則) 的動作的最大數目。首先如下初始化該方法確定回報函數, 根據ο確定轉移概率的估計τ。求解通過T和R定義的RL問題，由此獲得策略JI ω。接著基於如下步驟進行用於進行路徑發現的策略應用設置c:=0以重複循環執行如下步驟重複如果 c > 0 Λ c mod η = 0，貝Ij基於0更新估計T ；求解通過T和R定義的RL問題並且由此獲得更新過的策略π ω結束該假設條件(利用上述假設條件來更新策略。)確定如下定義S:=當前狀態；a = π ω (s)；執行動作s並且如下來更新s':=當前狀態；將(s，a，s')附加於0;c = c+1 ；
檢查是否達到最大數目的動作，更確切地說如下如果c = m，則返回「假」(即路徑發現不成功)；
結束假設條件重複所述重複循環的上述步驟，直至適用s' e Z如果滿足條件s' e Z，則路徑發現成功並且返回值「真」。上面所描述的用於執行根據本發明的探索方法的可能變形方案在根據圖1的圖中再一次被闡述。該方法通過主體AG來執行並且不僅使用安全函數SF、探索策略ES而且使用備用策略BP來執行該方法。安全函數在此利用上面所描述的最小_回報估計來逼近，其中尤其是使用局部二次逼近。必要時，該逼近也會利用神經網絡(例如多層-感知器)來執行。探索策略ES嘗試在一個水平之內執行所有可能的動作。在此可以使用上面所描述的基於圖形的路徑發現或藉助強化學習的路徑發現。作為備用策略BP可以採用現有的調節器，或者備用策略可以利用強化學習方法來學習。根據本發明的方法的實施形式由本發明人來實施並且在以已知的基準問題BurnSim為形式的示例性的測試環境上來測試。環境 BurnSim在圖1中通過附圖標記BS來說明。示例性地，在此，BurnSim問題的狀態被標明為 s、s'而所執行的動作被標明為a。s'在此是在執行動作a時源於狀態s的後繼狀態。以下闡述了用於測試根據本發明的方法的基準問題BurnSim。根據本發明的方法的實施形式針對該問題被實施並且用實驗方法來調查。BurnSim問題通過在調節燃氣輪機時真實出現的問題來激發。最優地驅動汽輪機指的是，該汽輪機以儘可能高的功率行駛。然而，在汽輪機的高功率區域中，在燃燒室中出現了不希望的動態性，其也被稱為「蜂鳴音」(英語humming)。當該蜂鳴音變得過強時，會引起對汽輪機的損害。基於該原因，目標是以儘可能高的功率驅動燃氣輪機並且同時注意蜂鳴音不變得過強。在BurnSim問題中的技術系統的狀態空間是二維的並且內容如下S = {(f, h) |f e
遵循備用策略直至該備用策略達到並且不再拋棄固定點或者狀態空間的確定區域。只要備用策略並非已經執行了一個狀態中的所有可能的動作，所有在此所訪問的狀態就獲得水平0並且被記入具有還要探索的動作的狀態的列表中。3.探索步驟探索策略選擇要探索的動作。如果在當前狀態下沒有動作要探索(或者因為已經全部被探索，或者當前狀態的水平並不對應於當前要探索的水平)，則該探索策略生成需要的動作，通過這些需要的動作，主體到達具有當前要探索的動作的狀態中，以便接著選擇在那裡要探索的動作。在執行動作之前，主體藉助安全函數檢驗其安全性。如果動作被估計為是安全的，則執行該動作。否則，該動作被標記為是不安全的並且使用備用策略來返回到安全區域中。對於在執行探索步驟時達到新的、迄今未知的狀態或者達到水平比當前要探索的更高的已知的狀態的情況，同樣使用備用策略。4.藉助備用策略來返回如果進入新狀態或者水平比當前要探索的更高的狀態，則使用備用策略來返回到已知的區域中。在最簡單的情況下，在此使用備用策略直至達到水平為0的狀態。5.水平提高當在當前水平的所有狀態下的所有安全動作都被探索時，提高水平並且探索以步驟3來繼續。6.探索結束當執行了所有狀態下的全部安全動作時或者當滿足中斷準則時，探索結束。這可以是達到最大水平。同樣可能的是，基於已經收集到的觀察來確定最優策略並且確定其性能。當該策略已達到所希望的質量或者該策略隨著進一步的觀察基本上不再改變時，可以結束探索。以下描述了對於BurnSim問題如何確定安全函數。為了實現安全函數，局部二次地逼近最小回報函數。由於此原因，最小回報函數的估計線性地被實現在特徵空間中，其中&作為燃料供給而、作為相應的轉移i的蜂鳴音。在此形成的特徵矩陣最後利用最小二乘方w = (Xlrfy的方法來逼近所觀察的最小回報
默認情況下，考慮十個最近的近鄰。如果特徵空間不完全張開，即xTx不是正則的，則包括其它近鄰。在超過COnd(XTX) > 1000時，呈現X的奇異性。
在BurnSim問題中，在一個實施形式中，事先已知的標準調節器被用作備用策略。該調節器提供以下備用策略該調節器力求關於燃料供給的固定區域之下的狀態並且因此引起蜂鳴音的持續降低。如果備用策略事先是未知的，則該備用策略必須在使用在過去描述的RL方法的情況下從已經存在的觀察中進行學習，該RL方法代替回報的總和的期望值使回報的最小值的期望值最大化。在針對BurnSim問題實施的實施形式中，在此受所謂的學徒式學習的構思鼓動地從如下軌跡中獲得觀察，該軌跡已預先給定了所謂的教師。教師軌跡因此是(s， a,r, s')元組構成的初始數據集，利用該初始數據集通過RL方法來學習備用策略。圖3示出了一圖形，在該圖形上沿著橫坐標繪製燃料供給f而沿著縱坐標繪製蜂鳴音h。在該圖形中，再現了教師軌跡T。該軌跡包括所有對於安全備用策略所需的觀察。尤其是，在f = 0. 5的右邊的區域中的觀察是重要的，以便可以學習在那裡燃料供給降低 (decrease)是安全的動作。此外，在圖3中也通過相對應的在相應的狀態下要執行的動作表示所學習的備用策略。在這種情況下，朝向左邊的三角性D代表降低燃料，圓形K代表保持燃料而指向右邊的三角形I代表提高燃料。由於在教師軌跡中僅僅存在數目一目了然的狀態，所以可能的是將這些狀態理解為是離散的並且基於表格地在應用貝爾曼最優性方程(參見方程(1))的變形方案的情況下確定Q函數。此外，其轉移並不由教師執行的非確定性的Q值事後被設置到-⑴，使得基於得到的Q函數的策略也可以從不執行該動作。這是需要的，以便可以保證安全性。Q函數僅針對狀態空間的數個狀態包含條目。然而，備用策略必須可為整個狀態空間的所有狀態提供動作。這通過簡單的最近近鄰生成來實現，對於該最近近鄰生成，在給定的狀態s，在Q中搜尋其距s的歐幾裡得的距離最小的狀態§。如已經提及的那樣，圖3示出了所使用的教師軌跡以及得到的策略。僅僅對於軌跡的點，Q函數包含條目，針對所有其它點，根據最近的近鄰的Q值來選擇動作。認識到的是在幾乎所有情況下，選擇將燃料供給朝著0. 5方向改變的動作。當教師軌跡針對一個狀態僅包含一個動作時，所學習的策略也針對該狀態和其近鄰選擇該動作，即使該動作在使最小回報最大化的意義上並非是最優的。該效應尤其是在f < 0. 3並且h 0. 4 (動作「保持」)的區域中以及在0. 65≤f≤0. 85並且h≤0.1 (動作「提高」)的區域中可以觀察到。然而在這兩種情況下，錯誤特性是非臨界的在f < 0. 5的區域中執行「保持」引起蜂鳴音的降低；在其它所述區域中的期望的「提高」是毫無問題的，因為絕不會進入狀態空間的該區域。在實施根據本發明的針對BurnSim問題的方法時，採用了對於探索策略所需的路徑發現的兩個實現方案。一方面，使用了基於圖形的通過在圖形中廣度優先搜索的路徑搜索，而另一方面，執行了通過對路徑發現RL問題的定義和求解的搜索。對於基於圖形的方法，狀態空間通過以下方式人為地被縮小在BurnSim實施方案中，在每個步驟之後，蜂鳴音被四捨五入到1/50的精度。因此，RL問題本身改變。在真
16實的問題中，縮小這種形式的狀態空間是不可能的。替換於基於圖形的路徑搜索，藉助強化學習的路徑發現方法被遵循，其中狀態被聚集成群集。該聚集在此如下地進行-由於燃料供給可以提高和降低僅僅0.05並且始終保持在[0，1)區間中，所以燃料供給的狀態可以採取僅僅20個離散值。-而蜂鳴音採取連續值。為了聚集狀態，蜂鳴音被四捨五入到1/50的精度。在此，不涉及RL問題的改變，即BurnSim問題本身保持不變。例如狀態Sl = (f = 0. 25 ；h = 0. 1239)和s2 = (f = 0. 25 ；h = 0. 1277)是BurnSim中的兩個不同的狀態。然而，兩者屬於所聚集的狀態§丨=(f = 0. 25; h= o. 12)。根據與基於圖形的變形方案相同的原理在這樣聚集的狀態上執行探索。圖4示出了基於BurnSim執行的對狀態空間的探索的仿真的結果。在此，在圖4中沿著橫坐標再現了燃料供給f而沿著縱坐標再現了蜂鳴音h。通過線LI1再現了基於強化學習的路徑發現的探索界限，通過線LI2再現了以基於圖形的路徑發現為基礎的探索界限並且通過線L3再現了回報t =-1的界限。在線LI1和LI2之下的狀態是利用相對應的路徑發現方法來達到的狀態。在根據線LI3的界限之下的狀態是最大可安全探索的狀態。此外，可達到界限被再現為虛線LI4，即在該線右邊的所有狀態在BurnSim問題中是不可達到的。線LI4在這種情況下是圖2的線L1在通過軸線f和h張開的平面中的投影。在使用基於圖形的探索的情況下，使用局部二次逼近，並且作為備用策略可以採用上面所描述的標準調節器nbac;kup。如從圖4中得到的那樣，在探索期間不超過t =-1 的界限，使得探索滿足安全探索的準則。在具有狀態聚集和RL路徑發現的探索中，如在基於圖形的探索中那樣將局部二次逼近用作安全函數。備用策略是如下策略這些策略如上面所描述的那樣根據圖3的教師軌跡T被確定。在路徑發現中所探索的區域小於通過基於圖形的探索所覆蓋的區域，因為線LI1在線LI2之下。在狀態空間的有些區域中，用於學習的教師軌跡不包含可替換的動作，而是僅僅包含非最優的動作。因缺少訓練數據中的替換物，所得到的策略也選擇該動作。結果是比標準調節器更慢地降低蜂鳴音的備用策略。由此在該策略的備用軌跡上觀察到比在標準調節器的這些軌跡上更小的回報。結果，安全函數將動作更早地分級為不安全的。儘管有相對於基於圖形的探索更小的覆蓋區域，從最優策略的軌跡進入的狀態空間的整個區域中仍獲得了信息。因此，在這種情況下，觀察足以由此導出最優策略。該最優策略在這種情況下是平均提供最高回報的那個動作選擇規則。該策略對於BurnSim問題是已知的。基於圖形的探索需要大約52000個步驟，直至不再可能進行進一步的探索。而在利用RL路徑發現對所聚集的狀態進行探索的情況下，需要大約98000個步驟。較大數目的探索步驟的原因在於對於探索不怎麼適合的所學習的備用策略以及在路徑發現中由於狀態聚集而違背馬爾科夫條件引起的不安全性。為了證明該方法的性能，利用上面所描述的探索方法確定的數據被用於學習最優策略。採用了不同的RL方法來學習。尤其是，比較了神經適配的Q迭代、具有最近近鄰生成的動態編程和已知的最優策略。根據下面的表1得到了與最優策略相比的兩個RL方法的所達到的平均回報，其中兩個RL方法不僅利用基於圖形的路徑發現而且利用RL路徑發現來執行。表 1平均回報RL方法基於圖形的路徑發現 RL路徑發現動態編程1. 1641. 132神經適配的Q迭代1.1661.166最優策略1. 166從表1中可認識到的是，不僅利用基於圖形的路徑發現進行探索而且利用RL路徑發現進行探索都引起具有接近最優策略的回報或甚至對應於該回報的回報的策略。尤其是，利用神經適配的Q迭代不僅針對基於圖形的路徑發現而且針對RL路徑發現都確定了最優策略。從上述實施方案中得到的是，利用根據本發明的方法的不同的實施形式可以非常良好地如下探索技術系統的狀態實現良好的資料庫，利用該資料庫可以學習針對該技術系統的相對應的控制方法或調節方法。在此，在探索時尤其是避免達到可直接地或間接地引起對技術系統的損害的狀態。
18
權利要求
一種用於以計算機輔助方式對技術系統的狀態(s，s′)進行探索的方法，其中-通過在技術系統的相應狀態(s，s′)中執行引起新狀態(s，s′)的動作(a)來相繼經歷技術系統的狀態(s，s′)；-在執行引起未知的、從前還未經歷的狀態(s，s′)的動作(a)之前，藉助安全函數(SF)來確定相應的動作(a)是技術系統中的允許的動作(a)還是不允許的動作(a)，其中只有當所述動作(a)是允許的動作時才執行所述動作(a)；-在達到未知的狀態(s，s′)時，基於反饋規則(BP)來選擇隨後的動作(a)，用於將狀態(s，s′)引回到已知的狀態(s，s′)。
2.根據權利要求1所述的方法，其中，不允許的動作(a)被表徵為使得在執行不允許的動作(a)時該技術系統以為1的概率或者以大於零的概率到達如下狀態(s，s')所述狀態(s，s')直接在執行不允許的動作(a)之後或者間接地在執行其它動作(a)之後引起技術系統的不希望的和/或有故障的工作狀態。
3.根據權利要求1或2所述的方法，其中，此外在達到技術系統的根據安全函數(SF) 將要執行的動作(a)分級為不允許的動作的狀態(s，s')的情況下，基於反饋規則(BP)來選擇隨後的動作(a)。
4.根據上述權利要求之一所述的方法，其中，分別根據執行動作(a)的狀態(s)和根據通過所述動作達到的新狀態(s')給所執行的動作(a)分配評分(r)。
5.根據權利要求4所述的方法，其中，不允許的動作(a)具有小於預先確定的值的評分(r)。
6.根據權利要求4或5所述的方法，其中，安全函數(SF)基於動作(a)的評分(r)而被學習。
7.根據權利要求6所述的方法，其中，給所經歷的包含狀態(s)和在所述狀態(s)下執行的動作(a)的對分別分配最小評分(rmin)，該最小評分(rmin)在執行動作(a)之後並且在接著經歷動作(a)的反饋規則(BF)時出現，其中基於最小評分(rmin)確定安全函數(SF) 並且其中當最小評分(rmin)小於預先給定的值時，安全函數(SF)接著確定不允許的動作。
8.根據權利要求7所述的方法，其中，安全函數(SF)利用函數逼近器來確定，該函數逼近器基於圍繞恰好要隨著動作(a)改變的狀態(s，s')的局部外插來逼近最小評分(rmin)。
9.根據權利要求8所述的方法，其中，函數逼近器執行局部線性的和/或局部二次的外插。
10.根據上述權利要求之一所述的方法，其中，反饋規則(BP)是針對技術系統預先給定的規則。
11.根據權利要求10所述的方法，其中，反饋規則(BP)通過技術系統的現有調節器來實現。
12.根據權利要求4至9之一或根據與權利要求4相結合的權利要求10或11所述的方法，其中，反饋規則(BP)利用強化的、考慮動作(a)的評分(r)的學習方法來確定。
13.根據權利要求12所述的方法，其中，強化的學習方法基於最優性準則，根據該最優性準則使所有將來的評分(r)的期望值的最小值最大化。
14.根據上述權利要求之一所述的方法，其中，在經歷技術系統的狀態(s，s')時，給狀態(s，s')分配相繼的類別來使得i)如果狀態(S，s')基於反饋規則(BP)被改變，則給通過動作(a)達到的未知的、從前還未經歷的狀態(s，s')分配在執行動作(a)之前分配給狀態(s，s')的類別； )在所有其它情況下，給通過動作達到的未知的、從前還未經歷的狀態(s，s')分配跟隨在執行動作(a)之前分配給狀態(s，s')的類別的類別。
15.根據權利要求14所述的方法，其中，狀態(s，s')根據類別而被經歷來使得在一個類別中首先對所有可能的要執行的動作(a)進行探索並且接著轉移到接下來的類別。
16.根據權利要求15所述的方法，其中，一個類別的狀態(s，s')利用基於圖形的路徑發現方法而被經歷，其中在經歷狀態(s，s')期間建立圖形，該圖形的節點對應於所經歷的狀態(s，s')並且該圖形的稜邊對應於所執行的動作(a)，而且在該圖形中對於每個節點存儲相對應的狀態(s，s')的類別，其中在達到已經探索了所有可能的動作(a)的狀態(s，s')時在該圖形中搜索至相同類別中的還能探索動作(a)的狀態(s，s')的路徑，並且在找到這種路徑時通過該路逕到達該狀態(s，s')。
17.根據權利要求16所述的方法，其中，在未發現至相同類別中的還能執行動作(a)的狀態(s，s')的路徑的情況下，經歷後繼類別的狀態(s，s')。
18.根據權利要求15至17之一所述的方法，其中，一個類別的狀態(s，s')利用基於回報函數的強化學習方法而被經歷，其中當動作(a)引起在剛剛經歷的類別中的可能對至少一個動作(a)進行探索的狀態(s，S』 )時，根據動作(a)的回報函數來分配回報。
19.根據權利要求18所述的方法，其中，在強化學習方法中，在經歷了預先確定的數目的狀態(s，s')之後更新動作選擇規則，其中在更新時考慮新添加的動作和執行相應的新添加的動作的相應的狀態(S)以及通過動作(a)達到的新狀態(S')。
20.根據權利要求14至19之一所述的方法，其中，在基於圖形的學習方法中和/或在強化學習方法中，技術系統的相似狀態被匯總成共同的群集。
21.根據權利要求14至20之一所述的方法，其中，此外在達到在剛剛要經歷的類別之後的類別的狀態(s，S』 )時，基於反饋規則來選擇隨後的動作(a)。
22.根據權利要求14至21之一所述的方法，其中，狀態(s，s')根據反饋規則而被經歷，直至達到剛剛要經歷的類別的狀態。
23.根據權利要求14至22之一所述的方法，其中，該方法被啟動為使得首先在不考慮安全函數(SF)的情況下根據反饋規則(BP)經歷狀態(s，s')並且在此給狀態(s，s') 分配相同的類別，其中經歷狀態(s，s')直至不再拋棄確定數量的狀態，並且接著在考慮安全函數(SF)的情況下到達未知的、從前還未經歷的狀態(s，s')，其中給所述狀態(s， s')分配後續的類別。
24.根據上述權利要求之一所述的方法，其中，該方法在技術系統的真實工作中被採用。
25.根據權利要求1至23之一所述的方法，其中，該方法在對技術系統的工作的仿真中被採用。
26.根據上述權利要求之一所述的方法，其中，利用該方法對燃氣輪機的狀態(s，s') 進行探索。
27.根據權利要求26所述的方法，其中，燃氣輪機的狀態和/或分配給所述狀態(s， s')的動作(a)包括如下量中的一個或者多個燃氣輪機的整個功率；對燃氣輪機的燃料供給；燃氣輪機中的或者在燃氣輪機的環境中的一個或多個壓力和/或溫度；燃氣輪機的蜂鳴音；燃氣輪機中的燃燒室加速；燃氣輪機上的一個或多個調整參數、尤其是閥門調整和/或燃料比和/或進口導向葉片的調整。
28. 一種電腦程式產品，其具有存儲在機器可讀的載體上的程序代碼，用於當程序運行在計算機上時執行根據上述權利要求之一所述的方法。
全文摘要
本發明涉及一種用於以計算機輔助方式探索技術系統的狀態的方法。在所述方法中，通過在技術系統的相應狀態中執行引起新狀態的動作來經歷技術系統的狀態。在此，在使用安全函數和反饋規則的情況下保證在探索期間經歷大數據量的狀態和動作並且同時不出現不允許的動作，所述不允許的動作例如可直接地或者間接地引起對技術系統的損害或有故障的工作狀態。根據本發明的方法具有以下優點收集關於技術系統的大量狀態和動作，所述狀態和動作接著可被用於確定適當調節技術系統的學習方法中。根據本發明的方法可針對任意技術系統被採用，一種優選的應用情況是探索燃氣輪機中的狀態。該方法不僅可在技術系統的真實工作中而且可在對技術系統的工作的仿真中被使用。
文檔編號G06N99/00GK101842754SQ200880113934
公開日2010年9月22日申請日期2008年9月29日優先權日2007年10月31日
發明者A·M·沙弗, A·漢斯, D·施尼加斯, S·尤德盧夫特, V·斯特津格申請人:西門子公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於以計算機輔助方式探索技術系統的狀態的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法