一種基於策略梯度的機器人學習控制方法與流程
2023-05-20 04:26:26 3
本發明涉及機器人學習控制技術,特別涉及一種可以將控制策略參數化的機器人學習控制方法。
背景技術:
機器人學習控制領域已經有一些技術方法,其中最常用是基於價值函數近似的方法。為了獲得狀態-動作對的價值,通常使用td(時序差分)學習算法和q-學習算法。然而這些方法對於離散的狀態—動作空間比較有效,當解決連續狀態—動作問題時,就會出現很多問題。在連續空間中,為了實現對價值函數的可靠估計,往往需要在相應空間中採集大量數據,這在實際複雜的機器人系統中是很難實現的。並且隨著機器人自由度不斷增加又會出現「維數災難」的問題。
此外,基於價值函數近似的方法還面臨著其他問題:1、這種方法常用於對確定性策略的求解,對於隨機性策略的處理存在很大困難,但是最佳策略往往是隨機的;2、在一個動作的估計價值中一個隨機的小的變化將會導致這個動作可能不會被執行,這種不連續的變化已經被確認為保證算法收斂的關鍵障礙;3、該方法無法保證在機器人學習過程中向機器人發送的指令均是安全可靠的。因此,該方法大多先是在仿真環境中搜索策略,無法直接應用在實際的物理環境中。
因此急需一種可用於不同類型的機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高機器人的智能性,降低學習過程中的危險性,縮短機器人學習時間,簡化控制器設計難度的機器人學習控制方法。
技術實現要素:
有鑑於此,為了解決上述問題,本發明提出了一種可用於不同類型的機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高機器人的智能性,降低學習過程中的危險性,縮短機器人學習時間,簡化控制器設計難度的機器人學習控制方法。
本發明的目的就是提出一種基於策略梯度的機器人學習控制方法,主要是通過以下技術方案來實現的:
本發明提出的一種基於策略梯度的機器人學習控制方法,包括以下步驟:
s1:輸入機器人運動過程中的狀態信息數據以及與環境交互的感知信息數據;
s2:根據機器人獲取的狀態信息數據以及環境感知信息數據,計算及時獎勵以及價值函數的近似估計模型;
s3:根據獲得的累積獎勵以及價值函數近似估計模型,對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;
s4:輸出機器人實際執行的動作命令。
進一步,所述步驟s1中的所述機器人運動狀態信息數據和環境感知信息數據的輸入採取獨立輸入模式。運動狀態信息為機器人每個自由度當前時刻位置和速度的觀測數據,環境感知數據為可表達環境動態模型的傳感數據。
進一步,所述步驟s2中的及時獎勵根據環境感知信息數據以及獎勵函數確定。
進一步,所述步驟s2的價值函數近似模型由機器人運動狀態特徵向量以及權重向量確定。在估計價值函數的過程中,採用梯度下降法調整權重向量,同時採用q-學習算法估計狀態-動作對的價值。
進一步,所述步驟s3中利用策略梯度方法,根據累積獎勵以及價值函數近似估計模型對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;
本發明的特點在於:採用策略梯度方法可以處理連續性場景,求解隨機性策略。將控制策略參數化,可以縮減參數個數,處理多自由機器人學習問題。策略梯度採用概率化輸出,克服了傳統基於價值函數近似導致的不收斂問題。本文提出的基於策略梯度的激勵學習方法可用於不同類型機器人,處理多自由度機器人學習複雜動作的問題、從而提高了機器人的學習能力和智能性,降低了學習過程中的危險性,縮短了機器人學習時間,簡化了控制器設計難度。
附圖說明
為了使本發明的目的,技術方案和優點更加清楚,下面將結合附圖對本發明作進一步的詳細描述,其中:
圖1為本發明提供的基於策略梯度的機器人學習控制方法的結構框圖。
圖2為本發明提供的基於策略梯度的機器人學習控制方法的原理圖。
具體實施方式
以下將結合附圖,對本發明所述的方法做進一步的詳細說明。圖1為本發明提供的基於策略梯度的機器人學習控制方法的結構框圖;圖2為本發明提供的基於策略梯度的機器人學習控制方法的原理圖,如圖所示:本發明提供的基於策略梯度的機器人學習控制方法,包括以下步驟:
s1:輸入機器人運動過程中的狀態信息數據以及與環境交互的感知信息數據;
s2:根據機器人獲取的狀態信息數據以及環境感知信息數據,計算及時獎勵以及價值函數的近似估計模型;
s3:根據獲得的累積獎勵以及價值函數近似估計模型,對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;
s4:輸出機器人實際執行的動作命令。
作為上述實施例的進一步改進,所述步驟s1中的所述機器人運動狀態信息數據和環境感知信息數據的輸入採取獨立輸入模式。運動狀態信息為機器人每個自由度當前時刻位置和速度的觀測數據,環境感知數據為可表達環境動態模型的傳感數據。
作為上述實施例的進一步改進,所述步驟s2中的及時獎勵根據環境感知信息數據以及獎勵函數確定;
作為上述實施例的進一步改進,所述步驟s2的價值函數近似模型由機器人運動狀態特徵向量以及權重向量確定。在估計價值函數的過程中,採用梯度下降法調整權重向量,同時採用q-學習算法估計狀態-動作對的價值;
作為上述實施例的進一步改進,所述步驟s3中利用策略梯度方法,根據累積獎勵以及價值函數近似估計模型對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;
以上所述僅為本發明的優選實施例,並不用於限制本發明,顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型內。
技術特徵:
技術總結
本發明公開了一種適合機器人學習控制的策略梯度方法,涉及到機器人學習控制技術,包括數據採集模塊,獲取機器人運行過程中的信息數據;價值函數近似模塊,以觀測的狀態信息和從環境獲得的及時獎勵為輸入,獲取價值函數的近似估計模型;策略梯度優化模塊,將機器人學習控制策略參數化,通過對參數進行調整,優化,使機器人達到理想的運行狀態。動作執行模塊,將控制器輸出的動作映射為機器人實際執行的動作命令。本發明提出的方法可用於不同類型機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高了機器人的智能性,降低了學習過程中的危險性,縮短了機器人學習時間,簡化了控制器設計難度。
技術研發人員:李軍;沈廣田;陳劍斌;高楊建;許陽
受保護的技術使用者:重慶大學
技術研發日:2017.05.09
技術公布日:2017.08.08