新四季網

一種基於策略梯度的機器人學習控制方法與流程

2023-05-20 04:26:26 3

本發明涉及機器人學習控制技術,特別涉及一種可以將控制策略參數化的機器人學習控制方法。



背景技術:

機器人學習控制領域已經有一些技術方法,其中最常用是基於價值函數近似的方法。為了獲得狀態-動作對的價值,通常使用td(時序差分)學習算法和q-學習算法。然而這些方法對於離散的狀態—動作空間比較有效,當解決連續狀態—動作問題時,就會出現很多問題。在連續空間中,為了實現對價值函數的可靠估計,往往需要在相應空間中採集大量數據,這在實際複雜的機器人系統中是很難實現的。並且隨著機器人自由度不斷增加又會出現「維數災難」的問題。

此外,基於價值函數近似的方法還面臨著其他問題:1、這種方法常用於對確定性策略的求解,對於隨機性策略的處理存在很大困難,但是最佳策略往往是隨機的;2、在一個動作的估計價值中一個隨機的小的變化將會導致這個動作可能不會被執行,這種不連續的變化已經被確認為保證算法收斂的關鍵障礙;3、該方法無法保證在機器人學習過程中向機器人發送的指令均是安全可靠的。因此,該方法大多先是在仿真環境中搜索策略,無法直接應用在實際的物理環境中。

因此急需一種可用於不同類型的機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高機器人的智能性,降低學習過程中的危險性,縮短機器人學習時間,簡化控制器設計難度的機器人學習控制方法。



技術實現要素:

有鑑於此,為了解決上述問題,本發明提出了一種可用於不同類型的機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高機器人的智能性,降低學習過程中的危險性,縮短機器人學習時間,簡化控制器設計難度的機器人學習控制方法。

本發明的目的就是提出一種基於策略梯度的機器人學習控制方法,主要是通過以下技術方案來實現的:

本發明提出的一種基於策略梯度的機器人學習控制方法,包括以下步驟:

s1:輸入機器人運動過程中的狀態信息數據以及與環境交互的感知信息數據;

s2:根據機器人獲取的狀態信息數據以及環境感知信息數據,計算及時獎勵以及價值函數的近似估計模型;

s3:根據獲得的累積獎勵以及價值函數近似估計模型,對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;

s4:輸出機器人實際執行的動作命令。

進一步,所述步驟s1中的所述機器人運動狀態信息數據和環境感知信息數據的輸入採取獨立輸入模式。運動狀態信息為機器人每個自由度當前時刻位置和速度的觀測數據,環境感知數據為可表達環境動態模型的傳感數據。

進一步,所述步驟s2中的及時獎勵根據環境感知信息數據以及獎勵函數確定。

進一步,所述步驟s2的價值函數近似模型由機器人運動狀態特徵向量以及權重向量確定。在估計價值函數的過程中,採用梯度下降法調整權重向量,同時採用q-學習算法估計狀態-動作對的價值。

進一步,所述步驟s3中利用策略梯度方法,根據累積獎勵以及價值函數近似估計模型對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;

本發明的特點在於:採用策略梯度方法可以處理連續性場景,求解隨機性策略。將控制策略參數化,可以縮減參數個數,處理多自由機器人學習問題。策略梯度採用概率化輸出,克服了傳統基於價值函數近似導致的不收斂問題。本文提出的基於策略梯度的激勵學習方法可用於不同類型機器人,處理多自由度機器人學習複雜動作的問題、從而提高了機器人的學習能力和智能性,降低了學習過程中的危險性,縮短了機器人學習時間,簡化了控制器設計難度。

附圖說明

為了使本發明的目的,技術方案和優點更加清楚,下面將結合附圖對本發明作進一步的詳細描述,其中:

圖1為本發明提供的基於策略梯度的機器人學習控制方法的結構框圖。

圖2為本發明提供的基於策略梯度的機器人學習控制方法的原理圖。

具體實施方式

以下將結合附圖,對本發明所述的方法做進一步的詳細說明。圖1為本發明提供的基於策略梯度的機器人學習控制方法的結構框圖;圖2為本發明提供的基於策略梯度的機器人學習控制方法的原理圖,如圖所示:本發明提供的基於策略梯度的機器人學習控制方法,包括以下步驟:

s1:輸入機器人運動過程中的狀態信息數據以及與環境交互的感知信息數據;

s2:根據機器人獲取的狀態信息數據以及環境感知信息數據,計算及時獎勵以及價值函數的近似估計模型;

s3:根據獲得的累積獎勵以及價值函數近似估計模型,對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;

s4:輸出機器人實際執行的動作命令。

作為上述實施例的進一步改進,所述步驟s1中的所述機器人運動狀態信息數據和環境感知信息數據的輸入採取獨立輸入模式。運動狀態信息為機器人每個自由度當前時刻位置和速度的觀測數據,環境感知數據為可表達環境動態模型的傳感數據。

作為上述實施例的進一步改進,所述步驟s2中的及時獎勵根據環境感知信息數據以及獎勵函數確定;

作為上述實施例的進一步改進,所述步驟s2的價值函數近似模型由機器人運動狀態特徵向量以及權重向量確定。在估計價值函數的過程中,採用梯度下降法調整權重向量,同時採用q-學習算法估計狀態-動作對的價值;

作為上述實施例的進一步改進,所述步驟s3中利用策略梯度方法,根據累積獎勵以及價值函數近似估計模型對機器人學習控制器的策略參數進行調整,優化,使機器人達到理想的運行狀態;

以上所述僅為本發明的優選實施例,並不用於限制本發明,顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型內。



技術特徵:

技術總結
本發明公開了一種適合機器人學習控制的策略梯度方法,涉及到機器人學習控制技術,包括數據採集模塊,獲取機器人運行過程中的信息數據;價值函數近似模塊,以觀測的狀態信息和從環境獲得的及時獎勵為輸入,獲取價值函數的近似估計模型;策略梯度優化模塊,將機器人學習控制策略參數化,通過對參數進行調整,優化,使機器人達到理想的運行狀態。動作執行模塊,將控制器輸出的動作映射為機器人實際執行的動作命令。本發明提出的方法可用於不同類型機器人,尤其是多自由度機器人,具備學習複雜動作、求解隨機性策略的能力,從而提高了機器人的智能性,降低了學習過程中的危險性,縮短了機器人學習時間,簡化了控制器設計難度。

技術研發人員:李軍;沈廣田;陳劍斌;高楊建;許陽
受保護的技術使用者:重慶大學
技術研發日:2017.05.09
技術公布日:2017.08.08
同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀