新四季網

針對間歇過程容錯控制的二維數據驅動型強化學習方法

2024-04-15 21:30:05



1.本發明涉及信息技術技術領域,尤其涉及針對間歇過程容錯控制的二維數據驅動型強化學習方法。


背景技術:

2.間歇過程作為我國兩大主要生產方式之一,其應用涉及了諸多領域,在機械、五金和塑膠等行業均能看見間歇生產過程的身影。與連續過程不同,間歇過程具有「多重時變」的生產特性,「多」即多樣產品,間歇過程在同一設備上切換生產不同的產品;「重」即重複運行,間歇過程生產同一產品的過程會重複進行;「時」即時段切換,間歇過程在同一批次生產產品會進行多種操作工序切換;「變」即「變換指標」,針對不同產品,間歇過程會在不同操作階段具有不同的控制目標和控制方案。以上間歇過程所具有的特殊大範圍非平穩運行特點決定了對間歇過程進行控制遠要比對連續過程進行控制難,特別是現階段現代生產過程中反映出了生產流程更智能高效、生產規模愈發龐大、生產設備更加精密複雜等特點,這使得間歇過程更容易受故障或幹擾的影響。故障和幹擾的存在會讓系統變得更難控制,一味的忽略這些因素對系統控制非但可能達不到理想的控制效果,更可能造成不可逆的災難性損失。此外,被控對象精確模型無法獲取時,傳統基於模型的控制方法會出現控制效果不好甚至完全失效的情況。因此,如何解決間歇過程精確數學模型無法獲取情況下的容錯控制問題值得深入研究。


技術實現要素:

3.鑑於現有技術的上述缺點、不足,本發明提供針對間歇過程容錯控制的二維數據驅動型強化學習方法,其解決了現有技術中針對具有執行器故障的間歇過程的容錯控制的問題。該方法基於強化學習裡的q學習算法,憑藉對間歇過程實際所產生的數據進行不斷學習,得到最優的控制策略,最終達到良好的容錯控制效果和跟蹤性能。
4.為了達到上述目的,本發明採用的主要技術方案包括:
5.本發明實施例提供針對間歇過程容錯控制的二維數據驅動型強化學習方法,包括以下步驟:
6.(1)結合迭代學習控制律在具有執行器故障的原系統狀態空間模型基礎上建立等價模型,所述等價模型是以跟蹤誤差和狀態增量構成的變量作為狀態、迭代更新律作為輸入的2d-roesser增廣狀態空間模型,並根據所述2d-roesser增廣狀態空間模型提出二維性能指標;
7.(2)在2d-roesser增廣狀態空間模型的系統穩定性得到滿足的條件下,給出關於二維值函數和二維q函數的定義,並構建相應的最優控制律和最優控制增益的表達式;
8.(3)在步驟(2)的基礎上,給定能使2d-roesser增廣狀態空間模型的系統穩定的最初的控制增益k0,並收集數據θj(t,k)及ρ
j+1
(t,k),θj(t,k)及ρ
j+1
(t,k)分別是第j次迭代和第j+1次迭代在第t時刻所產生的包含2d-roesser增廣狀態空間模型的系統生產信息的數
據;
9.(4)在步驟(2)和步驟(3)的基礎上,通過執行q學習更新最優控制增益k;
10.(5)在步驟(4)的基礎上,如果達到迭代結束條件,則迭代結束,否則轉步驟(4)繼續迭代。
11.進一步地,所述步驟(1)中的2d-roesser增廣狀態空間模型為:
[0012][0013]
其中,xc(t+1,k)是原系統在t+1時刻第k-1批次到第k批次的狀態增量,可用變量zh(t+1,k)表示,yc(t+1,k)是原系統在第t+1時刻第k批次的跟蹤誤差,可用變量zv(t,k+1)表示;xc(t,k)是原系統在t時刻第k-1批次到第k批次的狀態增量,可用變量zh(t,k)表示,yc(t+1,k-1)是原系統在第t+1時刻第k-1批次的跟蹤誤差,可用變量zv(t,k)表示;r(t,k)是原系統在第t時刻第k批次的迭代更新律;第t時刻第k批次的迭代更新律;分別是與z(t,k)、α、z(t,k)維數相匹配的2d-roesser增廣狀態空間模型的系統矩陣,組成的{a,b,c}是原系統的系統矩陣,i是單位矩陣,裡的0代表著相應維數的0矩陣;α是故障係數;z(t,k)作為2d-roesser增廣狀態空間模型在第t時刻第k批次的狀態,r(t,k)作為2d-roesser增廣狀態空間模型在第t時刻第k批次的輸入。
[0014]
進一步地,所述步驟(1)中基於2d-roesser增廣狀態空間模型提出的二維性能指標為:
[0015][0016]
其中,z(t+i,k+j)、r(t+i,k+j)分別是在第t-i時刻第k-j批次的狀態、第t+i時刻第k-j批次的輸入,z(t+i,k+j)
t
指的是矩陣z(t+i,k+j)的轉置,r(t+i,k+j)
t
指的是矩陣r(t+i,k+j)的轉置,i=0,1,...,∞;q、r是與狀態z(t+i,k+j)、輸入r(t+i,k+j)維數相匹配的正定矩陣。
[0017]
進一步地,所述步驟(2)中的二維值函數為:
[0018][0019]
其中,z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,z(t,k)
t
指的是矩陣z(t,k)的轉置,r(t,k)
t
指的是矩陣r(t,k)的轉置,是對稱的正定矩陣,同時,二維值函數滿足以下條件:
[0020]
[0021]
j*是待實現的二維性能指標j。
[0022]
進一步地,所述步驟(2)中的二維q函數為:
[0023]
q*(z(t,k),r(t,k))=z(t,k)
t
qz(t,k)+r(t,k)
t
rr(t,k)+v*(z1(t,k)),
[0024]
其中,z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,z(t,k)
t
指的是矩陣z(t,k)的轉置,r(t,k)
t
指的是矩陣r(t,k)的轉置,q、r是與狀態z(t,k)、輸入r(t,k)維數相匹配的正定矩陣,v*(z1(t,k))是在z1(t,k)狀態下的值函數。
[0025]
進一步地,所述步驟(2)中最優控制律和最優控制增益的表達式分別為:
[0026]
r(t,k)=kz(t,k)=-(h
rr
)-1
(h
zr
)
t
z(t,k),
[0027]
k=-(h
rr
)-1
(h
zr
)
t
[0028]
其中,矩陣h
rr
,h
zr
分別是由二維值函數和二維q函數所推得的矩陣h的組成部分,(h
rr
)-1
指的是矩陣h
rr
的逆,(h
zr
)
t
指的是矩陣h
zr
的轉置。
[0029]
進一步地,所述步驟(3)中讓j=0,j是迭代指標。
[0030]
進一步地,在步驟(2)和步驟(3)的基礎上,所述步驟(4)中通過執行q學習更新最優控制增益將根據以下公式進行:
[0031]
θj(t,k)l
j+1
=ρj(t,k),
[0032]
其中,θj(t,k)=[θ
1j
(t,k)θ
2j
(t,k)θ
3j
(t,k)],(t,k)],(t,k)],l
j+1
=[(vec(l
1j+1
))
t (vec(l
2j+1
))
t (vec(l
3j+1
))
t
]
t
,l
1j+1
=p
j+1
,l
2j+1
=h
zrj+1
;l
3j+1
=h
rrj+1-r,ρj(t,k)=z(t,k)
t
(q+(kj)
t
rkj)z(t,k),z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,q、r是與狀態z(t,k)、輸入r(t,k)維數相匹配的正定矩陣,矩陣右上角帶有t均指的是該矩陣的轉置,p
j+1
是在第j+1次迭代所得到的p,矩陣h
rrj+1
,h
zrj+1
是由二維值函數和二維q函數所推得的矩陣h
j+1
的組成部分,j+1指的是第j+1次迭代,kj是第j次迭代所得到的控制增益。
[0033]
進一步地,所述步驟(4)中更新最優控制增益的公式為:k
j+1
=-(r+l
3j+1
)-1
(l
2j+1
)
t
,k
j+1
是第j+1次迭代所得到的控制增益,(r+l
3j+1
)-1
指的是矩陣(r+l
3j+1
)的逆,(l
2j+1
)
t
指的是矩陣l
2j+1
的轉置。
[0034]
進一步地,所述步驟(5)中的迭代結束條件為:
[0035]
||k
j+1-kj||≤ε,ε>0,
[0036]
其中,ε是非常小的正整數,kj和k
j+1
分別是第j次和第j+1次迭代所產生的控制增益。
[0037]
本發明的有益效果是:本發明提出一種針對間歇過程容錯控制的二維數據驅動型強化學習方法,與大多數在一維框架下進行的容錯控制不同,本發明所提出的方法充分考慮了間歇過程在時間方向和批次方向上的特性,在二維框架下設計控制方法更貼合間歇過程的生產特性。此外,基於二維數據驅動型強化學習所設計出的容錯控制方法有別於傳統基於模型的容錯控制方法,具有能夠不需要獲知系統精確的模型信息的優點,在獲取系統精確模型信息較難或者獲取成本過高時可以起到關鍵作用。由於是對系統在生產過程中所產生的信息進行最優控制律和最優控制增益的學習,而這些真實數據誕生並儲存在間歇過程中,可以充分的反映出系統動態,進而也使得本發明所提出的這種方法具有更實用、更有
效的有益效果。在當前及此後的間歇過程控制問題中,本發明所提出的容錯控制方法能夠很好的替代傳統基於模型的控制方法,使得系統不論是在系統正常的情況下還是系統具備執行器故障的情況下都能夠達到期望的控制效果。在一定程度上起到節約成本的作用,更具使用價值,有利於維護間歇過程安全高效生產。
附圖說明
[0038]
圖1顯示了本發明學習過程中矩陣kj收斂到矩陣k的情況;
[0039]
圖2顯示了本發明學習過程中矩陣hj收斂到矩陣h的情況;
[0040]
圖3給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case1(故障係數α=1)情況下各批次的輸入對比圖;
[0041]
圖4給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case2(故障係數α=0.4)情況下各批次的輸入對比圖;
[0042]
圖5給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case3(故障係數α=1.6)情況下各批次的輸入對比圖;
[0043]
圖6給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case1(故障係數α=1)情況下各批次的輸出對比圖;
[0044]
圖7給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case2(故障係數α=0.4)情況下各批次的輸出對比圖;
[0045]
圖8給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case3(故障係數α=1.6)情況下各批次的輸出對比圖;
[0046]
圖9給出了本發明(2d q-learning)和傳統基於模型的二維模型預測容錯跟蹤控制方法(2d mpftc)在case1(故障係數α=1)、case2(故障係數α=0.4)、case3(故障係數α=1.6)情況下的跟蹤性能對比圖。
具體實施方式
[0047]
為了更好的解釋本發明,以便於理解,下面結合附圖,通過具體實施方式,對本發明作詳細描述。
[0048]
本發明提供一種針對間歇過程容錯控制的二維數據驅動型強化學習方法。該方法能夠使具有執行器故障的間歇過程擺脫對過去容錯控制方法對精確模型的依賴性,填補傳統基於模型控制方法無法應對系統精確模型未知的控制問題的缺口,具有良好的控制效果。其包括以下步驟:
[0049]
(1)結合迭代學習控制律在具有執行器故障的原系統狀態空間模型基礎上建立等價模型,該等價模型是以跟蹤誤差和狀態增量構成的變量作為狀態、迭代更新律作為輸入的2d-roesser增廣狀態空間模型,並根據2d-roesser增廣狀態空間模型提出二維性能指標。
[0050]
其中,步驟(1)具體包括以下步驟:
[0051]
用u
if
(t,k),i=1,

,m代表故障執行器的輸出信號,可以建立故障模型:u
if
(t,k)=αiui(t,k),i=1,2,

,m。其中,α=diag[α
1 α2,

,αm],α=diag[α
1 α2,

,αm],αi≤1,都是已知的常數,αi未知,但假設在一個已知的範圍內變化。因此,會有uf(t,k)=αu(t,k)。如果對應著實際模型u
if
(t,k)=ui(t,k),此時意味著原系統處於執行器不發生故障的理想狀況;如果αi=0,這對應著完全失效故障;如果αi>0,這對應著部分失效故障。
[0052]
因此,具有執行器故障的間歇過程原系統模型為:
[0053][0054]
其中,k代表的是間歇過程所在的批次,t為間歇過程在批次內所處的運行時刻,分別是原系統在第k批次的第t時刻的狀態、輸入和輸出,是原系統在第k批次的第t+1時刻的狀態,n,m,l是相應變量的維度,{a,b,c}是維數與狀態、輸入維數相對應的原系統矩陣。
[0055]
考慮設計迭代學習控制律u(t,k)=u(t,k-1)+r(t,k),其中,u(t,k),u(t,k-1)分別是原系統在第t時刻第k批次和第t時刻k-1時刻的輸入,r(t,k)是迭代更新率。
[0056]
對於給定的期望輸出軌跡yd(t,k),若原系統跟蹤誤差和沿批次方向的狀態增量分別為yc(t,k)=yd(t,k)-y(t,k),xc(t+1,k)=x(t+1,k)-x(t+1,k-1),是原系統第k批次的第t時刻的輸出,x(t+1,k),x(t+1,k-1)分別是原系統在第k批次的第t+1時刻的狀態和原系統在第k-1批次的第t+1時刻的狀態。由以上可得到與具有執行器故障的間歇過程原系統模型等價的2d-roesser增廣狀態空間模型:
[0057][0058]
其中,xc(t+1,k)是原系統在t+1時刻第k-1批次到第k批次的狀態增量,可用變量zh(t+1,k)表示,yc(t+1,k)是原系統在第t+1時刻第k批次的跟蹤誤差,可用變量zv(t,k+1)表示;xc(t,k)是原系統在t時刻第k-1批次到第k批次的狀態增量,可用變量zh(t,k)表示,yc(t+1,k-1)是原系統在第t+1時刻第k-1批次的跟蹤誤差,可用變量zv(t,k)表示;r(t,k)是原系統在第t時刻第k批次的迭代更新律;第t時刻第k批次的迭代更新律;分別是與z(t,k)、α、z(t,k)維數相匹配的2d-roesser增廣狀態空間模型的系統矩陣,組成的{a,b,c}是原系統的系統矩陣,i是單位矩陣,裡的0代表著相應維數的0矩陣;α是故障係數;z(t,k)作為2d-roesser增廣狀態空間模型在第t時刻第k批次的狀態,r(t,k)作為2d-roesser增廣狀態空間模型在第t時刻第k批次的輸入。
[0059]
基於2d-roesser增廣狀態空間模型提出的二維性能指標函數為:
其中,z(t+i,k+j)、r(t+i,k+j)分別是在第t+i時刻第k+j批次的狀態、第t+i時刻第k+j批次的輸入,z(t+i,k+j)
t
指的是矩陣z(t+i,k+j)的轉置,r(t+i,k+j)
t
指的是矩陣r(t+i,k+j)的轉置,i=0,1,...,∞。q、r是與狀態z(t+i,k+j)、輸入r(t+i,k+j)維數相匹配的正定矩陣。
[0060]
本發明所提出的二維數據驅動強化學習方法能夠找到一種最優控制律r(t,k)=kz(t,k),這種形式的控制律能夠使二維性能指標j在控制律的作用下成為二維性能指標j*,從而使2d-roesser增廣狀態空間模型的系統的狀態z(t+i,k+j)趨於0,並完成2d-roesser增廣狀態空間模型的系統輸出y(t,k)對期望的輸出軌跡的yd(t,k)跟蹤。
[0061]
(2)在2d-roesser增廣狀態空間模型的系統穩定性得到滿足的條件上給出關於二維值函數和二維q函數的一些定義,並構建相應的最優控制律和最優控制增益的表達式。
[0062]
二維值函數為:
[0063][0064]
其中,z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,z(t,k)
t
指的是矩陣z(t,k)的轉置,r(t,k)
t
指的是矩陣r(t,k)的轉置,是對稱的正定矩陣,同時,二維值函數滿足條件:
[0065][0066]
其中,j*是待實現的二維性能指標j。
[0067]
二維q函數為:
[0068]
q*(z(t,k),r(t,k))=z(t,k)
t
qz(t,k)+r(t,k)
t
rr(t,k)+v*(z1(t,k))
[0069]
其中,z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,z(t,k)
t
指的是矩陣z(t,k)的轉置,r(t,k)
t
指的是矩陣r(t,k)的轉置,q、r是與狀態z(t,k)、輸入r(t,k)維數相匹配的正定矩陣,v*(z1(t,k))是在z1(t,k)狀態下的值函數。
[0070]
顯然二維值函數和二維q函數有著關係:同時,控制律r(t,k)=kz(t,k)的作用下二維值函數和二維q函數都具有二次型的形式:v*(z(t,k))=z(t,k)
t
pz(t,k),其中,進而可以得到與最優控制律、最優控制增益的表達式r(t,k)=kz(t,k)=-(h
rr
)-1
(h
zr
)
t
z(t,k),k=-(h
rr
)-1
(h
zr
)
t
。矩陣h
rr
,h
zr
是由二維值函數和二維q函數所推得的矩陣h的組成部分,(h
rr
)-1
指的是矩陣h
rr
的逆,(h
zr
)
t
指的是矩陣h
zr
的轉置。
[0071]
(3)在步驟(2)的基礎上,給定能使2d-roesser增廣狀態空間模型的系統穩定的最初的控制增益k0,並收集數據θj(t,k)及ρ
j+1
(t,k),k0是最初的控制增益,θj(t,k)及ρ
j+1
(t,k)是第j次迭代t時刻所產生的包含2d-roesser增廣狀態空間模型的系統生產信息的數據。
[0072]
讓j=0,j是迭代指標,給定能使2d-roesser增廣狀態空間模型的系統穩定的最初的控制增益k0;收集數據θj(t,k)及ρ
j+1
(t,k),θj(t,k)及ρ
j+1
(t,k)是第j次迭代所產生的包含2d-roesser增廣狀態空間模型的系統生產信息的數據。
[0073]
(4)在步驟(2)和步驟(3)的基礎上,通過執行q學習更新最優控制增益k。
[0074]
將根據以下公式進行:
[0075]
θj(t,k)l
j+1
=ρj(t,k),
[0076]
用最小二乘法學習l
1j+1
到l
3j+1
,進而更新控制增益:
[0077]kj+1
=-(r+l
3j+1
)-1
(l
2j+1
)
t

[0078]
其中,k
j+1
是第j+1次迭代所得到的控制增益。
[0079]
引入了目標策略rj(t,k),由步驟(2)會有:
[0080][0081]
另外,會有rj(t,k)=kjz(t,k)。化簡併結合克羅內克積得到θj(t,k)l
j+1
=ρj(t,k),其中:
[0082]
θj(t,k)=[θ
1j
(t,k) θ
2j
(t,k) θ
3j
(t,k)],
[0083][0084][0085][0086]
l
j+1
=[(vec(l
1j+1
))
t (vec(l
2j+1
))
t (vec(l
3j+1
))
t
]
t
,l
1j+1
=p
j+1
,l
2j+1
=h
zrj+1

[0087]
l
3j+1
=h
rrj+1-r,ρj(t,k)=z(t,k)
t
(q+(kj)
t
rkj)z(t,k)。
[0088]
z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,q、r是與狀態z(t,k)、輸入r(t,k)維數相匹配的正定矩陣,矩陣右上角帶有t均指的是該矩陣的轉置,p
j+1
是在第j+1次迭代所得到的p,矩陣h
rrj+1
,h
zrj+1
是由二維值函數和二維q函數所推得的矩陣h
j+1
的組成部分,j+1指的是第j+1次迭代,kj是第j次迭代所得到的控制增益。
[0089]
(5)在步驟(4)的基礎上,如果達到迭代結束條件,則迭代結束,否則轉步驟(4)繼續迭代。
[0090]
當||k
j+1-kj||≤ε,(ε是一個極小的正數)滿足則迭代停止。否則令j=j+1,回到步驟(4)。kj和k
j+1
分別是第j次和第j+1次迭代所產生的控制增益。
[0091]
實施例1:
[0092]
本實施例採用注塑成型過程,塑料製品已經成為當代社會各行業生產和人類生活中不可或缺的元素。作為將樹脂材料加工製成塑料製品的一種典型間歇過程,注塑成型過程在生產過程中扮演著重要的角色,在航空航天、晶片生產、汽車製造等諸多領域都能看見注塑成型過程的身影。保壓階段作為注塑成型過程的重要階段之一,對塑料產品的最終質量有著極大的影響:注塑機通過閥門的開度去控制噴嘴的壓力。閥門狀態將會直接影響到
閥門開度,進而影響到噴嘴壓力,壓力最終會對塑料產品的密度造成關鍵影響:壓力較大的區域,塑料產品相對密實;壓力較小的區域,塑料產品相對疏鬆。事實上,在保壓階段,閥門可以視作執行器,執行器並不一定能夠一直維持在正常的狀態(α=1),很有可能發生執行器故障,最終執行器故障主要反映在兩種情況:一是閥門過緊(α<1),二是閥門鬆動(α>1)。閥門過緊時的閥門開度將會比正常的閥門開度小,而閥門鬆動時則會造成相反的情況。保壓階段的噴嘴壓力np和開度vo之間有如下關係:
[0093][0094]
算法具體步驟為:
[0095]
step1:當定義狀態空間模型裡的狀態、輸入和輸出分別為:
[0096]
x(t,k)=[np(t,k)
ꢀ‑
0.3259np(t,k-1)
ꢀ‑
156.8vo(t,k-1)]
t
,u(t,k)=vo(t,k),y(t,k)=np(t,k)時,能夠得到保壓階段的狀態空間模型如下:
[0097][0098]
其中,x(t,k),u(t,k),y(t,k)分別是原系統在第k批次的第t時刻的狀態、輸入和輸出,x(t+1,k)是原系統在第k批次的第t+1時刻的狀態。結合迭代學習控制律在具有執行器故障的原系統狀態空間模型基礎上建立等價模型,該等價模型是以跟蹤誤差和狀態增量構成的變量作為狀態、迭代更新律作為輸入的2d-roesser增廣狀態空間模型並選擇控制器參數為r=1,設定期望輸出值為yd=300,確定二維性能指標。
[0099]
step2:在2d-roesser增廣狀態空間模型的系統穩定性得到滿足的條件上給出關於二維值函數和二維的q函數的一些定義,並構建相應的最優控制律和最優控制增益的表達式;
[0100]
r(t,k)=kz(t,k)=-(h
rr
)-1
(h
zr
)
t
z(t,k),k=-(h
rr
)-1
(h
zr
)
t

[0101]
其中,矩陣h
rr
,h
zr
是由二維值函數和二維q函數所推得的矩陣h的組成部分,(h
rr
)-1
指的是矩陣h
rr
的逆,(h
zr
)
t
指的是矩陣h
zr
的轉置。
[0102]
step3:在步驟(2)的基礎上,給定能使2d-roesser增廣狀態空間模型的系統穩定的最初的控制增益k0並收集數據θj(t,k)及ρ
j+1
(t,k),k0是最初的控制增益,θj(t,k)及ρ
j+1
(t,k)是第j次迭代t時刻所產生的包含2d-roesser增廣狀態空間模型的系統生產信息的數據。
[0103]
step4:在步驟(2)和步驟(3)的基礎上,通過執行q學習更新最優控制增益k;
[0104]
將根據以下公式進行:
[0105]
θj(t,k)l
j+1
=ρj(t,k),
[0106]
其中,θj(t,k)=[θ
1j
(t,k) θ
2j
(t,k) θ
3j
(t,k)],
l
j+1
=[(vec(l
1j+1
))
t (vec(l
2j+1
))
t (vec(l
3j+1
))
t
]
t
,l
1j+1
=p
j+1
,l
2j+1
=h
zrj+1
;l
3j+1
=h
rrj+1-r,ρj(t,k)=z(t,k)
t
(q+(kj)
t
rkj)z(t,k),z(t,k)是在第t時刻第k批次的狀態,r(t,k)是在第t時刻第k批次的輸入,q、r是與狀態z(t,k)、輸入r(t,k)維數相匹配的正定矩陣,矩陣右上角帶有t均指的是該矩陣的轉置,p
j+1
是在第j+1次迭代所得到的p,矩陣h
rrj+1
,h
zrj+1
是由二維值函數和二維q函數所推得的矩陣h
j+1
的組成部分,j+1指的是第j+1次迭代,kj是第j次迭代所得到的控制增益。
[0107]
用最小二乘法學習l
1j+1
到l
3j+1
,進而更新控制增益:
[0108]kj+1
=-(r+l
3j+1
)-1
(l
2j+1
)
t

[0109]
其中,k
j+1
是第j+1次迭代所得到的控制增益,(r+l
3j+1
)-1
指的是矩陣(r+l
3j+1
)的逆,(l
2j+1
)
t
指的是矩陣l
2j+1
的轉置。
[0110]
step5:在步驟(4)的基礎上,如果達到迭代結束條件則迭代結束,否則轉步驟(4)繼續迭代。
[0111]
||k
j+1-kj||≤ε,ε>0,其中ε是非常小的正整數,kj和k
j+1
分別是第j次和第j+1次迭代所產生的控制增益。
[0112]
給定初始的h,進而得到初始的k0,通過學習最終獲得的最優的矩陣h和最優的控制增益k分別為:
[0113]
case1:α=1
[0114]
k=[-0.0075,-0.0057,0.0030]
[0115]
case2:α=0.4
[0116]
k=[-0.0188,-0.0142,0.0074]
[0117]
case3:α=1.6
[0118]
k=[-0.0047
ꢀ‑
0.0035 0.0019]
[0119]
然後實現強化學習算法,經過多次學習之後,本發明提出來的容錯控制方法所求出來的矩陣h和k逐漸收斂到最優的h以及最優的k。
[0120]
附圖1到9分別顯示了本實施例在仿真中得到的控制效果。通過對執行器的狀態進行分類,考慮執行器處於正常情況(case1:α=1)、執行器故障情況(case2:α<1)和執行器故障(case3:α>1)情況這三種情況進行了仿真實驗,分別選取了故障參數α為1、0.4、1.6。為了進一步直觀的展示出本發明的學習效果,分別選取了第3批次、第10批次、第30批次的
數據進行了圖像的繪製。此外,本發明所繪製的圖像考慮了為輸出位置添加了幹擾的情況以證明算法的抗幹擾性。圖1展示了本發明在添加了噪聲的情況下,面對三種不同的故障係數,矩陣kj是如何在學習過程中隨著批次的增加最終逼近到最優的矩陣k的。圖2反映了在添加了噪聲的情況下,面對三種不同的故障係數,矩陣hj是如何在學習過程中隨著批次的增加最終收斂到最優容錯控制增益h的。圖3-圖5反映的是兩種控制算法在不同執行器故障係數(case1、case2、case3)下第3、第10、第30批次的輸入圖像對比。三種情況下,輸入曲線反映出一種共性:本發明的輸入值在多數時間都會小於2d mpftc的輸入值,這表明了本發明通過較小的輸入就能實現良好的控制效果。同時,圖像表明,無論是正常情況還是故障情況,本發明的控制輸入的曲線都處於穩定的狀態,使系統在故障情況下也能保持穩定生產。圖6-圖8反映的是兩種控制算法在不同執行器故障係數(case1、case2、case3)下第3、第10、第30批次的輸出圖像對比。在case1時,很明顯本發明和傳統基於模型的2d mpftc的跟蹤速度都隨著批次的增加而加快,但最終本發明的輸出能夠先一步的跟蹤上期望的輸出軌跡。在case2和case3能夠發現故障對傳統基於模型的2d mpftc的輸出跟蹤速度有了較大的影響,使得其輸出曲線到第10批次還未能在短時間內快速跟蹤上期望輸出軌跡,而本發明所受的影響不大,雖然在第3批次時未能快速的跟蹤上,但到第10批次就已經實現了對期望輸出軌跡的快速跟蹤。圖9對比的是兩種控制方法面對三種不同的執行器故障係數(case1、case2、case3)的跟蹤性能圖像。隨著批次的增加,跟蹤性能曲線逐漸向0靠近,比較三種故障係數下兩種算法的圖像不難發現本發明的收斂速度更快,能夠比更快的收斂到0。
[0121]
綜上,本實施例以注塑過程為例,驗證了本發明的控制效果有效性及可行性。本發明基於強化學習裡的q學習理念,能夠在系統信息獲取成本較高時起到關鍵作用,使得控制成本的降低。在系統信息獲取較難時也能突顯出優異的控制效果,是應用範圍廣、控制效果好、跟蹤速度快的有效控制方法,可以為當前及此後的間歇過程生產保駕護航,有助於注塑成型過程及其他間歇過程的順利進行。
[0122]
最後應該說明的是:以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,其可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特徵進行等同替換。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀