新四季網

用於電網安全態勢感知的無人機巡檢方法、終端設備

2024-04-15 08:14:05



1.本發明涉及智能電網檢測技術領域,特別是一種用於電網安全態勢感知的無人機巡檢方法、終端設備。


背景技術:

2.電網由各電壓等級輸配電線路與變電站組成,是保障現代社會正常運轉的重要能源設施。電網安全態勢感知是指通過獲取並分析與電網運行密切相關的各類信息,掌握電網實時安全狀態並預測未來安全趨勢,從而輔助制定電網安全風險應對策略。作為實現遠距離電能傳輸與通信的物理載體,輸電線路是電網中地理分布最廣且空間跨度與佔地面積最大的部分,其運行狀況對電網安全穩定具有直接重大影響。因此,獲取輸電線路狀態信息是電網安全態勢感知的關鍵性基礎環節。為實現該環節,需利用電力巡檢無人機對輸電線路進行巡檢。無人機按照地面遙控指令執行巡檢任務,可通過多種機載檢測設備高效準確鎖定輸電線路中存在的故障與隱患。與人工巡檢相比,無人機巡檢可適應複雜惡劣自然環境,技術經濟優勢十分顯著。
3.總體而言,無人機巡檢在電網安全態勢感知中具有良好應用前景,但其也有不足之處:無人機在巡檢過程中一旦發現可能存在故障或隱患的關鍵點,需靠近該點進行深入檢查。在近距離巡檢模式下,無人機受氣流擾動等隨機因素幹擾,飛行位置與姿態極易發生偏移,導致機載檢測設備所獲圖像質量下降,進而影響巡檢精度與效率,無法為電網安全態勢感知提供高質量信息。因此,現有無人機巡檢方法無法滿足電網安全態勢感知任務要求。


技術實現要素:

4.本發明所要解決的技術問題是,針對現有技術不足,提供一種用於電網安全態勢感知的無人機巡檢方法、終端設備,利用深度強化學習技術校正無人機飛行狀態以有效增強近距離巡檢狀態下無人機飛行位置與姿態的穩定性,從而改善機載檢測設備所獲圖像質量,提升輸電線路巡檢精度與效率,增強電網安全態勢感知能力。
5.為解決上述技術問題,本發明所採用的技術方案是:一種用於電網安全態勢感知的無人機巡檢方法,包括以下步驟:
6.s1、構建狀態空間,其中任一時刻t的狀態s
t
包括無人機在t時刻的檢測圖像di
t
和飛行狀態as
t
;t時刻的檢測圖像di
t
是由無人機在t時刻及先前k個時刻所攝圖片按時間順序排列組成的序列ci
t-k,ci
t-k+1
,

,cij,

,ci
t-2
,ci
t-1
,ci
t
;cij=[vij,irj,uij],vij為j時刻拍攝的可見光圖片,irj為j時刻拍攝的紅外圖片,uij為j時刻拍攝的超聲圖片,j=t-k,t-k+1,

,t-2,t-1,t;t時刻的飛行狀態as
t
是由無人機在t時刻及先前k個時刻的位姿信息向量按時間順序排列組成的序列pd
t-k
,pd
t-k+1
,

,pdj,

,pd
t-2
,pd
t-1
,pd
t
;其中pdj=[xj,yj,uj,αj,βj,γj],xj、yj和uj分別為j時刻地球坐標系下無人機的飛行位置三維坐標,αj、βj和γj分別為j時刻無人機的偏航角、俯仰角和橫滾角;
[0007]
s2、構建混合深度神經網絡(hybrid deep neural network,hdnn),所述hdnn包括
抗擾卷積神經網絡(anti disturbance convolutional neural network,adcnn)、第一快速門限循環神經網絡(fast gated recurrent neural network,fgrnn)、第二快速門限循環神經網絡和第一全連接神經網絡(dense net);所述adcnn與第一fgrnn連接;第一fgrnn、第二fgrnn均與第一dense net連接;將所述t時刻的檢測圖像di
t
作為所述adcnn的輸入,所述t時刻的飛行狀態as
t
序列作為第二fgrnn的輸入;所述第一dense net的輸出為t時刻的q(s,a),q(s,a)即在狀態s
t
下,無人機執行動作空間中的各個動作後,所獲反饋函數值的預測值;其中動作空間a=[δx,δy,δu,δα,δβ,δγ],δx為機體坐標系下無人機在水平方向橫軸上的位移調節量,δy為機體坐標系下無人機在水平方向縱軸上的位移調節量,δu為機體坐標系下無人機在垂直方向上的位移調節量,δα為無人機偏航角調節量,δβ為無人機俯仰角調節量,δγ為無人機橫滾角調節量,δx、δy、δu、δα、δβ與δγ均採用離散微調控制模式;反饋函數r=wss+wdd,s為基於信息量加權的結構相似度指標(information content-weighted structural similarity index,iw-ssim),d為所述檢測圖像di
t
中各張圖片的中心與無人機所要檢查的目標物體的中心之間的歐式距離,ws和wd為權重係數,反饋函數r直接反映檢測圖像di
t
的質量;
[0008]
s3、對所述hdnn進行仿真訓練,得到無人機飛航狀態校正模型(aviation state correction model,ascm)。
[0009]
本發明中,所述第一dense net的輸出,即t時刻的q(s,a)函數值的獲取過程包括:
[0010]
(1)利用所述adcnn從t時刻的檢測圖像di
t
序列內各張圖片cij中分別感知環境狀態信息,得到輸出特徵序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
,利用所述第一fgrnn從f
t-k,ft-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取時序特徵,得到第一特徵向量v
1t

[0011]
(2)利用所述第二fgrnn從t時刻的飛行狀態as
t
序列中提取時序特徵,得到第二特徵向量v
2t

[0012]
(3)串聯拼接所述第一特徵向量v
1t
和第二特徵向量v
2t
,將拼接而成的向量v
t
作為第一dense net的輸入,得到t時刻的q(s,a)函數值。
[0013]
本發明中,hdnn根據狀態s
t
中不同信息的具體特點,分別設置由adcnn與fgrnn組成的專門深度神經網絡結構進行有針對性的分析處理,可有效增強特徵提取能力,從而顯著提升q(s,a)函數值擬合精度與效率。因此本發明有效增強了近距離巡檢狀態下無人機飛行位置與姿態的穩定性,從而改善了機載檢測設備所獲圖像質量,提升了輸電線路巡檢精度與效率,增強了電網安全態勢感知能力。
[0014]
本發明中,所述離散微調控制模式實現過程包括:選定無人機的最大正負位移調節量δp
max
和最大正負角度調節量δd
max
;對δp
max
進行n1等分,對δd
max
進行n2等分,則δp=δp
max
/n1為無人機的位移調節間隔,δd=δd
max
/n2為無人機的角度調節間隔,a中位移調節量δx、δy和δu的動作取值為-n1δp,-(n
1-1)δp,

,-2δp,-δp,0,+δp,+2δp,

,+(n
1-1)δp,+n1δp,角度調節量δα、δβ和δγ的動作取值為-n2δd,-(n
2-1)δd,

,-2δd,-δd,0,+δd,+2δd,

,+(n
2-1)δd,+n2δd。
[0015]
本發明中,利用adcnn從t時刻的檢測圖像di
t
序列內各張圖片cij中分別感知環境狀態信息的過程包括如下步驟:
[0016]
(1)對di
t
中各張圖片cij分別進行二維膨脹卷積處理,生成一組卷積特徵圖m
t-k
,m
t-k+1
,

,mj,

,m
t-2
,m
t-1
,m
t

[0017]
(2)分別對各張卷積特徵圖中各元素取絕對值,得到一組絕對值特徵圖am
t-k
,am
t-k+1
,

,amj,

,am
t-2
,am
t-1
,am
t
,分別對所述各張絕對值特徵圖逐通道進行全局平均池化,得到一組池化向量g
t-k
,g
t-k+1
,

,gj,

,g
t-2
,g
t-1
,g
t

[0018]
(3)將每個所述池化向量分別作為第二全連接神經網絡的輸入,得到一組輸出向量av
t-k
,av
t-k+1
,

,avj,

,av
t-2
,av
t-1
,av
t
,將各輸出向量分別對應與各池化向量逐元素相乘,得到一組抗擾參數向量a
t-k
,a
t-k+1
,

,aj,

,a
t-2
,a
t-1
,a
t
,aj維度等於卷積特徵圖的通道數;
[0019]
(4)將各卷積特徵圖中對應與各抗擾參數向量逐元素相乘,得到經過抗擾處理的卷積特徵圖,展開經過抗擾處理的卷積特徵圖,得到輸出特徵序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t

[0020]
本發明提出的adcnn能夠在有效抑制幹擾信號的前提下,全面準確感知環境狀態信息,從而有效增強ascm控制決策能力。
[0021]
本發明中,利用所述第一fgrnn從f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取時序特徵,以及利用所述第二fgrnn從t時刻的飛行狀態as
t
序列中提取時序特徵的過程包括如下步驟:
[0022]
(1)利用下式生成第一fgrnn或第二fgrnn在第j個時間步上的更新門zj和重置門rj:(zj,rj)=sigmoid(zj',rj');其中,sigmoid為激活函數,zj'=dda(zj,gz,bz)與rj'=dda(rj,gr,br)分別表示第一fgrnn或第二fgrnn在第j個時間步上的更新門zj和重置門rj的中間過程向量;dda表示數據分布調整,zj=w
zhj-1
+uzxj+bz與rj=w
rhj-1
+urxj+br是中間數據向量,中間數據向量維度為h,gz與gr是增益向量,bz和br是偏置向量,增益向量與偏置向量均為可訓練權重向量;在中間數據向量zj和rj中,xj為第一fgrnn或第二fgrnn在第j個時間步上的輸入特徵向量,即fj或pdj,h
j-1
是第一fgrnn或第二fgrnn在第j-1個時間步上生成的隱藏狀態,wz、uz、wr和ur為權重矩陣,bz和br為偏置向量;
[0023]
(2)計算第一fgrnn或第二fgrnn在第j個時間步上的內部細胞狀態cj:cj=relu(cj');其中,cj′
是cj的計算中間值,wc和uc是權重矩陣,bc是偏置向量,代表逐元素相乘;
[0024]
(3)計算第一fgrnn或第二fgrnn在第j個時間步上的拓展權重向量ej:其中,λ和η為拓展權重參數;e
j-1
代表第一fgrnn或第二fgrnn在第j-1個時間步上的拓展權重向量;
[0025]
(4)計算第一fgrnn或第二fgrnn在第j個時間步上生成的隱藏狀態hj:其中,代表逐元素相加;
[0026]
(5)對第一fgrnn或第二fgrnn生成的各個hj進行特徵強化處理,得到特徵強化向量,即得到第一特徵向量v
1t
或第二特徵向量v
2t

[0027]
本發明提出的fgrnn基於自聯想記憶與門限原理,具備較傳統循環神經網絡更高的學習能力和效率。
[0028]
本發明中,計算第一fgrnn或第二fgrnn的zj'和rj'的過程中,數據分布調整dda過程包括:
[0029]
(1)計算中間數據向量的均值與方差其中,xi為中間數據向量zj或rj中的各個元素;i=1,2,

,h;
[0030]
(2)對中間數據向量中元素的分布進行標準正態化:其中,xi′
為中間數據向量zj或rj中的各個元素經過標準正態化後的值,ε是一個無限趨近於0的正數;
[0031]
(3)利用下式調整中間數據向量中元素的分布:yi=gnixi'+bai;其中,yi為經過再次調整後的中間數據向量中的各個元素,gni是增益向量gz或gr中的第i個元素,bai是偏置向量bz或br中的第i個元素,gni與bai均為可訓練權重參數。
[0032]
dda通過在標準正態化的基礎上再次調整中間數據向量中元素的分布,使大部分元素集中於非線性激活函數中的合理區間內,從而在增大梯度的同時,保持fgrnn對非線性函數關係的擬合能力,且不破壞fgrnn學習所獲知識。因此,dda可有效提升fgrnn的收斂速度。此外,dda還可增強fgrnn的泛化能力,並降低fgrnn對超參數的敏感度,從而簡化調參。
[0033]
本發明中,所述步驟s3中,訓練所述hdnn的具體實現過程包括:
[0034]
s3-1、設置兩個動作價值函數q(s,a)和q

(s,a),其中q(s,a)由所述hdnn擬合,q

(s,a)由一個與所述hdnn結構相同的輔助hdnn;將所述hdnn和所述輔助hdnn以同一組隨機權重參數初始化;將經驗回放緩衝區r初始化為空集{};將訓練周期數e和單步訓練回合數rd初始化為0;
[0035]
s3-2、判斷r中存儲的數據的數量是否達到容量上限o
max
,若已達到則丟棄最早存入的若干組數據,使r中存儲的數據的數量低於o
max
;若未達到則開始一個單步訓練回合,利用hdnn分析當前時刻t的狀態s
t
,得到t時刻的q(s,a);判斷單步訓練回合數rd是否達到策略轉換閾值sw,若未達到,則以ε-greedy策略根據q(s,a)選擇動作a
t
予以執行;若已達到,則按照下式根據q(s,a)選擇動作a
t
予以執行:其中c是探索係數,n
t
(a)表示動作空間a中各動作在t時刻之前被選擇的次數;獲取動作a
t
執行後的新狀態s
t+1
和反饋r
t
;將s
t
、a
t
、r
t
和s
t+1
組成的四元組[s
t
,a
t
,r
t
,s
t+1
]作為一組數據存儲至回放緩衝區r中;
[0036]
s3-3、判斷r中存儲的四元組的數量是否超過容量下限o
min
,若未超過則返回步驟s3-2,若已超過則從r中隨機採樣n個四元組;利用由所述輔助hdnn擬合的q

(s,a)計算採樣所得的各個四元組[sn,an,rn,s
n+1
]的個體損失函數值ln=(rn+ymax
a q'(s
n+1
,a)-q(sn,an))2,其中y為折扣因子;對n個四元組的個體損失函數值取平均值,得到目標損失函數值l;以梯度下降法最小化目標損失函數值l,更新所述hdnn的權重參數,完成一個單步訓練回合,將rd的值加1;
[0037]
s3-4、判斷rd的值是否是同步回合數c的整數倍,若是,則將hdnn的權重參數賦給所述輔助hdnn;
[0038]
s3-5、判斷rd的值是否達到上限rd
max
,若已達到,則將e的值加1,並將rd的值清零,然後進入步驟s3-6,若未達到則返回步驟s3-2;
[0039]
s3-6、判斷e是否達到上限e
max
,若已達到則結束訓練過程,否則返回步驟s3-2。
[0040]
鑑於基於ε-greedy策略的傳統強化學習忽視潛在最優動作,導致動作選擇易陷入次優解或局部最優解,本發明在hdnn訓練過程中對動作選擇策略進行改進,將ε-greedy策略與相結合,根據次優動作成為最優動作的潛力或不確定性進行有偏好的探索,從而有效提升訓練質量,更好地滿足電網安全態勢感知需要。
[0041]
本發明的方法還包括:
[0042]
s4、將無人機飛航狀態校正模型加載至無人機的飛行控制程序中,利用無人機對實際輸電線路進行巡檢。具體而言,在近距離巡檢狀態下,ascm通過由hdnn擬合的q(s,a)函數分析狀態s
t
,以預測由動作空間a中不同向量構成的各類飛行位姿校正指令對檢測圖像di
t
的質量,即反饋函數值r的影響,然後選擇預期圖像質量最高,即反饋函數值r的預測值最高的最優指令付諸執行,以使無人機飛行位姿趨於穩定,從而改善巡檢圖像質量,提升巡檢精度和效率,增強電網安全態勢感知能力。
[0043]
為在較短時間內更好適應巡檢現場實際,從而進一步提升巡檢精度與效率,增強電網安全態勢感知能力,本發明中,利用無人機對實際輸電線路進行巡檢之前,利用遷移學習方法調整所述無人機飛航狀態校正模型的參數。
[0044]
作為一個發明構思,本發明還提供了一種終端設備,包括存儲器、處理器及存儲在存儲器上的電腦程式;所述處理器執行所述電腦程式,以實現本發明上述方法的步驟。
[0045]
作為一個發明構思,本發明還提供了一種計算機可讀存儲介質,其上存儲有電腦程式/指令;所述電腦程式/指令被處理器執行時實現本發明上述方法的步驟。
[0046]
與現有技術相比,本發明所具有的有益效果為:本發明提出一種用於電網安全態勢感知的無人機巡檢方法,綜合利用深度學習與強化學習兩種人工智慧技術強大的特徵學習和控制決策能力對無人機飛行狀態進行校正,以顯著增強近距離巡檢時無人機飛行位置與姿態的穩定性,從而改善機載檢測設備所獲圖像質量,最終達到提升輸電線路巡檢精度與效率,增強電網安全態勢感知能力的目的。
附圖說明
[0047]
圖1為本發明實施例1的用於電網安全態勢感知的無人機巡檢方法的流程圖;
[0048]
圖2為本發明實施例1的用於擬合q(s,a)函數的hdnn的原理圖;
[0049]
圖3為本發明實施例1的adcnn的運算流程圖;
[0050]
圖4為本發明實施例1的fgrnn的內部結構圖。
具體實施方式
[0051]
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地說明,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0052]
在本文中,術語「第一」、「第二」和其它類似詞語並不意在暗示任何順序、數量和重要性,而是僅僅用於對不同的元件進行區分。在本文中,術語「一」、「一個」和其它類似詞語並不意在表示只存在一個所述事物,而是表示有關描述僅僅針對所述事物中2的一個,所述
事物可能具有一個或多個。在本文中,術語「包含」、「包括」和其它類似詞語意在表示邏輯上的相互關係,而不能視作表示空間結構上的關係。例如,「a包括b」意在表示在邏輯上b屬於a,而不表示在空間上b位於a的內部。另外,術語「包含」、「包括」和其它類似詞語的含義應視為開放性的,而非封閉性的。例如,「a包括b」意在表示b屬於a,但是b不一定構成a的全部,a還可能包括c、d、e等其它元素。
[0053]
實施例1
[0054]
如圖1所示,本發明實施例1的用於電網安全態勢感知的無人機巡檢方法包括以下步驟:
[0055]
s1、構建狀態空間。其中任一時刻t的狀態s
t
包括無人機在t時刻的檢測圖像di
t
和飛行狀態as
t
;t時刻的檢測圖像di
t
是由無人機在t時刻及先前k個時刻所攝圖片按時間順序排列組成的序列ci
t-k
,ci
t-k+1
,

,cij,

,ci
t-2
,ci
t-1
,ci
t
;cij=[vij,irj,uij],vij為j時刻拍攝的可見光圖片,irj為j時刻拍攝的紅外圖片,uij為j時刻拍攝的超聲圖片,j=t-k,t-k+1,

,t-2,t-1,t;t時刻的飛行狀態as
t
是由無人機在t時刻及先前k個時刻的位姿信息向量按時間順序排列組成的序列pd
t-k
,pd
t-k+1
,

,pdj,

,pd
t-2
,pd
t-1
,pd
t
;其中pdj=[xj,yj,uj,αj,βj,γj],xj、yj和uj分別為j時刻地球坐標系下無人機的飛行位置三維坐標,αj、βj和γj分別為j時刻無人機的偏航角、俯仰角和橫滾角。
[0056]
s2、構建混合深度神經網絡(hybrid deep neural network,hdnn)。如圖2所示,hdnn由本發明實施例1提出的抗擾卷積神經網絡(anti disturbance convolutional neural network,adcnn)、第一快速門限循環神經網絡(fast gated recurrent neural network,fgrnn)、第二快速門限循環神經網絡和第一全連接神經網絡(dense net)組成,具體包括dnn1、dnn2和dnn3三部分。其中,dnn1由adcnn和第一fgrnn上下堆疊而成,其功能在於分析狀態s
t
中的圖像部分di
t
。dnn1在運行時首先利用adcnn從t時刻的檢測圖像di
t
序列內各張圖片cij中分別感知環境狀態信息,得到輸出特徵序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
,繼而利用第一fgrnn從f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取時序特徵,從而得到第一特徵向量v
1t
。與此同時,hdnn利用由第二fgrnn構成的dnn2從t時刻的飛行狀態as
t
序列中提取時序特徵,得到第二特徵向量v
2t
。需要注意的是,dnn1和dnn2中的fgrnn可採用多層級聯的深度結構,圖2中僅顯示一層fgrnn。最後在dnn3中,串聯拼接(concatenate)第一特徵向量v
1t
和第二特徵向量v
2t
,將拼接而成的向量v
t
作為第一dense net的輸入,得到t時刻的q(s,a)函數值。dnn3中的第一dense net可採用多隱藏層級聯的深度結構,圖2中僅顯示一層。t時刻的q(s,a)函數值即在狀態s
t
下,無人機執行動作空間中的各個動作後,所獲反饋函數值的預測值。其中動作空間a=[δx,δy,δu,δα,δβ,δγ],δx為機體坐標系下無人機在水平方向橫軸上的位移調節量,δy為機體坐標系下無人機在水平方向縱軸上的位移調節量,δu為機體坐標系下無人機在垂直方向上的位移調節量,δα為無人機偏航角調節量,δβ為無人機俯仰角調節量,δγ為無人機橫滾角調節量,δx、δy、δu、δα、δβ與δγ均採用離散微調控制模式;反饋函數r=wss+wdd,s為基於信息量加權的結構相似度指標(information content-weighted structural similarity index,iw-ssim),d為所述檢測圖像di
t
中各張圖片的中心與無人機所要檢查的目標物體的中心之間的歐式距離,ws和wd為權重係數,反饋函數r直接反映檢測圖像di
t
的質量。
[0057]
本實施例中,離散微調控制模式實現過程包括:選定無人機的最大正負位移調節
量δp
max
和最大正負角度調節量δd
max
;對δp
max
進行n1等分,對δd
max
進行n2等分,則δp=δp
max
/n1為無人機的位移調節間隔,δd=δd
max
/n2為無人機的角度調節間隔,a中位移調節量δx、δy和δu的動作取值為-n1δp,-(n
1-1)δp,

,-2δp,-δp,0,+δp,+2δp,

,+(n
1-1)δp,+n1δp,角度調節量δα、δβ和δγ的動作取值為-n2δd,-(n
2-1)δd,

,-2δd,-δd,0,+δd,+2δd,

,+(n
2-1)δd,+n2δd。
[0058]
本實施例中,hdnn根據狀態s
t
中不同信息的具體特點,分別設置由adcnn與fgrnn組成的專門深度神經網絡結構進行有針對性的分析處理,可有效增強特徵提取能力,從而顯著提升q(s,a)函數值擬合精度與效率。
[0059]
s3、對所述hdnn進行仿真訓練,得到無人機飛航狀態校正模型(aviation state correction model,ascm),具體實現過程包括:
[0060]
s3-1、設置兩個動作價值函數q(s,a)和q

(s,a),其中q(s,a)由hdnn擬合,q

(s,a)由一個與所述hdnn結構相同的輔助hdnn;將hdnn和輔助hdnn以同一組隨機權重參數初始化;將經驗回放緩衝區r初始化為空集{};將訓練周期數e和單步訓練回合數rd初始化為0。
[0061]
s3-2、判斷r中存儲的數據的數量是否達到容量上限o
max
,若已達到則丟棄最早存入的若干組數據,使r中存儲的數據的數量低於o
max
;若未達到則開始一個單步訓練回合,利用hdnn分析當前時刻t的狀態s
t
,得到t時刻的q(s,a);判斷單步訓練回合數rd是否達到策略轉換閾值sw,若未達到,則以ε-greedy策略根據q(s,a)選擇動作a
t
予以執行;若已達到,則按照下式根據q(s,a)選擇動作a
t
予以執行:其中c是探索係數,n
t
(a)表示動作空間a中各動作在t時刻之前被選擇的次數;獲取動作a
t
執行後的新狀態s
t+1
和反饋r
t
;將s
t
、a
t
、r
t
和s
t+1
組成的四元組[s
t
,a
t
,r
t
,s
t+1
]作為一組數據存儲至回放緩衝區r中。
[0062]
s3-3、判斷r中存儲的四元組的數量是否超過容量下限o
min
,若未超過則返回步驟s3-2,若已超過則從r中隨機採樣n個四元組;利用由輔助hdnn擬合的q

(s,a)計算採樣所得的各個四元組[sn,an,rn,s
n+1
]的個體損失函數值ln=(rn+ymax
a q'(s
n+1
,a)-q(sn,an))2,其中y為折扣因子;對n個四元組的個體損失函數值取平均值,得到目標損失函數值l;以梯度下降法最小化目標損失函數值l,更新所述hdnn的權重參數,完成一個單步訓練回合,將rd的值加1。
[0063]
s3-4、判斷rd的值是否是同步回合數c的整數倍,若是,則將hdnn的權重參數賦給輔助hdnn。
[0064]
s3-5、判斷rd的值是否達到上限rd
max
,若已達到,則將e的值加1,並將rd的值清零,然後進入步驟s3-6,若未達到則返回步驟s3-2。
[0065]
s3-6、判斷e是否達到上限e
max
,若已達到則結束訓練過程,否則返回步驟s3-2。
[0066]
鑑於基於ε-greedy策略的傳統強化學習忽視潛在最優動作,導致動作選擇易陷入次優解或局部最優解,本發明在hdnn訓練過程中對動作選擇策略進行改進,將ε-greedy策略與相結合,根據次優動作成為最優動作的潛力或不確定性進行有偏好的探索,從而有效提升訓練質量,更好地滿足電網安全態勢感知需要。
[0067]
s4、將無人機飛航狀態校正模型加載至無人機的飛行控制程序中,利用無人機對實際輸電線路進行巡檢。在近距離巡檢狀態下,ascm通過由hdnn擬合的q(s,a)函數分析狀態s
t
,以預測由動作空間a中不同向量構成的各類飛行位姿校正指令對檢測圖像di
t
的質量,即反饋函數值r的影響,然後選擇預期圖像質量最高,即反饋函數值r的預測值最高的最優指令付諸執行,以使無人機飛行位姿趨於穩定,從而改善巡檢圖像質量,提升巡檢精度和效率,增強電網安全態勢感知能力。
[0068]
優選的,本實施例在實際巡檢開始前還可開展遷移學習,對hdnn已有權重進行微調,以在較短時間內更好適應巡檢現場實際,從而進一步提升巡檢精度與效率,增強電網安全態勢感知能力。
[0069]
進一步的,本發明實施例1提出的adcnn如圖3所示,利用adcnn從t時刻的檢測圖像di
t
序列內各張圖片cij中分別感知環境狀態信息的過程包括如下步驟:
[0070]
(1)將di
t
序列送入二維卷積模塊,以對di
t
中各張圖片cij分別進行二維膨脹卷積處理,生成一組卷積特徵圖m
t-k
,m
t-k+1
,

,mj,

,m
t-2
,m
t-1
,m
t
;二維卷積模塊由n3個二維膨脹卷積層上下堆疊而成;二維膨脹卷積層的卷積核中設有零元素空洞,可在不增加權重參數的情況下實現較常規卷積核更大的局部感受野,從而使adcnn能從更廣圖像區域中更加高效且全面的感知環境狀態信息。
[0071]
(2)分別對各張卷積特徵圖中各元素取絕對值,得到一組絕對值特徵圖am
t-k
,am
t-k+1
,

,amj,

,am
t-2
,am
t-1
,am
t
,分別對所述各張絕對值特徵圖逐通道進行全局平均池化,得到一組池化向量g
t-k
,g
t-k+1
,

,gj,

,g
t-2
,g
t-1
,g
t

[0072]
(3)將每個池化向量分別作為第二全連接神經網絡的輸入,第二dense net中執行的運算為:
[0073]
tsj=relu(w
d1gj
+b
d1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0074]
avj=sigmoid(w
d2
tsj+b
d2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0075]
其中,tsj是過渡向量,w
d1
與w
d2
為權重矩陣,b
d1
與b
d2
為偏置向量,relu和sigmoid為激活函數,(1)中運算可按需執行多次,(2)中運算僅執行一次。經過(1)(2)中運算得到一組輸出向量av
t-k
,av
t-k+1
,

,avj,

,av
t-2
,av
t-1
,av
t
。繼而將各輸出向量分別對應與各池化向量逐元素相乘,得到一組抗擾參數向量a
t-k
,a
t-k+1
,

,aj,

,a
t-2
,a
t-1
,a
t
,aj維度等於卷積特徵圖的通道數。
[0076]
(4)將各卷積特徵圖中對應與各抗擾參數向量逐元素相乘,得到經過抗擾處理的卷積特徵圖,展開經過抗擾處理的卷積特徵圖,得到輸出特徵序列f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t

[0077]
步驟(3)中,各輸出向量分別對應與各池化向量逐元素相乘,是指,將av
t-k
與g
t-k
逐元素相乘,將av
t-k+1
與g
t-k+1
逐元素相乘,依此類推。
[0078]
步驟(4)中,各卷積特徵圖中對應與各抗擾參數向量逐元素相乘,是指:將m
t-k
與a
t-k
逐元素相乘,將m
t-k+1
與a
t-k+1
逐元素相乘,依此類推。
[0079]
本發明實施例1提出的adcnn能夠在有效抑制幹擾信號的前提下,全面準確感知環境狀態信息,從而有效增強ascm控制決策能力。
[0080]
進一步的,本發明實施例1提出的fgrnn如圖4所示,利用第一fgrnn從f
t-k
,f
t-k+1
,

,fj,

,f
t-2
,f
t-1
,f
t
中提取時序特徵,以及利用第二fgrnn從t時刻的飛行狀態as
t

列中提取時序特徵的過程包括如下步驟:
[0081]
(1)利用下式生成第一fgrnn或第二fgrnn在第j個時間步上的更新門zj和重置門rj:
[0082]
(zj,rj)=sigmoid(zj',rj')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0083]
其中,sigmoid為激活函數,zj'=dda(zj,gz,bz)與rj'=dda(rj,gr,br)分別表示第一fgrnn或第二fgrnn在第j個時間步上的更新門zj和重置門rj的中間過程向量;dda表示數據分布調整,zj=w
zhj-1
+uzxj+bz與rj=w
rhj-1
+urxj+br是中間數據向量,中間數據向量維度為h,gz與gr是增益向量,bz和br是偏置向量,增益向量與偏置向量均為可訓練權重向量;在中間數據向量zj和rj中,xj為第一fgrnn或第二fgrnn在第j個時間步上的輸入特徵向量,即fj或pdj,h
j-1
是第一fgrnn或第二fgrnn在第j-1個時間步上生成的隱藏狀態,wz、uz、wr和ur為權重矩陣,bz和br為偏置向量。
[0084]
(2)計算第一fgrnn或第二fgrnn在第j個時間步上的內部細胞狀態cj:
[0085][0086]cj
=relu(cj')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0087]
其中,cj′
是cj的計算中間值,wc和uc是權重矩陣,bc是偏置向量,代表逐元素相乘;relu計算複雜度遠低於傳統循環神經網絡中常用的雙曲正切激活函數tanh,且其在輸入為正時導數恆為1,高於tanh的最大導數,故使用relu有助於在誤差反向傳播過程中增大梯度,從而有效提升fgrnn的學習效率。
[0088]
(3)計算第一fgrnn或第二fgrnn在第j個時間步上的拓展權重向量ej:
[0089]ej
=λe
j-1
+ηc
jcjt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0090]
其中,λ和η為拓展權重參數;e
j-1
代表第一fgrnn或第二fgrnn在第j-1個時間步上的拓展權重向量。
[0091]
fgrnn中,諸如wc和bz等屬於傳統權重,其須學習至少一個mini-batch的數據方可更新一次,因而學習和衰減速度較慢,且無法充分反映距當前時刻較近的歷史數據的影響。此外,傳統權重學習能力受限於權重矩陣和偏置向量的容量。為此,本發明實施例1中的fgrnn引入拓展權重ej。與傳統權重不同,ej無需新設神經元並利用梯度下降法反覆迭代更新,而是利用已有計算結果cj、c
jt
和e
j-1
並結合兩個參數λ和η,以自聯想記憶方式直接獲取。因此,引入ej可在不明顯增加計算開銷的前提下有效提升模型的權重容量,以增強模型學習能力並加快收斂速度。此外,與傳統權重相比,ej可充分反映距離當前時刻較近的歷史數據的影響,有利於精度指標提升。
[0092]
(4)計算第一fgrnn或第二fgrnn在第j個時間步上生成的隱藏狀態hj:
[0093][0094]
其中,代表逐元素相加。
[0095]
(5)對第一fgrnn或第二fgrnn生成的各個hj進行特徵強化處理,得到特徵強化向量hr
t
,即第一特徵向量v
1t
或第二特徵向量v
2t
。特徵強化處理的具體過程包括:
[0096]ej
=v
·
tanh(whj+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0097][0098][0099]
其中,tanh為雙曲正切激活函數,w為權重矩陣,b為偏置向量,v為權重向量,ej為hj對應的初始算力權重,asj為算力權重。
[0100]
傳統循環神經網絡需將其通過學習所獲全部特徵保存到最後時刻輸出的隱藏狀態中,在輸入數據序列較長的情況下,隱藏狀態有限的存儲容量無法完整記錄全部特徵,部分關鍵特徵將被丟棄,導致學習能力下降。對此,本發明實施例1中的fgrnn引入特徵強化處理,以充分利用自身生成的全部隱藏狀態中的有用信息,從而避免由於僅利用最後一個時間步上的隱藏狀態而造成的關鍵信息損失問題。同時,特徵強化處理為各個隱藏狀態合理分配算力權重,以強化關鍵特徵作用並抑制次要信息幹擾,可進一步提升fgrnn的學習能力。
[0101]
總體而言,本發明實施例1提出的fgrnn利用自聯想記憶與門限原理,可實現較傳統循環神經網絡更高的學習能力和效率,且調參更加簡單,故將其引入hdnn可有效提升ascm訓練時的收斂速度和應用時的控制精度。
[0102]
進一步的,計算第一fgrnn或第二fgrnn的zj'和rj'的過程中,數據分布調整dda過程包括:
[0103]
(1)計算中間數據向量的均值μ與方差σ2:
[0104][0105][0106]
其中,xi為中間數據向量zj或rj中的各個元素,i=1,2,

,h。
[0107]
(2)對中間數據向量中元素的分布進行標準正態化:
[0108][0109]
其中,xi′
為中間數據向量zj或rj中的各個元素經過標準正態化後的值,ε是一個無限趨近於0的正數,用於防止除數為零。經過標準正態化處理,中間數據向量中元素大量落入sigmoid等非線性激活函數中部的線性區中,梯度有所增大,fgrnn的學習速度因而得以提升。
[0110]
(3)標準正態化操作將嚴重削弱fgrnn對非線性函數關係的擬合能力,並破壞fgrnn學習輸入數據所獲知識,進而對fgrnn的訓練效果造成負面影響。因此,dda還須再次調整經過標準正態化處理的中間數據向量中元素的分布:
[0111]
yi=gnixi'+baiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0112]
其中,yi為經過再次調整後的中間數據向量中的各個元素,gni是增益向量gz或gr中的第i個元素,bai是偏置向量bz或br中的第i個元素,gni與bai均為可訓練權重參數。經過
上述調整,中間數據向量中元素的均值和方差相對標準正態分布有所偏移,相當數量的元素重新落入非線性激活函數兩端的非線性區。fgrnn對非線性函數關係的擬合能力因而得以恢復,fgrnn學習所獲知識也得以保留。
[0113]
dda通過在標準正態化的基礎上再次調整中間數據向量中元素的分布,使大部分元素集中於非線性激活函數中的合理區間內,從而在增大梯度的同時,保持fgrnn對非線性函數關係的擬合能力,且不破壞fgrnn學習所獲知識。因此,dda可有效提升fgrnn的收斂速度。此外,dda還可增強fgrnn的泛化能力,並降低fgrnn對超參數的敏感度,從而簡化調參。
[0114]
綜上所述,針對現有無人機在近距離巡檢時易受氣流擾動影響,飛行位置和姿態穩定性不足,難以為電網安全態勢感知提供高質量信息的問題,本發明實施例1提出一種用於電網安全態勢感知的無人機巡檢方法,利用深度學習與強化學習兩種人工智慧技術強大的特徵學習和控制決策能力對無人機飛行狀態進行校正,以顯著增強近距離巡檢時無人機飛行位置與姿態的穩定性,從而改善無人機檢測圖像質量,最終達到提升輸電線路巡檢精度與效率,增強電網安全態勢感知能力的目的。
[0115]
實施例2
[0116]
本發明實施例2提供一種對應上述實施例1的終端設備,終端設備可以是用於客戶端的處理設備,例如手機、筆記本電腦、平板電腦、臺式機電腦等,以執行上述實施例的方法。
[0117]
本實施例的終端設備包括存儲器、處理器及存儲在存儲器上的電腦程式;處理器執行存儲器上的電腦程式,以實現上述實施例1方法的步驟。
[0118]
在一些實現中,存儲器可以是高速隨機存取存儲器(ram:random access memory),也可能還包括非不穩定的存儲器(non-volatile memory),例如至少一個磁碟存儲器。
[0119]
在另一些實現中,處理器可以為中央處理器(cpu)、數位訊號處理器(dsp)等各種類型通用處理器,在此不做限定。
[0120]
實施例3
[0121]
本發明實施例3提供了一種對應上述實施例1的計算機可讀存儲介質,其上存儲有電腦程式/指令。電腦程式/指令被處理器執行時,實現上述實施例1方法的步驟。
[0122]
計算機可讀存儲介質可以是保持和存儲由指令執行設備使用的指令的有形設備。計算機可讀存儲介質例如可以是但不限於電存儲設備、磁存儲設備、光存儲設備、電磁存儲設備、半導體存儲設備或者上述的任意組合。
[0123]
本領域內的技術人員應明白,本技術的實施例可提供為方法、系統、或電腦程式產品。因此,本技術可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本技術可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、cd-rom、光學存儲器等)上實施的電腦程式產品的形式。本技術實施例中的方案可以採用各種計算機語言實現,例如,面向對象的程序設計語言java和直譯式腳本語言javascript等。
[0124]
本技術是參照根據本技術實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式
指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0125]
這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0126]
儘管已描述了本技術的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本技術範圍的所有變更和修改。
[0127]
顯然,本領域的技術人員可以對本技術進行各種改動和變型而不脫離本技術的精神和範圍。這樣,倘若本技術的這些修改和變型屬於本技術權利要求及其等同技術的範圍之內,則本技術也意圖包含這些改動和變型在內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀