新四季網

基於注意力梯度的輕量化空對地目標檢測方法

2023-05-25 15:54:03 1



1.本發明屬於空對地目標檢測領域,特別涉及一種空對地視角下的輕量化目標檢測方法。


背景技術:

2.以人工智慧為代表的顛覆性技術,正加速空地感知計算向智能化轉變,衍生出一系列的智能無人系統。智能無人系統被廣泛應用於軍事監控、航空攝影、農業播種等領域。快速準確的空對地環境感知能力,是無人系統逐漸走向智能化的必備要求。精準快速的目標檢測是實時環境感知的一項關鍵技術。自然場景下的目標檢測已經取得較大進步,但針對空對地的環境感知,仍然面臨很多問題。從空中對地面進行拍攝的物體呈現背景複雜、物體旋轉角度不同,大小尺度不一、分布不均勻等特點,是計算機領域急需解決的一個難題。另外,考慮目標檢測算法需要部署到算力不足、內存較小的嵌入式平臺,對模型體積大小也有一定要求。
3.針對無人機的拍攝視角旋轉變化問題,rrpn使用旋轉的候選區域來進行檢測。在faster r-cnn算法中引入角度參數,生成帶有角度信息的錨定框,進而得到任意方向的候選區域,池化過程是將旋轉的候選區域與特徵圖關聯後再進行的池化操作。該方法提升了包圍框回歸的精度,但由於產生更多的旋轉錨定框,計算量較大。centernet使用無錨點的目標回歸方法。用包圍框的中心點來表示目標,目標的尺寸則直接從中心點位置進行回歸。針對無人機視場範圍過大,小目標難以檢測的問題,何凱明等提出fpn網絡,融合大小尺度的特徵,及多檢測層,可以同時檢測大中小尺度的目標。針對無人機拍攝目標存在密集性與稀疏性問題,gao等提出將高解析度圖片先進行分片後進行檢測,但是不能保證目標的完整性。yang等提出clusdet網絡,先對輸入圖像進行局部密集目標檢測,再融合全局目標,得到較好的檢測效果。雖然這些方法在空對地目標檢測任務上取得一定的精度提升,但是計算量巨大,不利於部署在嵌入式平臺上。


技術實現要素:

4.目前空地環境感知存在以下問題:從空中對地面拍攝的圖像因受不同拍攝角度、不同飛行速度、不同拍攝場景等因素影響,造成目標的尺度變化、角度變化、特徵變化,將現有計算機視覺領域的目標檢測方法直接用到空對地目標檢測任務上,檢測精度低、速度慢、難以部署。為了解決以上的問題,本發明公開的一種基於注意力梯度的輕量化空對地目標檢測方法,針對空中對地面拍攝的圖像,構建主要由卷積+批歸一化+relu激活(cbl)操作、線性瓶頸結構、注意力梯度模塊組成的注意力梯度特徵提取網絡,利用輕量化的注意力梯度特徵提取網絡進行原始特徵的提取,能夠顯著降低輸入圖像的尺寸,顯著減少注意力梯度特徵提取網絡的參數量,提高注意力梯度特徵提取網絡對空對地圖像的小目標表徵能力;使用特徵金字塔網絡進行特徵融合,提高空對地不同尺度目標的檢測精度,採用基於數理統計的動態正負樣本分配策略提高錨框的分配效率;使用focal loss計算分類損失,使
用giou loss計算回歸損失,通過累加損失計算達到模型端到端的訓練效果,提高空對地目標檢測的精度與效率,降低模型參數,使其更易於部署在算力有限的空對地平臺上。
5.為達到以上的目的,本發明採用以下技術方案。
6.本發明公開的一種基於注意力梯度的輕量化空對地目標檢測方法,
7.針對空中對地面拍攝的圖像,構建輕量化的注意力梯度特徵提取網絡進行原始特徵的提取,所述注意力梯度特徵提取網絡包括卷積+批歸一化+relu激活(cbl)操作、線性瓶頸結構、注意力梯度模塊;所述大卷積核的cbl用於降低輸入圖像的尺寸,便於後續特徵計算,線性瓶頸結構通過對輸入特徵先進行降維處理、再進行升維處理,顯著減少注意力梯度特徵提取網絡的參數量,注意力梯度模塊通過計算特徵的通道注意力以及空間注意力,並將注意力信息累加到瓶頸結構輕量化處理後的特徵數據上,得到具有不同注意力梯度的特徵圖,提高注意力梯度特徵提取網絡對空對地圖像的小目標表徵能力。使用特徵金字塔網絡進行特徵融合,獲得同時具有低層級的空間細節特徵與高層級的語義信息的金字塔特徵,提高空對地不同尺度目標的檢測精度,通過使用解耦的分類預測與位置回歸檢測頭提高空對地目標檢測網絡訓練的收斂速度,在正負樣本匹配階段,採用基於數理統計的動態正負樣本分配策略,為每一個真實標註框分配正負樣本,以標註框為導向動態濾除負樣本以提高錨框的分配效率。在模型訓練階段,使用focal loss計算分類損失,使用giou loss計算回歸損失,通過累加損失計算達到模型端到端的訓練效果,提高空對地目標檢測的精度與效率,減少模型參數,使其更易於部署在算力有限的空對地平臺上。
8.本發明公開的一種基於注意力梯度的輕量化空對地目標檢測方法,包括如下步驟:
9.步驟1:利用空對地平臺系統搭載的光學攝像機從空中對地面進行圖像採集和標註。對採集的空對地目標檢測圖像進行預處理,得到空對地目標檢測圖像以及相應的標籤數據。
10.所述預處理包括對採集的空對地目標檢測圖進行隨機顏色抖動,隨機裁剪、隨機擴充,隨機水平翻轉和縮放操作。
11.步驟1中的圖像預處理通過以下方式實現:
12.步驟1.1,對步驟1中所述圖像進行隨機顏色抖動,包括方式1:亮度抖動,對比度抖動,飽和度抖動,色調抖動;方式2:亮度抖動,飽和度抖動,色調抖動,對比度抖動。從設計的兩種方式中,以1/2的概率隨機選一條,在每種方式中,每種抖動以1/2的概率執行且每個抖動中的參數都隨機生成;
13.步驟1.2,對步驟1中經過隨機顏色抖動的圖像進行隨機裁剪,具體為:隨機在0.3~1之間生成一個數a,隨機裁剪出a倍大小的圖像,判斷裁剪圖像中的標註框是否存在且有效,若不滿足,則重新進行裁剪操作,若重複特定次數,還達不到標註框的要求,則直接返回隨機顏色抖動的圖像,不再組任何操作,隨機裁剪的操作以1/2的概率執行;
14.步驟1.3,對步驟1.2輸出的隨機裁剪後的圖像進行隨機擴充,具體為:隨機在1.0~4.0之間生成一個數b,生成b倍的均值畫布,隨機生成圖像的放置位置,在均值畫布上放置圖像,隨機擴充的操作以1/2的概率執行;
15.步驟1.4,對步驟1.3中隨機擴充後的圖像進行隨機水平翻轉和縮放,以1/2的概率對圖像進行水平方向的翻轉,並把任意尺寸的輸入圖像縮放到1024x540大小,為此,可以將
空對地目標圖像數據進行擴充,增加數據的多樣性。
16.步驟2:將步驟1預處理後的空對地目標檢測圖像以及相應的標籤數據輸入輕量化的注意力梯度特徵提取網絡進行特徵提取,得到用於空對地目標檢測的特徵圖,所述特徵圖為不同解析度的具有不同注意力梯度的特徵圖。
17.所述注意力梯度特徵提取網絡包括卷積+批歸一化+relu激活(cbl)操作、線性瓶頸結構、注意力梯度模塊。在所述注意力梯度特徵提取網絡中,對步驟1預處理後的圖像數據,進行cbl操作,並通過線性瓶頸結構對cbl操作處理後的原始特徵數據先進行降維處理、再進行升維處理,顯著減少注意力梯度特徵提取網絡的參數量,實現注意力梯度特徵提取網絡的輕量化。使用注意力梯度模塊再對每一個瓶頸結構輕量化處理後的特徵數據進行通道信息和空間信息的整合,即通過計算特徵的通道注意力以及空間注意力,並將注意力信息累加到瓶頸結構輕量化處理後的特徵數據上,得到具有不同注意力梯度的特徵圖,提高注意力梯度特徵提取網絡對空對地圖像的小目標表徵能力。
18.步驟2.1,對步驟1中預處理後的圖像先經過一個步長為2,卷積核大小為3的cbl模塊,降低圖像的解析度,並初步提取圖像特徵;
19.步驟2.2,使用多個輕量化注意力梯度模塊對上述cbl的輸出結果進行特徵提取。輕量化注意力梯度模塊包括線性瓶頸結構和注意力梯度模塊,先使用線性瓶頸結構進行輕量化的特徵提取,再對每一個瓶頸結構使用注意力梯度模塊進行通道信息和空間信息的整合。
20.線性瓶頸結構:先使用1x1的卷積進行升維處理,將低維空間映射到高維空間,隨後使用3x3的深度可分離卷積進行特徵提取,最後再使用1x1的卷積進行降維處理,高維特徵映射到低維空間,最後使用線性激活,避免使用relu激活帶來的維度信息丟失。需要說明的是:當線性瓶頸結構的深度可分離卷積步長為1時,使用殘差連接,步長為2時,不使用殘差連接。
21.注意力梯度模塊:每一個線性瓶頸結構之後,都使用一個注意力梯度模塊(attention gradient module,agm),計算特徵的通道注意力和空間注意力梯度。通道注意力模使用mc(f)表示,將特徵圖在空間維度上進行壓縮,得到一個一維向量後再進行操作。在空間維度上進行壓縮時,使用平均值池化與最大值池化,聚合特徵映射的空間信息,輸入到一個共享網絡,壓縮輸入特徵圖的空間維數,逐元素求和合併,以產生通道注意力圖。通道注意力關注的事輸入的多通道特徵中,哪些通道對空對地目標檢測比較重要。平均值池化對特徵圖上的每一個像素點都有反饋,而最大值池化在進行梯度反向傳播計算時,只有特徵圖中響應最大的地方有梯度的反饋。通道注意力機制表達為:
22.mc(f)=σ(mlp(avgpool(f))+mlp(avgpool(f)))
23.空間注意力模塊使用ms(f)表示,將通道注意力輸出的特徵圖作為輸入特徵。首先進行基於通道的全局最大池化和全局平均池化操作,再將這兩個結果基於通道合併,經過一個卷積操作,降維為1個通道。再經過sigmoid激活函數生成空間注意力權重,將該特徵和空間注意力模塊的輸入特徵逐元素相乘,得到最終的輸出特徵,空間注意力機制表達為:
24.ms(f)=σ(f7×7([avgpool(f);maxpool(f)i))
[0025]
其中,σ表示sigmoid操作,7
×
7表示卷積核的大小。空間注意力梯度是對通道進行壓縮,在通道維度分別進行了平均值池化和最大值池化。最大池化是提取通道維度上的最
大值,提取的次數是特徵圖的高乘以寬;平均池化的操作是提取通道維度的平均值,提取的次數也是特徵圖的高乘以寬;將前面所提取到的特徵圖(通道數都為1)合併得到一個2通道的特徵圖。
[0026]
對每個特徵層的空間注意力及注意力權重求梯度顯著性。在得到帶權重特徵圖之後,按照積分梯度的方法,對注意力特徵按如下公式計算其歸因矩陣(積分梯度即對輸入在基線值到當前值的路徑上求梯度的積分):
[0027]
m=[mc(f),ms(f)]
[0028][0029]
其中

為點乘,α代表線性插值的權重,當其值為0時代表所有輸入特徵間的注意力權重為0,m
c/s
表示對通道注意力和空間注意力分別求積分梯度。
[0030]
步驟2.3,將上一步輸出的帶注意力梯度權重的特徵圖進行一個步長為1,卷積核大小為1的cbl模塊,對特徵進行整合,輸出不同解析度大小,不同通道數的帶有注意力梯度的特徵。輸出特徵為c2,c3,c4,c5,使用低層級的網絡,能夠對小目標的特徵進行表示。
[0031]
步驟3:將步驟2得到的不同解析度的具有不同注意力梯度的特徵圖入特徵金字塔網絡進行特徵融合,獲得同時具有低層級的紋理細節特徵與高層級的語義信息的金字塔特徵,使所述金字塔特徵適應複雜背景下空對地不同尺度目標的檢測。
[0032]
將步驟2得到的不同解析度的具有不同注意力梯度的特徵圖c2,c3,c4,c5輸入特徵金字塔網絡進行特徵融合,獲得同時具有低層級的紋理細節特徵與高層級的語義信息的金字塔特徵p2,p3,p4,p5,並將p5使用一個3x3卷積核大小的cbl操作得到p6,使所述金字塔特徵適應複雜背景下空對地不同尺度目標的檢測,用如下公式表示:
[0033]
p2,p3,p4,p5=f1(c2,c3,c4,c5)
[0034]
p6=f2(p5)
[0035]
所述特徵金字塔網絡f1,首先經過一個1x1的卷積,將不同解析度的具有不同注意力梯度的特徵通道進行整合,再將低解析度的特徵通通過最近鄰插值進行2倍上採樣,與高解析度的特徵進行對應元素累加融合,f2表示一個3x3卷積核大小的cbl操作,最後使用3x3的卷積對特徵再次進行特徵整合,生成用於空對地目標檢測的同時低層級紋理信息以及高層級語義信息的金字塔特徵p2,p3,p4,p5,p6。
[0036]
步驟4:將具有同時低層級的紋理信息和高層級的語義信息的金字塔特徵輸入解耦的分類預測模塊和位置預測模塊,分別進行空對地目標的分類、位置回歸,得到不同空對地目標的分類得分、位置回歸坐標,即通過對分類預測模塊和位置預測模塊解耦處理提高空對地目標檢測網絡訓練的收斂速度。所述分類預測模塊、位置預測模塊都使用多個卷積核大小為的cbl進行特徵的再一次整合,在分類預測模塊中使用1x1的卷積核輸出不同目標類別的得分,在置預測模塊使用1x1的卷積核輸出相應的位置(x,y,w,h)。
[0037]
步驟5:根據不同寬高比、縮放比以及不同步長在特徵圖上生成用於空對地目標檢測的先驗錨框,結合步驟4得到的不同空對地目標的分類得分、位置回歸坐標,以標註框為導向,通過判斷錨框是否在所述標註框內對正負樣本進行劃分;採用基於數理統計的動態正負樣本分配策略,為每一個真實標註框分配正負樣本,以標註框為導向動態濾除負樣本以提高錨框的分配效率。
[0038]
基於數理統計的動態正負樣本分配策略具體實現如下:
[0039]
步驟5.1:計算真實標註框(ground truth,gt)與所有預設錨框bbox的重疊度iou,計算方式如下:
[0040][0041]
步驟5.2:計算真實框的中心點坐標(gt
cx
,gt
cy
)與預設錨框的中心點(bbox
cx
,bbox
cy
)的歐式距離d;
[0042][0043]
步驟5.3:對於每個真實標註框,取中心點距離最小的前k個錨框作為候選正樣本;
[0044]
步驟5.4:計算這k個候選正樣本的iou均值mean與標準差std,並將均值與標準差相加的值作為最終的iou,記為final_iou,計算方式如下:
[0045]
mean=(iou1+iou2++iouk)/k
[0046][0047]
final_iou=mean+std
[0048]
步驟5.5:將候選正樣本與真實標註的重疊度大於或等於final_iou的選為最終的正樣本進行位置回歸。
[0049]
步驟6:訓練用於空對地目標檢測的輕量化網絡。使用步驟1中採集的空對地目標數據集及相關標籤數據,訓練步驟2、3、4搭建的輕量化的注意力梯度空對地目標檢測網絡,圖像中正負樣本的劃分採用步驟5所述方式。訓練過程中對選出的正樣本計算分類損失和回歸損失,將兩種損失加起來為網絡的總損失值,使用這一損失值來更新網絡的權重,實現端到端的訓練,得到訓練好的用於空地目標檢測的輕量化注意力梯度特徵提取網絡,所述分類損失為focal loss,回歸損失為giou loss。
[0050]
focal loss分類損失計算方式如下:
[0051]
l
cls
=-(1-p
t
)γlog(p
t
)
[0052]
式中,l
cls
表示類別損失,γ為調節因子,範圍在[0,5]之間,易分類樣本的p
t
越大,則(1-p
t
)
γ
趨近於0,對損失的貢獻越小,降低了易分類樣本的損失比例。p
t
的計算方式如下:
[0053][0054]
其中,y=1表示預測該目標為前景目標,p的取值範圍為0~1,表示模型預測屬於前景的概率。
[0055]
giou loss位置回歸損失計算方式如下,記真實框為gt,預測框為bbox,iou計算方式如步驟5中所述:
[0056][0057]
l
reg
=1-giou
[0058]
其中,c表示gt與bbox形成的最小外接矩形,c\(gt∪bbbox)表示在這一外接矩形
中除去gt∪bbbox外剩下的部分,l
reg
表示位置回歸損失;
[0059]
總的損失函數為:
[0060]
l=l
cls
+λl
reg
[0061]
其中λ為協調因子,調整兩種損失函數在訓練過程中的佔比,一般為2。
[0062]
步驟7:將步驟6訓練好的輕量化注意力梯度空對地目標檢測模型移植到空對地平臺系統上,將不帶標籤的從空中拍攝的地面圖像,輸入步驟6訓練後的輕量化注意力梯度特徵提取網絡,實現複雜背景下的高精度高效率空對地的目標檢測。
[0063]
有益效果:
[0064]
1、本發明公開的一種基於注意力梯度的空對地目標檢測方法,構建主要由卷積+批歸一化+relu激活(cbl)操作、線性瓶頸結構、注意力梯度模塊組成的輕量化注意力梯度特徵提取網絡。在所述注意力梯度特徵提取網絡中,對預處理後的圖像數據,進行cbl操作,並通過線性瓶頸結構對cbl操作處理後的原始特徵數據先進行降維處理、再進行升維處理,顯著減少注意力梯度特徵提取網絡的參數量,實現注意力梯度特徵提取網絡的輕量化。使用注意力梯度模塊再對每一個瓶頸結構輕量化處理後的特徵數據進行通道信息和空間信息的整合,即通過計算特徵的通道注意力以及空間注意力,並將注意力信息累加到瓶頸結構輕量化處理後的特徵數據上,得到具有不同注意力梯度的特徵圖,提高注意力梯度特徵提取網絡對空對地圖像的小目標表徵能力,進而提高空對地目標檢測的精度。
[0065]
2、本發明公開的一種基於注意力梯度的空對地目標檢測方法,通過將不同解析度的具有不同注意力梯度的特徵圖輸入特徵金字塔網絡進行特徵融合,獲得同時具有低層級的空間細節特徵與高層級的語義信息的金字塔特徵,並增加低層特徵作為的檢測層,提高複雜背景下空對地不同尺度目標的檢測精度。
[0066]
3、本發明公開的一種基於注意力梯度的空對地目標檢測方法,在正負樣本劃分階段,採用基於數理統計的動態正負樣本分配策略,以標註框為導向,通過計算與真實標註框中心距離最小的前k個樣本iou的均值與方差,並將均值與方差作為新的iou閾值,以此iou閾值為標準判斷錨框是否在所述標註框內,採用基於數理統計的動態正負樣本分配策略,可以動態濾除負樣本提高錨框的分配效率,進而提高空對地目標檢測的效率。
[0067]
4、本發明公開的一種基於注意力梯度的空對地目標檢測方法,將具有同時低層級的空間信息和高層級的語義信息的金字塔特徵輸入解耦的分類預測模塊和位置預測模塊,分別進行空對地目標的分類、位置回歸,得到不同空對地目標的分類得分、位置回歸坐標,即通過對分類預測模塊和位置預測模塊解耦處理提高空對地目標檢測網絡訓練的收斂速度,提高對地目標檢測網絡的訓練效率。
[0068]
5、本發明公開的一種基於注意力梯度的空對地目標檢測方法,將預先訓練好的輕量化的空對地目標檢測網絡模型通過壓縮移植到空對地平臺上,採用的線性瓶頸結構,注意力梯度模塊,特徵金字塔操作可以在快速提取特徵的同時,保證空對地目標檢測的精度,進一步節約空對地平臺的資源,適應複雜的場景下的空地感知高實時性的要求。
附圖說明
[0069]
圖1為一種基於注意力梯度的輕量化空對地目標檢測方法流程示意圖;
[0070]
圖2為一種基於注意力梯度的輕量化空對地目標檢測方法的總網絡結構圖;
[0071]
圖3為注意力梯度特徵提取模塊;(a)為線性瓶頸結構,(b)為注意力梯度模塊
[0072]
圖4為本發明的空對地目標檢測效果圖。
具體實施方式
[0073]
為了更好地說明本發明的目的和優點,下面結合附圖和實例對發明內容做進一步說明。
[0074]
實施例1:
[0075]
如圖1所示,本實施例公開一種基於注意力梯度的空對地目標檢測方法,具體實現方法如下:
[0076]
本次實驗在一臺計算機上進行,計算機的具體配置為:amd(r)9 5950x,內存64gb,作業系統是ubuntu20.04,64位,gpu為rtx3090,24gb顯存。實驗用到的環境包括:cuda:cuda11.3;cudnn:8.2;gcc:gcc 9.4.0;pytorch:1.11.0;torchvision:0.12.0;opencv:4.6.0;mmdetection:2.25.0+ca11860。
[0077]
步驟1:利用空對地平臺系統搭載的光學攝像機從空中對地面進行圖像採集。對採集的空對地目標檢測圖像進行預處理,得到空對地目標檢測圖像以及相應的標籤數據。在實施例中,我們使用此前已經採集並標註好的公開數據集visdrone2019進行實驗。
[0078]
visdrone2019數據集包括7019張圖片,包括6471張為訓練集,548張為驗證集,測試機圖片尚未公開。數據集包括10類目標,使用無人機在中國不同的4個城市進行拍攝採集的,包括不同天氣,不同場景,不同光照的情況。訓練集中共有353550個標註樣例,測試集共包含40169個樣例,包含大中小尺度的標註,分布如表1所示,其中小尺度物體指像素小於等於32
×
32的物體,中等尺度物體指像素麵積在32
×
32與96
×
96之間的物體,大尺度指物體像素麵積大於96
×
96的物體。可以看出,空對地採集的圖像中,包含小目標較多,造成空對地目標檢測的困難。
[0079]
表1:visdrone2019數據集大中小標註樣例分布
[0080]
數據集小尺度物體中尺度物體大尺度物體總標註樣例訓練集21263012097119949353550測試集2720711761120140169
[0081]
所述預處理包括調整採集的空對地目標檢測圖進行隨機顏色抖動,隨機裁剪、隨機擴充,隨機水平翻轉和縮放操作。
[0082]
步驟1中的圖像預處理通過以下方式實現:
[0083]
步驟1.1,對步驟1中所述圖像進行隨機顏色抖動,包括方式1:亮度抖動,對比度抖動,飽和度抖動,色調抖動;方式2:亮度抖動,飽和度抖動,色調抖動,對比度抖動。從設計的兩種方式中,以1/2的概率隨機選一條,在每種方式中,每種抖動以1/2的概率執行且每個抖動中的參數都隨機生成;
[0084]
步驟1.2,對步驟1中經過隨機顏色抖動的圖像進行隨機裁剪,具體為:隨機在0.3~1之間生成一個數a,隨機裁剪出a倍大小的圖像,判斷裁剪圖像中的標註框是否存在且有效,若不滿足,則重新進行裁剪操作,若重複特定次數,還達不到標註框的要求,則直接返回隨機顏色抖動的圖像,不再組任何操作,隨機裁剪的操作以1/2的概率執行;
[0085]
步驟1.3,對步驟1.2輸出的隨機裁剪後的圖像進行隨機擴充,具體為:隨機在1.0
~4.0之間生成一個數b,生成b倍的均值畫布,隨機生成圖像的放置位置,在均值畫布上放置圖像,隨機擴充的操作以1/2的概率執行;
[0086]
步驟1.4,對步驟1.3中隨機擴充後的圖像進行隨機水平翻轉和縮放,以1/2的概率對圖像進行水平方向的翻轉,並把任意尺寸的輸入圖像縮放到1024x540大小,為此,可以將空對地目標圖像數據進行擴充,增加數據的多樣性。
[0087]
步驟2:將步驟1預處理後的空對地目標檢測圖像以及相應的標籤數據輸入輕量化的注意力梯度特徵提取網絡進行特徵提取,特徵提取網絡如圖2所示,得到用於空對地目標檢測的特徵圖,所述特徵圖為不同解析度的具有不同注意力梯度的特徵圖。
[0088]
所述注意力梯度特徵提取網絡包括卷積+批歸一化+relu激活(cbl)操作、線性瓶頸結構、注意力梯度模塊。在所述注意力梯度特徵提取網絡中,對步驟1預處理後的圖像數據,進行cbl操作,並通過線性瓶頸結構對cbl操作處理後的原始特徵數據先進行降維處理、再進行升維處理,顯著減少注意力梯度特徵提取網絡的參數量,實現注意力梯度特徵提取網絡的輕量化。使用注意力梯度模塊再對每一個瓶頸結構輕量化處理後的特徵數據進行通道信息和空間信息的整合,即通過計算特徵的通道注意力以及空間注意力,並將注意力信息累加到瓶頸結構輕量化處理後的特徵數據上,得到具有不同注意力梯度的特徵圖,提高注意力梯度特徵提取網絡對空對地圖像的小目標表徵能力。
[0089]
步驟2.1,對步驟1中預處理後的圖像先經過一個步長為2,卷積核大小為3的cbl模塊,降低圖像的解析度,並初步提取圖像特徵;
[0090]
步驟2.2,使用多個輕量化注意力梯度模塊對上述cbl的輸出結果進行特徵提取。輕量化注意力梯度模塊包括線性瓶頸結構和注意力梯度模塊,先使用線性瓶頸結構進行輕量化的特徵提取,再對每一個瓶頸結構使用注意力梯度模塊進行通道信息和空間信息的整合。
[0091]
線性瓶頸結構,如圖2中的(a)所示,先使用1x1的卷積進行升維處理,將低維空間映射到高維空間,隨後使用3x3的深度可分離卷積進行特徵提取,最後再使用1x1的卷積進行降維處理,高維特徵映射到低維空間,最後使用線性激活,避免使用relu激活帶來的維度信息丟失。需要說明的是:當線性瓶頸結構的深度可分離卷積步長為1時,使用殘差連接,步長為2時,不使用殘差連接。
[0092]
注意力梯度模塊,如圖2中的(b)所示,每一個線性瓶頸結構之後,都使用一個注意力梯度模塊(attention gradient module,agm),計算特徵的通道注意力和空間注意力梯度。通道注意力模塊mc(f)是將特徵圖在空間維度上進行壓縮,得到一個一維矢量後再進行操作。在空間維度上進行壓縮時,使用平均值池化與最大值池化,聚合特徵映射的空間信息,送到一個共享網絡,壓縮輸入特徵圖的空間維數,逐元素求和合併,以產生通道注意力圖。單就一張圖來說,通道注意力,關注的是該張圖上哪些內容是有重要作用的。平均值池化對特徵圖上的每一個像素點都有反饋,而最大值池化在進行梯度反向傳播計算時,只有特徵圖中響應最大的地方有梯度的反饋。通道注意力機制表達為:
[0093]
mc(f)=σ(mlp(avgpool(f))+mlp(avgpool(f)))
[0094]
空間注意力模塊ms(f)將通道注意力輸出的特徵圖作為輸入特徵。首先進行基於通道的全局最大池化和全局平均池化操作,再將這兩個結果基於通道合併,經過一個卷積操作,降維為1個通道。再經過sigmoid激活函數生成空間注意力權重,將該特徵和空間注意
力模塊的輸入特徵逐元素相乘,得到最終的輸出特徵,空間注意力機制表達為:
[0095]ms
(f)=σ(f7×7([avgpool(f);maxpool(f)i))
[0096]
其中,σ表示sigmoid操作,7
×
7表示卷積核的大小。空間注意力梯度是對通道進行壓縮,在通道維度分別進行了平均值池化和最大值池化。最大池化是提取通道維度上的最大值,提取的次數是特徵圖的高乘以寬;平均池化的操作就是提取通道維度的平均值,提取的次數也是特徵圖的高乘以寬;將前面所提取到的特徵圖(通道數都為1)合併得到一個2通道的特徵圖。
[0097]
對每個特徵層的空間注意力及注意力權重求梯度顯著性。在得到帶權重特徵圖之後,按照積分梯度的方法,對注意力特徵按如下公式計算其歸因矩陣(積分梯度即對輸入在基線值到當前值的路徑上求梯度的積分):
[0098]
m=[mc(f),ms(f)i
[0099][0100]
其中

為點乘,α代表線性插值的權重,當其值為0時代表所有輸入特徵間的注意力權重為0,m
c/s
表示對通道注意力和空間注意力分別求積分梯度。
[0101]
步驟2.3,將上一步輸出的帶注意力梯度權重的特徵圖進行一個步長為1,卷積核大小為1的cbl模塊,對特徵進行整合,輸出不同解析度大小,不同通道數的帶有注意力梯度的特徵。輸出特徵為c2,c3,c4,c5,使用低層級的網絡,能夠對小目標的特徵進行表示。
[0102]
注意力梯度模塊的網絡參數如表2所示:
[0103]
表2:輕量化的注意力梯度特徵提取網絡參數
[0104][0105][0106]
步驟3:將步驟2得到的不同解析度的具有不同注意力梯度的特徵圖入特徵金字塔網絡進行特徵融合,獲得同時具有低層級的紋理細節特徵與高層級的語義信息的金字塔特徵,使所述金字塔特徵適應複雜背景下空對地不同尺度目標的檢測。
[0107]
將步驟2得到的不同解析度的具有不同注意力梯度的特徵圖c2,c3,c4,c5輸入特徵金字塔網絡進行特徵融合,獲得同時具有低層級的紋理細節特徵與高層級的語義信息的金字塔特徵p2,p3,p4,p5,並將p5使用一個3x3卷積核大小的cbl操作得到p6使所述金字塔特徵適應複雜背景下空對地不同尺度目標的檢測,用如下公式表示:
[0108]
p2,p3,p4,p5=f1(c2,c3,c4,cs)
[0109]
p6=f2(p5)
[0110]
所述特徵金字塔網絡f1,首先經過一個1x1的卷積,將不同解析度的具有不同注意力梯度的特徵通道進行整合,再將低解析度的特徵通通過最近鄰插值進行2倍上採樣,與高解析度的特徵進行對應元素累加融合,f2表示一個3x3卷積核大小的cbl操作,最後使用3x3的卷積對特徵再次進行特徵整合,生成用於空對地目標檢測的同時低層級紋理信息以及高層級語義信息的金字塔特徵p2,p3,p4,p5,p6。
[0111]
步驟4:將具有同時低層級的紋理信息和高層級的語義信息的金字塔特徵輸入解耦的分類預測模塊和位置預測模塊,分別進行空對地目標的分類、位置回歸,得到不同空對地目標的分類得分、位置回歸坐標,即通過對分類預測模塊和位置預測模塊解耦處理提高空對地目標檢測網絡訓練的收斂速度。所述分類預測模塊、位置預測模塊都使用4個卷積核大小為的cbl進行特徵的再一次整合,在分類預測模塊中使用1個1x1的卷積核輸出不同目標類別的得分,在置預測模塊使用1個1x1的卷積核輸出相應的位置(x,y,w,h),如圖2所示。
[0112]
步驟5:根據不同寬高比、縮放比以及不同步長在特徵圖上生成用於空對地目標檢測的先驗錨框,結合步驟4得到的不同空對地目標的分類得分、位置回歸坐標,以標註框為導向,通過判斷錨框是否在所述標註框內對正負樣本進行劃分;採用基於數理統計的動態正負樣本分配策略,為每一個真實標註框分配正負樣本,以標註框為導向動態濾除負樣本以提高錨框的分配效率。
[0113]
基於數理統計的動態正負樣本分配策略具體實現如下:
[0114]
步驟5.1:計算真實標註框gt與所有預設錨框bbox的重疊度iou,計算方式如下:
[0115][0116]
步驟5.2:計算真實框的中心點坐標(gt
cx
,gt
cy
)與預設錨框的中心點(bbox
cx
,bbox
cy
)的歐式距離d;
[0117][0118]
步驟5.3:對於每個真實標註框,取中心點距離最小的前k個錨框作為候選正樣本;
[0119]
步驟5.4:計算這k個候選正樣本的iou均值mean與標準差std,並將均值與標準差相加的值作為最終的iou,記為final_iou,計算方式如下:
[0120]
mean=(i0u1+iou2++iouk)/k
[0121][0122]
final_iou=mean+std
[0123]
步驟5.5:將候選正樣本與真實標註的重疊度大於或等於final_iou的選為最終的正樣本進行位置回歸。
[0124]
步驟6:訓練用於空對地目標檢測的輕量化網絡。使用步驟1中採集的空對地目標數據集及相關標籤數據,訓練步驟2、3、4搭建的輕量化的注意力梯度空對地目標檢測網絡,圖像中正負樣本的劃分採用步驟5所述方式。訓練過程中對選出的正樣本計算分類損失和
回歸損失,將兩種損失加起來為網絡的總損失值,使用這一損失值來更新網絡的權重,實現端到端的訓練,得到訓練好的用於空地目標檢測的輕量化注意力梯度特徵提取網絡,所述分類損失為focal loss,回歸損失為giou loss。
[0125]
focal loss分類損失計算方式如下:
[0126][0127]
上式中,y=1表示預測該目標為前景目標,p的取值範圍為0~1,表示模型預測屬於前景的概率。
[0128]
l
cls
=-(1-p
t
)γlog(pt)
[0129]
式中,l
cls
表示類別損失,γ為調節因子,範圍在[0,5]之間,易分類樣本的p
t
越大,則(1-p
t
)
γ
趨近於0,對損失的貢獻越小,降低了易分類樣本的損失比例。
[0130]
giou loss位置回歸損失計算方式如下,記真實框為gt,預測框為bbox,iou計算方式如步驟5中所述:
[0131][0132]
l
reg
=1-giou
[0133]
其中,c表示gt與bbox形成的最小外接矩形,c\(gt∪bbbox)表示在這一外接矩形中除去gt∪bbbox外剩下的部分,l
reg
表示位置回歸損失;
[0134]
總的損失函數為:
[0135]
l=l
cls
+λl
reg
[0136]
其中λ為協調因子,調整兩種損失函數在訓練過程中的佔比,一般為2。
[0137]
步驟7:將步驟6訓練好的輕量化注意力梯度空對地目標檢測模型移植到空對地平臺系統上,將不帶標籤的從空中拍攝的地面圖像,輸入步驟6訓練後的輕量化注意力梯度特徵提取網絡,實現複雜背景下的高精度高效率空對地的目標檢測,檢測效果圖如圖4所示。
[0138]
為了驗證本發明的檢測精度以及模型參數量,本發明應用準確率(precision,p)、漏檢率(recall,r)來衡量檢測算法的性能。為了計算準確率和漏檢率,我們引入一下定義:
[0139]
(1)true_positive(tp):正樣本被訓練模型檢測正確出來;
[0140]
(2)true_negative(tn):負樣本被訓練模型檢測正確出來;
[0141]
(3)false_positive(fp):負樣本被模型檢測為正樣本(誤檢);
[0142]
(4)false_negative(fn):正樣本被模型預測為負樣本(漏檢)。
[0143]
計算方式如下:
[0144][0145]
ap=∫
01
p(r)dr[0146]
ap值是p,r曲線形成的面積的,面積越大,表示ap越高,則檢測精度越高。
[0147]
本實施例給出了本發明在visdrone2019數據集的表現效果,表3為本發明和其他方法的效果對比,可以看出本發明在檢測精度及模型參數上全面優於其他方法,在模型參數基本一致的情況下,本發明較大幅度能提高空對地目標檢測的精度,尤其提高了對小目標的檢測精度。
[0148]
表3:不同目標檢測方法在visdrone2019數據集上的實驗結果
[0149][0150][0151]
在表3中,[email protected]:0.90示在不同iou閾值(從0.5到0.95,步長0.05,即0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均ap值,ap@50表示iou為0.5時的ap,aps表示對小尺度物體檢測的ap,apm表示對中尺度物體檢測的ap,apl表示對大尺度物體檢測的ap,params表示模型的參數量,值越小說明模型越輕量。
[0152]
綜上所述,本發明公開的基於注意力梯度的輕量化空對地目標檢測方法,應用在空對地目標檢測領域。在公開的visdrone2019數據集上的實驗結果可以看出,本發明對空對地目標檢測的平均ap達到了21.8,其中小目標的檢測ap達到16.5,與典型的單階段方retinanet、atss或者雙階段方法faster r-cnn對比,在檢測精度和模型參數上都存在明顯優勢;雖然yolov3與yolox-s模型參數量與本發明對比起來較少,但是檢測精度遠低於本發明。利用本發明對空對地的目標進行準確識別,可以提高空地平臺的感知能力,具有很高的工程應用價值。
[0153]
以上所述的具體描述,對發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施例而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀