實時語義分割最流行(一文帶你讀懂SegNet語義分割)
2023-04-29 23:10:30 1
本文為 AI 研習社編譯的技術博客,原標題 :
Review: SegNet (Semantic Segmentation)
作者 | SH Tsang
翻譯 | 史蒂芬•二狗子
校對 | 醬番梨 審核 | 詹森 · 李加薪 整理 | 立魚王
原文連結:
https://towardsdatascience.com/review-segnet-semantic-segmentation-e66f2e30fb96
這個圖是SegNet演示效果,來源是作者上傳到YouTube的一個視頻 (https://www.youtube.com/watch?v=CxanE_W46ts)
在本文中,我將簡要回顧劍橋大學的SegNet。最初它被提交到2015年CVPR,但最後它沒有在CVPR上發布(但它的2015年arXiv技術報告版本仍然有超過100次引用)。相反,它發布於2017年TPAMI,引用次數超過1800次。現在,第一作者成為Magic Leap Inc.的深度學習和人工智慧總監(SH Tsang @ Medium)
以下是作者的演示連結:
(https://www.youtube.com/watch?v=CxanE_W46ts)
還有一個有趣的演示,我們可以選擇隨機圖像,甚至上傳我們自己的圖像來試用SegNet。我試過如下例子:
http://mi.eng.cam.ac.uk/projects/segnet/demo.php
我從這個連結得到的道路場景圖像的分割結果
文章大綱
編碼-解碼器架構
DeconvNet 和 U-Net與的不同之處
結論
1.編碼-解碼器架構
SegNet: 編碼-解碼結構
SegNet具有編碼器網絡和相應的解碼器網絡,接著是按最終像素的分類層。
1.1. Encoder編碼器
在編碼器處,執行卷積和最大池化。
VGG-16有13個卷積層。 (不用全連接的層)
在進行2×2最大池化時,存儲相應的最大池化索引(位置)。
1.2. Decoder解碼器
使用最大池化的索引進行上採樣
在解碼器處,執行上採樣和卷積。最後,每個像素送到softmax分類器。
在上採樣期間,如上所示,調用相應編碼器層處的最大池化索引以進行上採樣。
最後,使用K類softmax分類器來預測每個像素的類別。
2. DeconvNet 和U-Net的不同
DeconvNet和U-Net具有與SegNet類似的結構。
2.1. DeconvNet 與 SegNet不同之處
Similar upsampling approach called unpooling is used.使用了類似的上採樣方法,稱為unpooling 反池化。
不同,有完全連接的層,這使模型規模更大。
2.2. U-Net 與 SegNet不同之處
用於生物醫學圖像分割。
整個特徵映射不是使用池化索引,而是從編碼器傳輸到解碼器,然後使用concatenation串聯來執行卷積。
這使模型更大,需要更多內存
3.結論
嘗試了兩個數據集。一個是用於道路場景分割的CamVid數據集。一個是用於室內場景分割的SUN RGB-D數據集。
3.1. 用於道路場景分割的CamVid數據集
道路場景分割的CamVid數據集上,與傳統方法相互比較
如上所示,SegNet在多類分割問題上獲得了非常好的結果。它也獲得了最高級別的類平均值和全局平均值。
道路場景分割的CamVid數據集上,與深度學習方法相比較
獲得最高的全局平均準確度(G),類別平均準確度(C),mIOU和邊界F1測量(BF)。它的結果優於FCN,DeepLabv1和DeconvNet。
定性結果
3.2. 用於室內場景分割的SUN RGB-D數據集
僅使用RGB,不使用深度(D)信息。
在室內場景分割的SUN RGB-D數據集,與深度學習方法比較
同樣,SegNet優於FCN,DeconvNet和DeepLabv1。
對於mIOU指標,SegNet只比DeepLabv1略差一些。
不同類的類平均準確度
大尺寸目標的準確度更高。
小尺寸目標的準確度較低。
定性分析結果
3.3. 內存和推斷時間
內存和推斷時間
SegNet比FCN和DeepLabv1慢,因為SegNet包含解碼器架構。它比DeconvNet更快,因為它沒有全連接層。
SegNet在訓練和測試期間的內存要求都很低。並且模型尺寸比FCN和DeconvNet小得多。
參考文獻
[2015 arXiv] [SegNet]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling
[2017 TPAMI] [SegNet]SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
想要繼續查看該篇文章相關連結和參考文獻?
點擊【一文帶你讀懂SegNet(語義分割)】或長按下方地址:
https://ai.yanxishe.com/page/TextTranslation/1532
AI研習社今日推薦:雷鋒網雷鋒網雷鋒網
李飛飛主講王牌課程,計算機視覺的深化課程,神經網絡在計算機視覺領域的應用,涵蓋圖像分類、定位、檢測等視覺識別任務,以及其在搜索、圖像理解、應用、地圖繪製、醫學、無人駕駛飛機和自動駕駛汽車領域的前沿應用。
加入小組免費觀看視頻:https://ai.yanxishe.com/page/groupDetail/19
,