一種基於幾何特徵的視覺重建方法與流程
2023-10-08 12:38:34 2

本發明屬於計算機視覺技術領域,具體涉及一種對目標場景進行幾何特徵提取和匹配的視覺重建技術。
背景技術:
地圖重建和定位一直是計算機視覺領域的重要技術之一,在近十年內得到了工業界和學術界的廣泛關注。現有技術「Google Map Indoor,https://www.google.com/maps/about/partners/indoormaps」公開了一種Google Map Indoor(GMI),其由Google公司推出的室內定位系統基於Wi-Fi信號進行三角定位,並沒有獲得廣泛的使用。主要原因是Wi-Fi信號的定位精度並不理想無法達到商用級別,同時無法繪製視覺地圖無法給用戶提供一種容易理解的定位方式。為克服這些缺點,現有技術「S.Sen,J.Lee,K.Kim,and P.Congdon.Avoiding Multipath to Revive Inbuilding WiFi Localization.In Proc.of the 11th ACM MobiSys,pages 249-262,2013」提出可以使用基於指紋的方法和AoA的測距方法來改進定位精度,使用現有技術中「R.Gao,M.Zhao,T.Ye,F.Ye,Y.Wang,K.Bian,T.Wang,and X.Li.Jigsaw:Indoor Floor Plan Reconstruction via Mobile Crowdsensing.In Proc.of the 20th ACM MobiCom,pages 249-260,2014」的crowdsensing來繪製地圖等等。但是這些方法的定位精度仍然在數米級,而且並不能解決地圖和定位結果和用戶視覺理解地圖定位並不匹配的問題。另外現有技術「G.R.Grompone,J.Jakubowicz,J.M.Morel,et al.LSD:a fast line segment detector with a false detection control[J].IEEE transactions on pattern analysis and machine intelligence,32(4):722-732,2010」公開了一種LSD方法,具體公開了如何提取圖片中的線段。在實際生活中,用戶使用視覺來確定自己的位置,因此計算機視覺技術是一種更直觀的地圖重建和定位的方法,同時基於計算機視覺的地圖重建和定位精度還可以提供更高的精度。但是計算機視覺的算法通常具有很高的複雜性,需要大量的計算資源和存儲資源,難以在資源受限的手機上或可穿戴設備上運行。現在手機上的光學傳感器越來越豐富,表現通常手機配備了多個攝像頭,例如華為榮耀V8、LG Optimus 3D、LG V10、HTC EVO 3D、HTC One(M8)等都配備了雙後置攝像頭。雙(後置)攝像頭給視覺重建、定位等提供了便利。但是傳統的視覺重建定位方法通常是基於點的,即像素級別的計算,計算複雜消耗大量的計算和電池資源。
視覺重建的目標場景通常幾何特徵豐富的觀察,如教室內的黑板、海報、窗戶等都是規則的長方形。圖1是辦公樓走廊的一角,可以看出該場景中有豐富的幾何形狀。
技術實現要素:
本發明針對上述問題的不足,提出一種基於幾何特徵的視覺重建方法,本方法僅利用了幾何組塊而非像素完成場景重建,極大地降低了計算和存儲開銷,並且可以達到很高的匹配精度乃至場景重建精度。
本發明為解決上述技術問題提出的技術方案是:
一種基於幾何特徵的視覺重建方法,包括以下步驟:
步驟1,採用雙攝像頭對目標場景進行連續圖像採集。
步驟2,對每一張的圖片進行幾何組塊提取。
首先在圖片中提取線,提取了線段後,矩形搜索算法將檢查線段是否可以構成矩形。
步驟3,根據雙攝像頭中心坐標對不同時刻的場景照片中的幾何組塊進行3D重建,一個點P在物理世界的坐標(X,Y,Z)和圖片上的坐標(x,y,1)轉換的關係為:
其中f為焦距。
在場景重建時,並不對所有像素點進行3D重建,而僅對矩形的四個頂角進行3D重建,由此確定幾何組件的3D位置和現實尺寸。
步驟4,根據步驟3中得到的3D重建恢復出幾何組塊匹配特徵,根據恢復的幾何組塊匹配特徵對不同時刻的場景照片中的對應的幾何組塊進行兩兩匹配。幾何組塊匹配特徵包括幾何組塊的尺寸和像素特徵,記為一個二元元祖Feature=(Dimension,Texture)。Feature表示幾何組塊匹配特徵,Dimension表示幾何組塊的尺寸,Texture表示像素特徵。
步驟5,根據匹配的幾何組塊進行,將兩個場景連接起來,最終重建完整的3D場景。
優選的:所述步驟2中矩形搜索算法:在同一平面內,從某一條線段出發,尋找是否有一條線段與之垂直,如果有則繼續尋找是否存在第三條線段與第二條垂直,繼續尋找第四條線段。如果四條線段都存在,則構成矩形。
所述步驟3中在進行幾何組塊匹配時,若兩個組塊的幾何組塊匹配特徵Feature相差小於一定閾值,則表示兩個幾何組塊是匹配的。如果相差超過一個閾值,則不匹配。
所述步驟4中幾何組塊的尺寸通過步驟3中得到的3D重建獲取其對應的幾何組塊的尺寸。
像素特徵通過對每個組塊的像素矩陣都將使用壓縮感知壓縮為長度為M的矢量並進行歸一化,壓縮感知中的觀測矩陣使用高斯隨機矩陣,稀疏矩陣使用差分矩陣。
所述步驟5中若兩個場景照片中的兩個幾何組塊匹配,則基於該幾何組塊進行坐標系的統一,將兩個場景連接起來,連續處理場景照片最終重建完整的3D場景。
相比現有技術,具有以下有益效果:
本發明在進行3D場景重建時並不針對每個像素進行重建,而是首先提取每個場景具有幾何特徵的物體(幾何組件),基於幾何組塊進行單張場景圖片的3D場景重建,再使用幾何組塊的尺寸和像素信息等幾何特徵作為匹配特徵進行多張場景圖片之間的匹配,即主要利用場景照片的幾何特徵進行多圖匹配,可以僅利用稀疏照片進行輕量級的場景重建以及精確定位,並最終完成3D場景重建。該方案僅利用了幾何特徵而非像素完成場景重建,極大地降低了計算和存儲開銷,並且可以達到很高的匹配精度和場景重建精度,同時可以便利的在手機或可穿戴設備上使用,並且達到很高的重建和定位精度。
附圖說明
圖1人造環境中有豐富的幾何元素。
圖2基於幾何組件的匹配。圖2(a)表示對場景照片進行幾何組件的提取和匹配,如圖2(b)表示完整的場景圖。
圖3系統框架圖。
具體實施方式
附圖非限制性地公開了本發明一個優選實施例的結構示意圖,以下將結合附圖詳細地說明本發明的技術方案。
實施例
本發明提出的一種基於幾何特徵的視覺重建方法,如圖3所示,利用幾何特徵進行場景之間的匹配。在進行3D場景重建時並不針對每個像素進行重建,而是首先提取每個場景的幾何組塊,如長方形的黑板和海報等,基於幾何組塊進行單張圖片的3D場景重建,再使用幾何組塊的幾何數據(如黑板的長寬等),和幾何組塊的像素信息(如黑板的黑色)等作為特徵進行多張圖片之間的匹配,並最終完成3D場景重建。該方案僅利用了幾何組塊而非像素完成場景重建,極大地降低了計算和存儲開銷,並且可以達到很高的匹配精度乃至場景重建精度。具體實現過程為:
·用戶會使用雙攝像頭的手機或可穿戴設備對目標場景進行連續圖像採集;
·對每一張新的圖片都會進行幾何組塊提取,幾何組塊包括具有長方形、圓形等幾何圖形的物體,如黑板、窗戶等。
·基於幾何組塊進行3D重建,而並不是針對每個點(像素)進行3D重建。每個幾何組塊都會在資料庫中存儲。
·基於幾何組塊的匹配。重建的幾何組塊其幾何信息,如長方形組塊的長和寬,連同幾何組塊的像素信息將公式作為場景匹配的特徵,與前一張圖片提取的組塊或資料庫中存儲的幾何組塊進行匹配。
·基於幾何組塊的重建。如果發現相匹配的圖片即可將新圖片重建的3D場景和資料庫中已有的3D場景連接起來,並更新資料庫。隨著連續圖片的匹配完成,一個完整的3D場景地圖也隨之完成。
可以看出,本發明主要包含4個功能模塊:幾何組塊的提取模塊、單張照片的3D重建、幾何組塊的匹配模塊和3D場景重建模塊。下面將分別敘述每個模塊的具體方案。
1幾何組塊的提取模塊
首先在圖片中提取線,計算機視覺中已經有大量的工作研究如何提取圖片中的線段。基於某種方法例如LSD方法提取了線段後,矩形搜索算法將檢查線段是否可以構成矩形。其具體實現為:從某一條線段出發,尋找是否有一條線段與之垂直,如果有則繼續尋找是否存在第三條線段與第二條垂直,繼續尋找第四條線段。如果四條線段都存在,則構成矩形。值得注意的是,本發明也可以使用其他的改進算法,如引入機器學習的方法尋找矩形或其他幾何圖形,可以進一步提高提取精度。
2.單張場景照片的3D重建
一個點P在物理世界的坐標(X,Y,Z)和圖片上的坐標(x,y,1)轉換的關係為
其中f為焦距。
該式中有2個已知量、3個未知量(X,Y,Z)。由於本系統採用雙攝像頭,因此可以得到4個已知量與3個未知量的聯立方程式,可以解出方程進行3D場景的重建。
本發明採用基於幾何組件的重建,在場景重建時,並不對所有像素點進行3D重建,而僅對長方形的四個頂角(或圓形的圓點和半徑等)進行3D重建,由此確定幾何組件的3D位置和現實尺寸(長和寬)。與傳統的基於像素點的重建方法相比,本發明可以大幅度的簡化計算。
3.幾何組塊匹配問題
本發明的幾何組塊匹配特徵包括幾何組塊的尺寸和像素特徵,記為一個二元元祖Feature=(Dimension,Texture)。
Dimension是一個(2×1))的矢量。前面已經提到幾何組塊的3D重建可以恢復出幾何組塊的尺寸,如長和寬等。
理想情況下,像素特徵Texture應該包括幾何組塊的所有像素點,才能達到最好的匹配精度。但是幾何組塊的重建可能存在誤差,導致兩個場景的匹配無法在相同尺度下進行。同時保存和比較所有像素點也會增加計算、存儲的開銷和延時。在本發明中,考慮到現實生活中組塊像素通常具有稀疏性,每個組塊的像素矩陣都將使用壓縮感知壓縮為長度為M(例如M=100)的矢量並進行歸一化。壓縮感知中的觀測矩陣(measurement matrix)使用高斯隨機矩陣,稀疏矩陣(reprehensive basis)使用差分矩陣。因此特徵元祖中的Texture是一個(M×1)的矢量。
在進行幾何組塊匹配時,若兩個組塊的Feature相差小於一定閾值,則表示兩個幾何組塊是匹配的;如果相差超過一個閾值,則不匹配。
4.基於幾何組塊的重建
若兩個場景照片中的兩個幾何組塊匹配,則基於該幾何組塊進行坐標系的統一,將兩個場景連接起來。連續處理場景照片最終重建完整的3D場景。
如圖2所示,圖2(a)中對場景照片進行幾何組件的提取和匹配,如圖2(a)所示,圖中的幾何組件門被白色的邊框給標示出,被認為匹配,通過該幾何組件門可以將兩個場景拼接起來,構成完整的場景圖,如圖2(b)所示。
上面結合附圖所描述的本發明優選具體實施例僅用於說明本發明的實施方式,而不是作為對前述發明目的和所附權利要求內容和範圍的限制,凡是依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化與修飾,均仍屬本發明技術和權利保護範疇。