1. 首頁>>新聞資訊>>行業資訊

論文筆記:PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

6D姿態:即相機坐標系下物體坐標系的3D位置(下圖中T)與3D方向(下圖中R)

10銀聯刷卡機,拉卡拉pos機產品演示

其中,fx,fy為焦距,一般情況下,二者相等,px、py為主點坐標(相對于成像平面),s為坐標軸傾斜參數,理想情況下為O

相機坐標系中的點3D點T,以及點T投影到相平面C之間的關系

1.提出了基于卷積神經網絡的端到端6D姿態估計方法PoseCNN,且在處理被遮擋物體時有較好魯棒性

12銀聯刷卡機,拉卡拉pos機電簽pos機

PoseCNN通過定位物體在圖像中的中心并預測其與相機的距離來估計物體的3D平移。

3.貢獻了一個大規模的RGB-D視頻數據集((共265G), YCB-Video^{1} 。其中標注了21個YCB物體,可用作6D姿態估計。

PoseCNN背后的一個關鍵思想是將姿態估計任務解耦到不同的組件中,這使網絡能夠顯式地建模它們之間的依賴關系和獨立性。具體來說,PoseCNN執行三個相關任務,如圖所示。首先,它為輸入圖像中的每個像素預測一個對象標簽。 其次,通過預測從每個像素到中心的單位向量,估計出物體中心的二維像素坐標;使用語義標簽,與對象相關聯的圖像像素在圖像中的對象中心位置上投票。此外,該網絡還可以估計物體中心的距離。假設已知的攝像機本征,對2D物體中心及其距離的估計使我們能夠恢復其3D平移t。最后,通過將物體邊界框內提取的卷積特征回歸到R的四元數表示,來估計3D旋轉R。二維中心投票和旋轉回歸來估計R和T可以應用于紋理/紋理無的物體,并且對遮擋具有魯棒性,因為網絡被訓練為即使在遮擋情況下也會對物體中心進行投票。

14銀聯刷卡機,拉卡拉pos機官方展示

第一階段由13個卷積層和4個maxpooling層組成,從輸入圖像中提取不同分辨率的特征映射

1.兩種特征映射的分辨率分別為原始圖像大小的1/8和1/16。該網絡首先使用兩個卷積層將兩個特征映射的信道維數降低到64。

3.再用另一個反卷積層將分辨率提高8倍,得到原始圖像大小的特征圖。

4銀聯電簽POS機_掃碼

4.最后,卷積層對特征圖進行運算,生成像素的語義標記分數。該層的輸出有n個通道,有n個語義類的數量。

6.在測試中,使用一個softmax函數來計算像素的類概率。

語義標記分支的設計靈感來自于中用于語義標記的全卷積網絡。它也在我們之前的工作中用于場景標簽。

37銀聯POS機,拉卡拉電簽pos刷卡機刷卡演示

輸入特征提取結果,回歸得到各像素指向物體中心的向量以及各像素的深度。輸入語義標簽

結果,經過霍夫投票層2—3處理后得到物體中心的3D位置,并輸出每個物體實例的Bounding BoX(以物體中心為中心,可包含所有inlier的方框)。

3.投票得到物體中心,可更好地解決物體被遮擋,影響預測的問題。

5拉卡拉收銀_pos機系列

1.每個物品分類中,每個像素按照預測單位向量的方向投票。得票數最多的區域即為物體2D中心;2.若同一個圖像中出現屬于同一物品分類的多個實例,對投票分數進行非極大值抑制(?)。選取得票數大于指定閾值的區域為物體中心;

3.物體中心的深度記為投票給它的各點(inliers)深度的平均值。最終3D位置結果可用第4頁中的公式算得。

輸入特征提取結果及Bounding Box,對各Bounding Box中的內容進行Rol Pooling1.2,調整其大小?;貧w后輸出表示物體姿態的四元數。

9拉卡拉pos機,電簽4g版

本文采摘于網絡,不代表本站立場,轉載聯系作者并注明出處:http://www.ddyjh.com/xmt/6371.html

聯系我們

在線咨詢:點擊這里給我發消息

微信號:pos5225

工作日:8:30-20:30
節假日:9:30-18:30

pos5225
微信聯系
欧美视频在线视频二区,九九热在线精品,欧美日本在线观看,亚洲免费观看大片,丁香婷婷5月,欧美第一页,精品火热视频,