Camera Pose Estimation Using 2D-3D Line Pairs Acquired and Matched with a Robust Line Detector and Descriptor

Camera pose estimation refers to estimating the camera pose, which is composed of the rotation R and translation t parameters with respect to the world coordinate system. Estimating the projective mapping and thereby extracting the camera parameters is the goal of camera pose estimation. However, th...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Abdellali Hichem
További közreműködők: Kató Zoltán (Témavezető)
Dokumentumtípus: Disszertáció
Megjelent: 2022-04-29
Tárgyszavak:
doi:10.14232/phd.11097

mtmt:33095661
Online Access:http://doktori.ek.szte.hu/11097
Leíró adatok
Tartalmi kivonat:Camera pose estimation refers to estimating the camera pose, which is composed of the rotation R and translation t parameters with respect to the world coordinate system. Estimating the projective mapping and thereby extracting the camera parameters is the goal of camera pose estimation. However, the pose estimation process requires input parameters, like points, planes, or lines. In this thesis, we work with 2D-3D line pairs; therefore, we focused on finding a solution for 2D line detection and matching through fully automatic algorithms and CNN. This thesis proposes novel solutions for pose estimation using 2D-3D line pairs and a novel line segment detector and descriptor based on convolutional neural networks. The pose solvers can estimate the absolute and relative pose of a camera system of a general central projection camera such as perspective or omnidirectional cameras. They work both for the minimal case and the general case using 2D-3D line pairs in presence of noise, or outliers. The algorithms have been validated on a large synthetic dataset as well as on real data. Experimental results confirm the stable and real-time performance under realistic conditions. Comparative tests show that our method compares favorably to the latest State-of-the-Art algorithms. Regarding the learnable line segment detector and descriptor, it allows efficient extraction and matching of 2D lines on perspective images. While many hand-crafted and deep features have been proposed for key points, only a few methods exist for line segments. However, line segments are commonly found in structured environments, in particular urban scenes. Moreover, lines are more stable than points and robust to partial occlusions. %Thus they are important for applications like pose estimation, visual odometry, or 3D reconstruction. Our method relies on a 2-stage deep convolutional neural network architecture: In stage 1, candidate 2D line segments are detected, and in stage 2, a descriptor is generated for the extracted lines. The network is trained in a self-supervised way using an automatically collected dataset. Experimental results confirm the State-of-the-Art performance of the proposed L2D2 network on two well-known datasets for autonomous driving both in terms of detected line matches as well as when used for line-based camera pose estimation and tracking.
A kamera-pozíció becslése a kamera pózának becslésére vonatkozik, amely az R forgatási és a t transzlációs paraméterekből áll a világkoordináta-rendszerhez képest. A kamerapóz becslés célja a projektív leképezés becslése és ezáltal a kamera paramétereinek kinyerése. A pózbecslési folyamat azonban bemeneti adatokat igényel, melyek lehetnek például pontok, síkok vagy vonalak. Ebben a dolgozatban 2D-3D egyenespárokkal dolgozunk, ezeket használó megoldásokat javasoltunk, ezért megoldást kerestünk a 2D egyenes-detekcióra és -illesztésre is egy teljesen automatikus algoritmus és egy CNN segítségével. A disszertáció új megoldásokat javasol a pózbecsléshez 2D-3D egyenespárok és egy új, konvolúciós neurális hálón alapuló egyenes-szakasz detektor és leíró segítségével. A pózbecslők meg tudják becsülni egy általános középpontos kamerarendszer abszolút és relatív pozícióját, ilyen kamerarendszer állhat például perspektivikus vagy omnidirekcionális kamerákból is. A megoldók 2D-3D vonalpárok használatával mind a minimális esetekre, mind az általános esetekre működnek, zaj vagy kiugró értékek jelenlétében is. Az algoritmusokat nagyméretű szintetikus adatkészleten és valós adatokon is validáltuk. A kísérleti eredmények alátámasztják a stabil és valós idejű teljesítményt akár valós körülmények között is. Az összehasonlító tesztek azt mutatják, hogy módszerünk jól teljesít a legmodernebb algoritmusokkal szemben. Ami a tanulható egyenes-szakasz detektort és leírót illeti, lehetővé teszi a 2D szakaszok hatékony kinyerését és illesztését perspektivikus képeken. Míg számos kézzel készített és mély-háló alapú jellemzőt javasoltak már kulcspontokhoz, a vonalszakaszokhoz csak néhány módszer létezik. A vonalszakaszok azonban gyakran megtalálhatók strukturált környezetekben, különösen városi jelenetekben. Ezenkívül a vonalak stabilabbak, mint a pontok, és robusztusak a részleges takarásokra. Ezért fontosak az olyan alkalmazásokhoz, mint a pózbecslés, a vizuális odometria vagy a 3D-s rekonstrukció. Módszerünk egy 2 lépéses mélykonvolúciós neurális hálózati architektúrán alapul: az 1. szakaszban lehetséges 2D vonalszakaszokat detektálunk, a 2. szakaszban pedig leírót generálunk a kinyert vonalakhoz. A hálózat tanítása önfelügyelt módon történik egy automatikusan gyűjtött adatkészlet segítségével. A kísérleti eredmények megerősítik a javasolt L2D2 hálózat legkorszerűbb teljesítményét két jól ismert autonóm vezetési adathalmazon, mind a detektált vonalak párosítása, mind pedig az egyenes alapú kamerapózbecslési és -követési alkalmazások tekintetében.