Files
openmlsys-zh/chapter_rl_sys/perception.md
Jack 1315f33568 Robotics 3.24 (#433)
* robotics 3.24

* robotics 3.24

---------

Co-authored-by: Cheng Lai <laicheng_VIP@163.com>
2023-03-27 10:57:25 +08:00

45 lines
4.8 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
## 感知系统
感知系统不仅包括视觉感知,还可以包含触觉、声音等。在未知环境中,机器人想实现自主移动和导航必须知道自己在哪(通过相机重定位 :cite:`ding2019camnet`周围什么情况通过3D物体检测 :cite:`yi2020segvoxelnet`或语义分割),预测相机在空间的轨迹 :cite:`9813561`,这些要依靠感知系统来实现 :cite:`xu2019depth`
一提到感知系统不得不提的就是即时定位与建图Simultaneous Localization
and
MappingSLAM)系统。SLAM大致过程包括地标提取、数据关联、状态估计、状态更新以及地标更新等。视觉里程计Visual
Odometry是SLAM中的重要部分它估计两个时刻机器人的相对运动Ego-motion。ORB-SLAM系列是视觉SLAM中有代表性的工作 :numref:`orbslam3` 展示了最新的ORB-SLAM3的主要系统组件。香港科技大学开源的基于单目视觉与惯导融合的SLAM技术VINS-Mono也很值得关注。多传感器融合、优化数据关联与回环检测、与前端异构处理器集成、提升鲁棒性和重定位精度都是SLAM技术接下来的发展方向。
最近随着机器学习的兴起基于学习的SLAM框架也被提了出来。TartanVO是第一个基于学习的视觉里程计VO模型该模型可以推广到多个数据集和现实世界场景并优于传统基于几何的方法。
UnDeepVO是一个无监督深度学习方案能够通过使用深度神经网络估计单目相机的
6-DoF 位姿及其视图深度。DROID-SLAM是用于单目、立体和
RGB-D 相机的深度视觉 SLAM它通过Bundle
Adjustment层对相机位姿和像素深度的反复迭代更新具有很强的鲁棒性故障大大减少尽管对单目视频进行了训练但它可以利用立体声或
RGB-D 视频在测试时提高性能。其中Bundle Adjustment
(BA)与机器学习的结合被广泛研究。CMU提出通过主动神经
SLAM
的模块化系统帮助智能机器人在未知环境中的高效探索。
### 物体检测与语义分割
感知系统不仅包括视觉感知,还可以包含触觉、声音等。在未知环境中,机器人想实现自主移动和导航必须知道自己在哪(通过相机重定位 :cite:`ding2019camnet`周围什么情况通过3D物体检测 :cite:`yi2020segvoxelnet`或语义分割),预测相机在空间的轨迹 :cite:`9813561`,这些要依靠感知系统来实现 :cite:`xu2019depth`
图像语义分割作为一项常用而又经典的感知技术经过多年不停的迭代传统的2D技术已经渐渐的趋于成熟提升空间较小。同时传统的2D语义分割有一定的局限性很难从2D图像中直接获知物体的空间位置、以及其在整体空间中的布局要知道整体空间的位置信息还是需要更多的三维信息。为了让机器人从单纯的2D图像出发得到空间中物体三维的坐标、语义和边界信息跨视角语义分割 :cite:`9123682`吸引了众多研究者的关注。
### 即时定位与建图SLAM
将一个机器人放到未知的环境中如何能让它明白自己的位置和周围环境这要靠即时定位与建图Simultaneous Localization and MappingSLAM系统来实现。
图:numref:`orbslam3` 展示了最新的ORB-SLAM3的主要系统组件。
SLAM大致过程包括地标提取、数据关联、状态估计、状态更新以及地标更新等。SLAM系统在机器人运动过程中通过重复观测到的地图特征比如墙角柱子等定位自身位置和姿态再根据自身位置增量式的构建地图从而达到同时定位和地图构建的目的。
DROID-SLAM是用于单目、立体和 RGB-D 相机的深度视觉 SLAM它通过Bundle Adjustment层对相机位姿和像素深度的反复迭代更新具有很强的鲁棒性故障大大减少尽管对单目视频进行了训练但它可以利用立体声或 RGB-D 视频在测试时提高性能。
其中Bundle Adjustment (BA)描述了像素坐标和重投影坐标之间误差的和重投影坐标通常使用3D坐标点和相机参数计算得到。BA计算量较大较为耗时爱丁堡大学提出通过分布式多GPU系统 :cite:`MegBA` 对BA计算进行加速。随着机器学习的发展BA与机器学习的结合被广泛研究。
视觉里程计Visual Odometry是SLAM中的重要部分它估计两个时刻机器人的相对运动。
最近随着机器学习的兴起基于学习的VO框架也被提了出来。
TartanVO是第一个基于学习的视觉里程计VO模型该模型可以推广到多个数据集和现实世界场景并优于传统基于几何的方法。
![ORB-SLAM3主要系统组件 :cite:`campos2021orb`](../img/ch13/orbslam3.png)
:width:`800px`
:label:`orbslam3`