单目摄像头物体深度计算基础原理

三维空间物体表面点位与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数，而相机参数的求解就是相机标定。

相机的参数矩阵包括内参和外参：
外参：决定现实坐标到摄像机坐标。摄像机的旋转平移属于外参，用于描述相机在静态场景下相机的运动，或者在相机固定时，运动物体的刚性运动。因此，在图像拼接或者三维重建中，就需要使用外参来求几幅图像之间的相对运动，从而将其转换到同一个坐标系下面。
内参：决定摄像机坐标到图像坐标。
畸变矩阵：镜头的映射无法做到直线射影变换，存在的误差需要畸变参数来描述。为易于理解，以下公式假设完美状态下，不存在该项。

内参数矩阵 ( K )：
$\begin{pmatrix} f_x & s & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{pmatrix}$
其中：
- $f_x, f_y$ ：相机在 $x$ 和 $y$ 方向的焦距（单位：像素）。
- $c_x, c_y$ ：相机的主点（光轴与图像平面交点在图像中的位置）。
- $s$ ：坐标轴倾斜参数，理想情况为0。
外参数矩阵 ( [R | T] )：
$\begin{pmatrix} r_{11} & r_{12} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \end{pmatrix}$
其中：
- $R$ 为旋转矩阵，描述相机坐标系相对于世界坐标系的旋转。
- $T = (t_x, t_y, t_z)$ 为平移向量，描述相机坐标系原点相对于世界坐标系原点的平移。

公式推导：

为了通过相机模型测距，我们可以通过 图像坐标与世界坐标的转换 来推导出目标物体的深度（Z轴）：

假设目标物体的世界坐标为 $P_{world} = (X, Y, Z)^T$ ，并且它在图像平面上的投影点为 $p_{image} = (u, v)$ 。
相机的成像过程可以表示为：
$\lambda \begin{pmatrix} u \\ v \\ 1 \end{pmatrix} = K [R | T] \begin{pmatrix} X \\ Y \\ Z \\ 1 \end{pmatrix}$
其中， $\lambda$ 是比例因子（与深度 Z相关）。
方程中，每个图像点 $(u, v)$ 对应一条三维射线，需额外信息确定具体深度。
通过矩阵乘法，得到：
$\begin{pmatrix} u \\ v \\ 1 \end{pmatrix} = \frac{1}{Z} \begin{pmatrix} f_x & s & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} R_{11} & R_{12} & R_{13} & t_x \\ R_{21} & R_{22} & R_{23} & t_y \\ R_{31} & R_{32} & R_{33} & t_z \end{pmatrix} \begin{pmatrix} X \\ Y \\ Z \\ 1 \end{pmatrix}$
通过图像坐标 $(u, v)$ 和世界坐标的关系，我们可以推导出物体的 深度 ( Z )：
$\frac{f_x \cdot \left( X \cdot r_{13} + Y \cdot r_{23} + Z \cdot r_{33} + t_z \right)}{X \cdot r_{11} + Y \cdot r_{21} + Z \cdot r_{31} + t_x}$

参数定义：

$Z$ ：目标物体的实际距离（即深度或相机到物体的距离）。
$f_x, f_y$ ：相机的焦距（在像素单位下）。
$c_x, c_y$ ：图像平面的主点位置（通常是图像的中心）。
$(u, v)$ ：物体在图像中的像素坐标。
$(X, Y, Z)$ ：目标物体在世界坐标系中的三维坐标。
$R$ ：相机的旋转矩阵，描述相机坐标系相对于世界坐标系的旋转。
$T = (t_x, t_y, t_z)$ ：相机的平移向量，描述相机坐标系与世界坐标系之间的平移。

求解方式：

已知平面约束（如地面）
假设目标点位于 ( Z = 0 ) 平面，代入投影方程后，方程简化为：
$\begin{cases} u = \frac{f_x (r_{11}X + r_{12}Y + t_x) + c_x (r_{31}X + r_{32}Y + t_z)}{r_{31}X + r_{32}Y + t_z} \\ v = \frac{f_y (r_{21}X + r_{22}Y + t_y) + c_y (r_{31}X + r_{32}Y + t_z)}{r_{31}X + r_{32}Y + t_z} \end{cases}$
解法：通过线性代数解方程组，直接求出 X, Y。
应用场景：自动驾驶（地面目标定位）、AR（平面跟踪）。
多视角观测（立体视觉）
原理：两个及以上相机（已知相对位姿）观测同一目标，通过三角化计算唯一三维坐标。
公式：联立多视角投影方程，求解超定方程组。
示例：双目摄像头或运动中的单目相机（SLAM）。
深度传感器辅助（RGB-D相机）
通过激光雷达或结构光测得每个像素的深度值 ( Z ) ，通过深度获取每个像素的深度值，代入投影方程反推 ( X ) 和 ( Y )：
$\frac{(u - c_x) \cdot Z}{f_x}, \quad Y = \frac{(v - c_y) \cdot Z}{f_y}$
几何约束（已知物体尺寸或距离）
已知两点的实际距离 ( L )，结合投影方程与距离公式：
$\sqrt{(X_1 - X_2)^2 + (Y_1 - Y_2)^2 + (Z_1 - Z_2)^2} = L$