黄浴博士：探讨鱼眼镜头和全向摄像头的深度学习方法及模型

介绍：

本文经黄宇博士授权，作者为黄宇。

有很多论文讨论了针对普通相机图像的各种应用的深度学习方法，但针对鱼眼镜头（）和全向（）相机的研究较少。继上周的内容之后，本文将列出一些，同时还将讨论深度学习中特别适合此类图像数据的模型，例如 STN、SCNN 和 DCN。

1. ： for 和 ges

在需要大视野的场景中，例如虚拟现实应用或自主机器人，全向摄像头比传统摄像头具有巨大的优势。不幸的是，标准卷积神经网络不适合这种情况，因为自然投影表面是一个球体，如果不引入显著的失真，它就无法展开成平面，尤其是在极地地区。

这是一个深度学习框架，其卷积神经网络明确编码了对此类扭曲的不变性。为了实现这一点，调整了卷积滤波器的采样位置，有效地反转了扭曲并将这些滤波器包裹在球体周围。现有的透视 CNN 模型可以通过常规卷积转移到全向 CNN 模型。它在图像分类和对象检测任务上采用了两个新创建的全向数据集。

该系统的概览如图所示：图 a + b 显示，用鱼眼镜头或 360° 运动相机拍摄的图像在球体上呈现效果最佳；图 c 显示在校准的等距矩形表示（图 b）上使用常规卷积（例如 3×3 滤波器核）会在极点处的采样位置（红色）附近受到扭曲；相反，图 d 显示了内核开发的采样模式在切平面（蓝色）上的投影（红色），产生的滤波器输出不会随纬度而变化。

的中心思想是将局部 CNN 操作（例如卷积和池化）从常规图像域提升到表示鱼眼或全向图像的球面。这是通过将核表示为与球面相切的小面片来实现的。当球面切平面上的物体从不同高度投影到等距矩形图像表示时，卷积核的采样网格位置会以相同的方式扭曲。如下图所示，球面表示（a）和等距矩形表示（b）中 φ = 0（蓝色）和 φ = 1.2（红色）的核采样模式。（注意（b）中 φ = 1.2 核的扭曲）

除了将失真不变性（）编码到 CNN 滤波器中之外，采样位置还包裹在球体内部。由于输入或中间特征图使用自定义采样位置进行采样，因此很容易让滤波器跨图像边界采样数据，从而消除了常规 CNN 处理全向图像时出现的不连续性，并提高了等矩形图像表示两侧分离或非常靠近极点的物体的识别能力。

如图所示，等矩形图像边界（红色）处的采样位置与传统 CNN（蓝色）的采样位置进行了比较。请注意，内核如何自动环绕左侧的图像边界（a），同时正确表示极点处的不连续性和变形（b）。因此，原始球面图像连通性得以保留，而传统的卷积神经网络会沿图像边界进行零填充，从而丢弃该连通性。

为了提高计算效率，采用了一种对球面图像更有效的采样方法。等距矩形表示对球面图像的极地区域进行了过采样（见图4a），导致在该区域几乎重复了图像处理操作。与等距矩形图像相比，该方法应用于数据均匀存储在球面上的表示形式，可以避免在极地区域进行不必要的计算。

该图显示了均匀球面采样的情况。球面上有 N = 200 个点的等距矩形采样网格 (a) 与基于 Saff 方法的近似值 (球面上有 N = 127 个均匀分布的采样点) (b、c) 的比较。请注意，均匀球面采样 (b) 中极点处的采样点比等距矩形表示 (a) 中这些区域的图像过采样要均匀得多。

调整卷积和池化内核的采样位置可以将其集成到图像分类 CNN 中。此外，与最近邻插值和等距矩形表示的双线性插值相比，均匀球面采样更为简单。集成到图像分类网络中不会引入新的模型参数，也不需要更改网络的训练。

为了在球体上执行物体检测，球面单次多框检测器 (-SSD) 将单次多框检测器 (SSD) 调整为球体切平面上的物体。SSD 使用完全卷积架构来预测一组不同尺度和长宽比的默认锚框的类别得分和边界框偏移量。-SSD 使用定位损失和置信度损失之间的加权和。与原始 SSD 相比，锚框现在放置在球体的切平面上，并根据其各自切平面的球面坐标、切平面上边界框的宽度/高度以及平面内 (in-) 旋转来定义。

如图所示，球面锚框（Boxes）是各种尺度、长宽比和方向的二维边界框在球面切平面上的矮投影（）。这里分别在球面（a）和等距矩形网格（b）上展示了相同方向、不同尺度和长宽比的16×8特征图的锚框。

最后我们来看一些实验结果的例子，图中展示了该数据集的检测结果，其中真实的框以绿色显示，（NN）检测结果的边框以红色显示。

2. ：使用 DRL

行人检测是计算机视觉和机器人领域最热门的话题之一。深度强化学习已被证明可用于透视摄像机检测和机器人应用。然而，对于全向摄像机检测，图像失真程度较高。

本文介绍了一种用于全向图像的稳健行人检测技术。该方法使用深度强化学习，利用了有关图像失真的信息。通过 3D 边界框及其在图像上的变形投影，该方法能够提供行人在 3D 场景中的位置，而大多数透视相机方法仅提供图像的位置。此外，该方法避免了消除失真的预处理步骤。

该图展示了该方法使用多任务网络在全向摄像机中进行行人检测的示意图。输入是以世界坐标表示的全向图像，其初始状态为目标的边界框。基于此信息，使用一组可能的操作来检测 3D 环境中的行人。激活触发器后，估计的 3D 边界框被投影到全向图像上。然后，在图像坐标中计算真实值与估计值之间的 IoU。

下图是描述网络方案的图表，其中第一个卷积层是共享的，然后分为分支（用于强化学习的DQN和用于分类的网络）。

关于全向成像的三维线投影（3D Line）几何，如图所示：一般的全向相机采用球面成像模型；假设一个单位球面位于镜面参考系的原点；将三维点x=（x1，x2，x3）∈R3投影到球面表面（点n∈S2⊂R3），从而得到一对对映点（）；在中心全向相机中，三维直线通过平面Π即解释平面（plane）来参数化，该平面由投影球面中心（图b中的O）和对应的三维直线组成（注意，不失一般性，平面上的所有直线都被同样参数化）。

DQN 是一个由 θt 参数化的深度 Q 网络。给定状态 st，网络会近似一组九个动作 () 的动作值函数 (-Value) Q(st, at; θt)，它是角度 (β)、距离 (ρ)、高度 (h) 和宽度 (w) 的函数。此 Q 值表示最大折扣未来奖励 ()。

DQN 的训练遵循在中公布的 Q-，该方法有两个特点：首先，该过程根据 agent 的经验 et = (st, at, rt, st + 1) 构建记忆 Dt = {e1, ..., et}。这些样本被统一从记忆中提取出来，作为批量训练预测网络；其次，包含参数 θ-t 的目标网络 ( ) 计算出 DQN 要更新的目标值 ( value )。这些值 θ-t 保持不变，并定期更新。

DQN 的一个缺点是动作选择和相应的评估倾向于使用相同的 Q 值，从而导致过于乐观的估计。为了解决上述限制，这里使用了对偶 DQN（DQN，DDQN）。

在训练过程中，代理必须首先探索（）环境，以更好地了解哪些操作可以最大化其未来奖励，然后利用（）这些状态来实现其目标（）。这里选择了一种策略来平衡探索和利用两个阶段（）。在整个训练过程中，通过吉布斯或分布选择（）方法选择动作。

实验结果对DRL与多任务学习进行了比较，如表1和表2所示。

: - 针对 AD

移动物体检测是实现自动驾驶的一项重要任务。自动驾驶汽车必须估计与环境中其他交互物体发生碰撞的风险并计算替代轨迹。由于需要估计物体的未来状态和姿势以进行决策，因此移动物体通常比静态物体具有更高的碰撞风险。这对于车辆周围的近距离物体尤其重要，这些物体通常由捕捉场景 360° 视图的鱼眼环视系统检测到。

本研究提出了一种 CNN 架构，用于在自动驾驶环境中从鱼眼图像中检测移动物体。它设计了一个轻量级编码器，该编码器在嵌入式系统配置中跨连续图像共享权重。

本文采用的车辆感知系统为环视摄像头网络，其图像呈现近场感知、宽视野的特点，如图所示：四个鱼眼镜头（绿色）可以提供360o的环视视野。

如下图所示，所用的网络架构包括两个编码器，每个编码器处理两个时间序列图像。该网络的配置改编自基础网络（来自论文“：实时”），可以理解周围场景的运动。可以训练网络以生成用于多目标检测（MOD）的二进制掩码，即将像素标记为移动或静态，即运动检测。在所有实验中，均使用加权交叉熵来克服类别不平衡问题。使用 Adam 优化器，其学习率设置为 1e-4。实施权重衰减为 5e-4 的 L2 正则化以避免数据过度拟合。使用上面预先训练的权重初始化网络编码器。

3. ：多任务、多AD

鱼眼镜头通常用于监控、增强现实和自动驾驶中的大视野感知。尽管应用广泛，但用于评估鱼眼图像上计算机视觉算法的公共数据集却很少。这是第一个鱼眼汽车数据集，以 1906 年发明鱼眼相机的伍德命名。它由 4 个环视摄像头和 9 个任务组成，包括分割、深度估计、3D 边界框检测和镜头污染 () 检测。其中，实例分割有 40 个类别的 10,000 多张带语义注释的图像，其他任务有 100,000 张带注释的图像。

如图所示，它包含四个摄像头，可覆盖 360° 全景视图，配有高清激光扫描仪、IMU 和 GNSS。图像标注用于九项任务，具体包括 3D 物体检测、深度估计（叠加在正面图像上）和语义分割。

下图显示了五种不同投影模型的映射函数r(θ)，分别是多项式、线性（）、立体（）、统一相机模型（UCM，Model）和增强型UCM（eUCM）。四阶多项式模型参数取自鱼眼镜头标定结果，而其他模型参数已进行优化，以在0°至120°范围内与模型匹配（即最大FOV为240°）。从图中可以看出，在低入射角时，UCM与原始四阶多项式投影模型之间的差异约为4个像素，而eUCM约为1个像素。在更大的入射角下，这些模型的精度会下降。

由于非线性畸变，计算机视觉模型无法轻易推广到鱼眼镜头。例如，标准卷积神经网络（CNN）会丧失平移不变性。开发鱼眼镜头算法的一种简单方法是使用直线（）校正。最简单的去畸变是将像素重新畸变成直线图像，如下图（a）所示，但存在两个问题：1）FOV大于180°，因此有光线从摄像头后方入射，无法建立到直线窗口（）的完整映射，这将导致FOV丢失。可以看到校正后的图像缺少黄色柱状图；2）存在重采样畸变的问题，当将小区域图像映射到大区域时，这种畸变在图像外围附近更为明显。

丢失的视场可以通过多线性窗口（）来解决，如图（b）所示，但在从一个平面到另一个平面的过渡区域会出现问题。它可以看作是鱼眼镜头流形的分段线性近似。

图 (c) 演示了使用圆柱形窗口 () 的准线性校正，它在垂直方向上是线性的，可以保留行人等垂直物体；但是，沿水平轴存在二次失真。在许多情况下，它提供了合理的权衡，但仍有局限性。

下图展示了用于验证该数据集的一些分割和检测示例。

4.: 自我扩展感知在 AD 中的应用

在本文中，我们介绍了自动驾驶场景中鱼眼镜头的欧几里得距离估计。在实践中，很难获得准确且密集的深度图监督学习，但自监督学习方法显示出有希望的结果，并有可能克服这一问题。这项工作是一个自监督的尺度感知框架，称为，它直接从原始单目鱼眼视频中学习欧几里得距离和自我运动，而无需进行校正。

虽然可以对鱼眼投影表面进行分段线性近似并应用标准直线模型，但这也有其自身的一系列问题，例如重采样失真和过渡区域的不连续性。

下图给出了框架的概述：第一行表示自我掩码Mt-1和Mt+1，分别表示从帧It构建帧It-1和从It+1构建帧It时哪些像素坐标是有效的；第二行表示经过2个训练期（）后的静态像素的掩码，其中黑色像素从光度损失中被移除（即σ=0），以防止速度接近自我车辆的动态目标和低纹理区域破坏损失计算；输入序列S和重建图像的前向和后向序列用于掩码计算；第三行表示对应于输入帧的距离估计；最后，车辆的里程数据用于解决单目重建的比例因子问题。

整体自监督 SfM 目标 ( ) 由光度损失项 Lp（即重建目标 ( ) 图像 Iˆt 与目标 ( ) 图像 It 之间的差异）和距离正则化项 Ls（即用于确保距离估计的边缘感知平滑度测量）组成。最后，Ldc 是从训练序列 S 的帧链中得出的跨序列距离一致性测量。

为了防止训练目标（）因双线性采样器的梯度局部性而陷入局部最小值，网络采用 4 个尺度进行训练。距离估计网络主要基于 U-net 架构，即具有跳跃连接的编码器-解码器网络。在测试了系列中的不同变体后，这里选择它作为编码器。

关键方面是用可变形卷积代替它们，因为传统 CNN 的固定结构（例如，固定滤波器核、固定感受野大小和固定池化核）在建模大型未知几何变形时受到限制。

姿态估计网络骨干基于论文《into self-depth》的方法，利用欧拉角参数化来预测旋转，编码器-解码器设置用可变形卷积代替普通卷积，预测的旋转用轴角表示，旋转和平移输出按0.01缩放。

对于单目训练，序列长度为三帧，构建姿势网络并以一对图像（或六个通道）作为输入，预测 It−1→t 和 It→t−1 之间的单个 6-DOF 相对姿势。训练的数据增强使用水平翻转，以及分别在 ±0.2、±0.2、±0.2 和 ±0.1 范围内的随机亮度、对比度、饱和度和色调抖动。重要的是，颜色增强仅适用于输入到网络的图像，而不适用于用于计算光度损失项 Lp 的图像。姿势和深度网络输入的 3 通道图像使用相同的参数进行增强。

如图所示，(a)深度网络是U-Net。(b)姿势网络是一个单独的CNN网络。(c)是像素最小重投影：对应好像素，重投影损失应该很低。(d)是全分辨率多尺度框架：中间层对深度预测进行上采样，所有损失都在输入分辨率下计算，以减少纹理复制的伪影。

最后我们来看看实验结果：从扭曲的鱼眼图像中得到了清晰的深度图。

附录：图像输入几何变形的CNN模型

1.工作

STN 是一种可学习的空间变换器，允许在网络内对数据进行空间操作。这个可微分模块可以插入现有的卷积架构中，使 NN 能够主动对特征图执行空间变换，而无需任何额外的训练监督或对优化过程的修改。空间变换器模型学习平移、缩放、旋转和更一般的扭曲 () 等不变性，可用于图像分类、定位和空间注意等任务。

如图所示，空间变换器机制分为三部分。按照计算顺序，首先，局部化网络（）获得输入特征图，并通过多个隐藏层输出特征图的空间变换参数。然后，利用预测的变换参数创建采样网格（ grid ），对输入图进行采样以生成变换后的输出点，这一过程由网格生成器（ grid ）完成。最后，特征图和采样网格作为采样器（）的输入，生成输出图。

2. 最终

DCN 有两个新模块可增强 CNN 的变换建模 () 能力：可变形卷积和可变形感兴趣区域 (RoI) 池化。其理念是在模块中添加具有额外偏移的空间采样位置，而无需额外监督即可从目标 () 任务中学习偏移。它可以取代现有的 CNN 模块，并可以使用标准反向传播进行端到端训练，以生成可变形卷积网络。DCN 对于对象检测和语义分割等复杂的视觉任务非常有效。

下面三张图分别是3x3可变形卷积、3x3可变形ROI池化、以及位置敏感（-，PS）ROI池化的架构图。

3. ：用于图像

主动卷积单元（ACU）定义的卷积没有固定的形状，可以在训练过程中通过反向传播（BP）学习其形状。该单元具有以下一些优点：

ACU 为具有可学习位置参数的卷积定义了更正式的感受野（）。受神经系统的启发，ACU 中的受体称为突触（）。位置参数是可微分的，其形状可以通过反向传播来学习。如图所示，黑点代表每个突触，ACU 的输出是所有位置 pk 的值的加权和，其中位置由 pk 参数化。

下图比较了传统的卷积单元和ACU：（a）传统的卷积单元有4个输入神经元和2个输出神经元；（b）与卷积单元不同，ACU的突触可以连接在神经元之间的位置，并且可以移动。

4. ：离子

warp() 卷积由一个恒定图像扭曲和随后的简单卷积组成。通过精心设计扭曲变换，可以使生成的架构等同于各种双参数空间变换。

如图所示：第一行定义了扭曲采样网格，它与不同的空间变换相关；第二行是示例图像（a）经过扭曲后的每个网格（图bd）；第三行是每个扭曲图像叠加一个小的平移然后映射回原始空间（逆扭曲）。适当扭曲空间中的单轴平移等效于（b）水平缩放；（c）平面旋转；（d）绕垂直轴的 3D 旋转。

SCNN 定义了旋转等变（-）球面互相关。球面相关满足广义傅立叶定理，可使用广义非交换（非）快速傅立叶变换 (FFT) 算法高效计算。

下图是频谱域球面相关的示意图：对信号 f 和局部支持滤波器 ψ 进行傅里叶变换，逐块量化，对输入通道求和，最后进行逆变换。注意，由于滤波器的局部支持特性，矩阵乘法（DFT）比 FFT 算法更快。

结尾

无人车情报局交流组

扫描二维码加入群聊