ai怎么加阴影(ai怎么加阴影有立体感)

麻省理工学院的一组研究人员创造了一种新的人工智能算法,可以帮助相机仅使用移动的阴影来“看到”相机以外的东西。麻省理工学院CSAIL的科学家在题为“计算镜:深度矩阵分解的背光盲传输”…

麻省理工学院的一组研究人员创造了一种新的人工智能算法,可以帮助相机仅使用移动的阴影来“看到”相机以外的东西。麻省理工学院CSAIL的科学家在题为“计算镜:深度矩阵分解的背光盲传输”的文章中,分享了他们的图像相机如何将相机对准一堆物体,然后拍摄移动的人在这些物体上形成的阴影。

人工智能分析了阴影,并能够重建一个模糊但非常准确的视频,显示人的手在做什么。

研究人员团队创造了一种新的人工智能算法,可以帮助相机仅使用移动的阴影来“看到”相机外部的物体。

他们的方法可以根据阴影重建隐藏的视频。因此,您可以估计隐藏视频的外观。

通过进一步的改进,该方法可以使自主车检测到隐藏的障碍物。

CSAIL的Rachel Gordon谈到了其他可能性:老年护理中心担心居民的安全;当搜索和救援队必须通过危险和封锁区域时,他们将使用这一功能。

总而言之,研究人员采取了一种有趣的方式来获取信息,但从某种意义上说,其他麻省理工学院的研究人员已经做到了。CSAIL的戈登说,7年前,麻省理工学院的研究人员专注于正常视线之外的场景,然后他们使用激光生成3D图像。

然而,在最新的研究工作中,该团队希望知道在不使用特殊设备的情况下可以实现什么。戈登引用了首席研究员的话。Miika Aittala说,“你可以用非视距成像设备(如激光)实现很多,但在我们的方法中,你只能使用自然到达相机的光线,你会尽力摆脱稀缺的信息。”

想想吧。挑战在于如何理解这些照明技巧并理解它们。思维算法。戈登写道,该团队致力于通过算法指定他们想要一种对应于真实真实阴影和阴影的“加扰”模式来消除歧义,以便发现隐藏的视频,它看起来像是边缘和物体在同步移动。

她解释说,他们的算法同时训练了两个神经网络。“一个网络产生加扰模式,另一个网络估计隐藏的视频。当这两个因素的结合再现了从混沌中记录的视频时,这些网络就会得到回报,从而驱使它们用合理的隐藏数据来解释自己的观察结果。

相关著作

矩阵分解:矩阵分解是计算机科学和数学的基础学科。许多广泛使用的矩阵变换和分解(如奇异值分解、特征分解和LU分解)都是约束矩阵分解的例子。对盲矩阵分解或轻度约束矩阵分解已经进行了广泛的研究。这个问题在人脸和物体识别、语音分离、表示学习和自动推荐中有应用。神经网络在该领域得到了广泛的应用,通常用于低秩假设的矩阵补全。

图像优先:2018年,乌里扬诺夫团队发表论文《深度图像超越》。由于卷积神经网络的结构,即使在没有任何预训练的情况下在生成中使用随机权重,它们也会像先验一样固有地将自然图像应用于生成的输出。自其发表以来,其他几篇论文已经将深度图像先验用于各种应用,包括压缩感测、图像分解、降噪和图像压缩。在并行工作中,“深度图像先验”及相关思想也被应用于盲反卷积。

光传输测量:过去,在使用各种技术测量和近似光传输矩阵方面已经做了大量工作,包括压缩传感、图像反射场的恢复(即入射光场和出射光场之间的光传输矩阵)以及NLoS成像。以往的主动非视距成像工作主要集中在利用飞行时间信息求解场景的主动技术上。飞行时间信息允许恢复关于隐藏场景的大量信息,包括人数、对象跟踪和常规3D结构。相反,过去的被动非视距成像工作主要集中在基于遮挡物的成像方法上。这些成像方法可以简单地把周围环境中的物体当作针或针孔来重建隐藏的场景。还有的利用角度来获得运动场景的一维重建,或者利用复杂的遮挡模型来推断光场。

背光透射

通过引入背光透射问题,在透射矩阵已知的情况下,利用经典的矩阵求逆方法进行数值现实实验,开始了我们的因式分解方法的发展。在后面的部分,我们将研究未知传输矩阵的情况。

图1:本文中使用的典型实验设置。摄像机看到一片狼藉,隐藏的视频L被投影到摄像机的直视z之外,我们希望从杂乱中观察到的阴影和阴影中恢复隐藏的视频。这张照片中的室内灯是打开的,只是为了便于观察。在日常拍摄中,我们会尽量减少任何环境光源。我们鼓励读者观看补充视频来查看数据和动态结果。

问题表述

本文解决的问题如图1所示。例如,我们观察到视频Z是混乱的,而隐藏的视频L在摄像机后面的投影仪上播放。

用已知的光传输矩阵求逆

首先,我们描述了一种从观察到的视频中推断隐藏视频的基线方法。

图2:用已知的光传输矩阵重建。

基于深度图像先验的矩阵分解

我们的目标是在不知道光传输矩阵的情况下恢复潜在的因素。在本节中,我们描述了一种新颖的矩阵分解方法,该方法使用深度图像先验来鼓励因子矩阵中的自然图像状结构。首先,我们描述光传输问题的一维玩具版本和一般图像矩阵的数值实验。我们也证明了经典方法无法解决这个问题。

问题表述

在许多推理问题中,众所周知,观察量形成为势矩阵的乘积,任务是恢复这些因子。

方法

我们受到深度图像先验和双倾角的启发,其中一个图像或一对图像通过卷积神经网络进行参数化,并针对每个测试用例进行一次性优化。

图3:我们的矩阵分解方法的高级概述。CNN被随机初始化并“过拟合”以将两个噪声向量映射到两个矩阵T和L,目的是将它们的乘积与输入矩阵z匹配。与对T和L条目的直接优化相反,该过程将因式分解归一化为这些矩阵中的图像状结构。

实验与结果

我们在综合任务上测试了基于CNN的因式分解方法,其中输入是一对已知基础真值矩阵的乘积。我们使用模拟光传输和视频矩阵特征的玩具数据,以及一般的自然图像。

图4:矩阵分解结果。这个方法的输入是最左边两个矩阵的乘积。我们的方法将找到视觉上可读的因素,例如恢复第一个例子中的所有三条弱曲线。在右边,我们展示了两种不同的基线:一种是通过Matlab的非负矩阵分解(在交替最小二乘模式下)计算的,另一种是使用我们的代码但直接优化矩阵项而不是使用CNN的算法,其优先级是L1。

失真和故障模式

矩阵经常扭曲或翻转。这是由于分解矩阵中的模糊性,因为因子矩阵可以表示相互抵消的失真。然而,DIP倾向于强烈地防止空之间的连续性的破坏,并干扰图像的失真。

盲光传输分解

现在,结合前两节的思想,我们提出一种在无法获取被测光传输矩阵的情况下,背光传输问题的盲解。我们展示了合成数据和真实数据上的结果,并通过实验研究了该方法的行为。

设置

我们的目标是将IJ个像素和T帧的观测视频Z∈R IJ×t分解为两个矩阵的乘积:光传输T∈R IJ×ij和隐藏视频l ∈ rij× t,隐藏视频的分辨率为I j,i = j =16。我们大部分输入视频的大小是I = 96(高),J = 128(宽),T的范围大概是500到1500帧。根据我们在第4节中的方法,这项任务需要设计两个卷积神经网络来生成它们自己的矩阵。注意,T可以看作4维的I×J×i×j张量,L可以看作3维的i×j×t张量。我们设计CNN来生成这些形状的张量,然后在后续的网络运算中把结果重新组织成堆叠的矩阵表示,从而对矩阵乘积进行求值。卷积滤波器的维度决定了结果中的哪些维度被绑定到图像结构。下面,我们描述产生这些因素的网络。我们架构的概述如图5所示。

图5:反向背光传输方法的架构和数据流概述。还显示了(左下)存储在u中的左奇异向量的示例。而l和q是卷积神经网络,其余块是多维张量或矩阵,大小显示在边上。在初始化期间,阴影区域中的矩阵只计算一次。这个方法的输入z显示在右下角。

光传输生成器网络

光学透射张量T还显示了其所有维度之间的图像结构,并且原则上需要使用4D卷积。不幸的是,这些评估很慢,并且没有在大多数CNN框架中实现。起初,我们还尝试在沿I,J维度和I,J维度的2D卷积之间交替,否则,我们进行相同的顺序扩增设计。虽然我们在这个设计上取得了一些成功,但我们发现了一种完全不同的架构,可以更好地工作。

图6:使用我们的方法进行盲光传输分解。前三个镜头投影在摄像机后面的墙上。乐高序列是在被照亮的墙前的现场进行的。

实验与结果

我们使用在不同场景中收集的多个视频数据集测试了我们的方法,这些场景使用不同的投影仪设置,并使用不同的隐藏投影视频进行记录(如第3节所述)(图6)。我们鼓励读者观看补充视频,因为体育是这部作品的主要焦点。

与现有方法的比较

我们将我们的方法与Levin等人的去模糊方法的扩展进行了比较。我们认为盲反卷积是最接近我们的问题,因为它可以看成是卷积矩阵和潜锐像之间的矩阵分解。

我们扩展了他们的边缘化方法来处理一般的矩阵,而不仅仅是卷积,并且在使用它们之前使用了相同的稀疏导数(关于如何适应这种方法的更多细节,请参见补充材料)。图6显示,这种方法产生的劣质重建效果非常差。

和讨论结论。

我们已经证明,杂乱的场景可以通过计算变成低分辨率的镜子,而无需事先校准。给定可见场景的单个输入视频,我们可以恢复隐藏场景的潜像和光学传输矩阵。我们将问题表示为将输入视频分解为传输矩阵和照明视频的问题,并使用由先验卷积神经网络组成的深度先验。我们发现引人注目的是,只有CNN可以轻松表达的潜在因素,才足以解决我们的问题,让我们可以完全绕过挑战,例如估计场景的几何形状和反射率。

论文地址:

https://arxiv.org/pdf/1912.02314.pdf

为您推荐

返回顶部