免費論壇 繁體 | 簡體
Sclub交友聊天~加入聊天室當版主
分享
返回列表 回復 發帖

Meta与UC Berkeley联手:让AI真正“看懂”三维空间

这项由Meta基础人工智能研究院(FAIR at Meta)联合加州大学伯克利分校与香港大学的研究团队共同完成的研究,于2026年5月28日以预印本形式发布,论文编号为arXiv:2605.30231,有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们教一个孩子认识世界时,有两种截然不同的方式。一种是让他死记硬背:椅子高度一般是45厘米,桌子宽度一般是80厘米,冰箱在房间左边,电视在房间右边。另一种是培养他的空间感知能力:让他学会从不同角度辨认同一张椅子,理解"前面"和"后面"的关系,感受物体在三维空间中的位置。第一种方式快速但脆弱——一旦换了新房子,所有的记忆都没用了。第二种方式虽然需要更多训练,但培养出的能力可以应对任何陌生环境。

这正是当前人工智能在空间理解方面面临的核心困境。今天的视觉语言模型(可以理解为能看图说话的AI)虽然在回答各种问题上表现出色,但在理解真实三维空间时却常常力不从心。比如,当你问它"图中的微波炉离摄像头有多远",或者"从这个角度看,门在沙发的左边还是右边",它往往会给出令人啼笑皆非的错误答案。

这个研究团队的核心洞察非常直接:现有的解决办法,走的都是第一条路——死记硬背式的刷题训练。研究人员提出了一套名为GASP(几何感知空间先验,Geometric-Aware Spatial Priors)的全新训练框架,试图从根本上改变这种局面,让AI真正建立起对三维几何世界的内在理解。

一、现有方法为何像在"刷题"而非真正理解

为了理解GASP的价值,先要弄清楚目前的AI是怎么学习空间理解的,以及这种学习方式存在什么根本性的问题。

主流做法是收集大量和三维空间相关的问答数据集,然后用这些数据对AI进行微调训练。举个例子,数据集里可能有成千上万条这样的记录:"这张图里,沙发距离门口2.3米","从这个角度看,冰箱在窗户的左边"。AI通过大量学习这类问答,逐渐能给出正确的回答。

表面上看,这种方法很合理。但研究团队通过实验发现了一个令人担忧的现象:这些经过专门训练的AI,在它见过的数据集上表现极好,但一旦换到新场景,性能就会大幅下滑。比如,某个专门为VSI-Bench(一个著名的空间推理测试集)训练的模型,在这个测试集上的表现提升了十多个百分点,但在另一个名为MMSI-Bench的测试集上,表现反而比训练前更差。

这不禁让人联想到那些专门为某套考试刷题的学生:他们能在那套考卷上得高分,但如果考题换一种形式,就会手足无措。这是因为他们学到的不是真正的数学或物理能力,而是那套考卷的答题套路。

研究团队进一步做了一个非常有趣的实验来揭示这个问题。他们从VSI-Bench的问答数据中统计了各类物体的平均尺寸和平均房间大小,然后直接把这些平均值当作提示塞给模型:"冰箱平均宽度大约是这么多,房间平均面积大约是那么大,请根据这个信息回答问题"。结果让人震惊:仅仅靠这种统计平均值的小抄,模型的"物体绝对距离估计"得分就从0.14暴涨到0.61,甚至超过了某些专门经过三维问答训练的模型。

这说明,这类测试集中隐藏着大量的"非视觉捷径"——AI根本不需要真正看懂图像,只需要记住这个数据集的统计规律,就能得到不错的分数。而那些经过大量刷题训练的AI,实际上恰恰学会了利用这些捷径,而不是学会了真正的空间推理。

另一条现有路线是给AI配备专门的三维视觉模块——相当于给一个普通人配备专业测距仪和三维扫描仪。这类方法虽然能提供更丰富的三维信息,但代价是模型变得更庞大、推理变得更迟缓,而且这些专门的三维模块通常是固定的、不能随整体模型一起调整,就像给汽车装了一个不兼容的零件,两者很难真正配合默契。

二、问题的真正根源藏在AI内部哪里

研究团队并没有停留在发现问题的层面,而是深入追问:AI的空间理解能力为什么会这么差?问题究竟出在哪个环节?

现代视觉语言模型的工作方式,大致可以用这样一个比喻来理解:AI先用"眼睛"(视觉编码器)把图像转化为一串数字标记,然后把这串标记和文字标记一起输入"大脑"(大型语言模型的变换器层),由大脑综合处理后给出答案。

在大脑处理信息的过程中,有一个关键机制叫做"自注意力"。简单来说,这个机制让大脑能判断"哪些信息和哪些信息是相关的"。对于图像理解而言,视觉标记之间的相互关联尤为重要——大脑需要能认出"帧1里的这个角落,和帧2里的那个角落,其实是同一个物体"。

研究团队设计了一套诊断实验,专门测量AI内部的视觉对应关系识别能力:给AI看同一场景的两帧画面,问它"帧1中的这个点,对应帧2中的哪个点"。这个任务乍听简单,但对人类来说也需要一定的空间感。对于AI来说,这个能力直接反映了它内部是否真正建立了视觉上的几何一致性。

测量结果令人瞠目:无论是Qwen2.5-VL-7B还是LLaVA-NeXT-Video-7B,这两款最先进的视觉语言模型,其内部对应点匹配的准确率普遍低于5%,很多层甚至接近于零。更糟糕的是,这些模型还表现出明显的"自信错了"的特征:它们对错误答案往往信心十足,而对正确答案反而犹豫不定。这在统计上表现为"置信度-准确率"之间的负相关关系,也就是说,模型越自信,反而越可能是错的。

此外,测试还考察了模型跨时间帧的鲁棒性:当两帧之间的时间间隔越来越大时,匹配准确率会如何变化?基线模型的表现几乎呈断崖式下跌,超过8帧距离后,准确率就跌到初始值的5%以下,基本等于随机猜测。

这个诊断结果非常清晰:问题的根源不在视觉编码器,而在大型语言模型的核心层。这些模型在训练时大量接触文本,建立了强大的语言理解能力,但对三维几何世界的内在规律毫无敏感性。单靠刷空间问答题,只是在给这个根本缺陷贴创可贴,而GASP要做的,是从内部真正修复它。

三、GASP的核心思路:像培养运动员一样训练AI的空间感

GASP的核心理念,类似于体育训练中的"基本功训练"。一个优秀的篮球运动员,不是靠看录像记住"这种情况下应该投篮"来提高的,而是通过无数次的运球、传球、投篮练习,把对球的感觉和身体协调能力刻进肌肉记忆里。GASP要做的,就是给AI设计一套针对空间感知能力的"基本功训练"。

具体来说,GASP在AI的大型语言模型的每一个变换器层中,都插入一个轻量级的"对应点识别头"模块(correspondence head)。这个模块的作用是:接收该层的视觉标记,将它们映射到一个专门为几何匹配优化的嵌入空间中,然后判断不同帧中的视觉标记是否对应同一个三维空间点。

这个模块只在训练阶段存在。训练完成后,它会被彻底移除,模型恢复成标准的视觉语言模型,推理时不需要任何额外的三维输入或辅助模块。几何理解能力已经被"烙印"进模型内部的权重参数中了。

训练数据来自DL3DV这个大规模三维视频数据集,结合了LLaVA-Video-178K通用视频问答数据集,两者交替训练以防止AI"忘记"原有的语言能力。从DL3DV数据中,研究团队生成了约175万个视频序列,每个序列包含8到24帧,并自动标注了帧间的精确对应点关系和深度信息,形成了一套既有粗粒度(8×8网格)又有细粒度(24×24网格)覆盖的训练标注。

四、GASP的两套"基本功"训练方案

GASP的训练使用两个互补的损失函数,分别针对空间理解中两个不同层次的挑战。

第一套训练针对"视角无关的视觉对应"。可以用这样一个场景来理解:你看到一只猫从不同角度拍摄的两张照片,虽然猫的姿势、光线、拍摄角度都不同,但你能一眼认出猫鼻子的位置在两张照片中是对应的。这种能力叫做视角不变性。

GASP用一种叫InfoNCE的对比学习损失函数来训练这种能力。具体来说:给定帧A中的一个点,以及帧B中该点真正对应的位置(正样本),还有帧B中其他所有不对应的位置(负样本),训练目标是让AI把正样本的相似度分数推得尽量高,把负样本的分数压得尽量低。研究团队选择对比学习而非直接预测坐标,是因为对比学习学到的是视角无关的嵌入空间,能更好地应对不同场景和视角的泛化需求。

第二套训练针对"深度一致性",解决的是一个更微妙的三维歧义问题。考虑这样一个场景:房间里有两张外观几乎一模一样的椅子,一张在前景,一张在背景。纯粹基于纹理和外观的匹配算法,可能会把前景的椅子和背景的椅子错误地配对,因为它们看起来太像了。但从三维空间角度看,这两张椅子在不同深度,压根就不是同一个点的对应关系。

为了解决这类"视觉相似但三维位置不同"的混淆问题,GASP引入了深度一致性损失。其核心思路是:利用对应点匹配的软分布(即模型对每个候选位置的匹配置信度),计算期望的深度值,然后和真实深度值对比。如果模型错误地把前景椅子配到了背景椅子,那么预测深度和真实深度之间会有明显差异,损失函数就会惩罚这个匹配,迫使模型调整。这个损失使用相对误差形式,使得它对不同尺度的场景(无论是小房间还是大厅)都能统一适用,不需要每个场景单独校准。

这两套训练的目标是互补的:第一套教会AI"跨视角认出同一个东西",第二套教会AI"不要被外表相似但空间位置不同的东西所迷惑"。两者结合,才能建立真正鲁棒的三维几何理解。

最终的总训练目标是三者之和:原有的语言建模损失,加上带权重的对应关系损失,加上带权重的深度一致性损失。这样的多任务训练格局确保AI在学习几何感知的同时,不会丢失原有的语言理解能力。

五、从"内功"到"外功":内部改进如何转化为实际能力提升

训练结束后,研究团队首先回到内部诊断层面,验证GASP是否真正改变了AI的内部几何表示。

在对应点匹配准确率方面,训练后的GASP模型相比基线有了天壤之别的改变。以LLaVA-NeXT-Video-7B为例,基线模型各层的匹配准确率几乎全程贴近零线,而GASP训练后的模型在中层到深层(大约第20到25层)出现了一个明显的准确率峰值,最高超过了70%。Qwen2.5-VL-7B的情况类似,峰值出现在第25到28层。更重要的是,同时使用对应关系损失和深度一致性损失的完整模型,表现始终优于只使用对应关系损失的模型,这直接验证了深度监督的附加价值。

在置信度校准方面,基线模型的置信度与准确率之间呈现约负0.22的相关系数,意味着它越自信就越可能犯错。GASP训练后的模型将这个相关系数翻转为约正0.62,意味着它的信心和它实际的准确性高度匹配,这是一个行为上根本性的改善。

在跨时间帧鲁棒性方面,基线模型在超过8帧的时间距离后,准确率跌至初始的5%以下;而GASP模型即使在24帧的距离下,仍然维持着初始准确率的85%以上,展现出真正的时间不变性。

这些内部改进的最终考验,是能否转化为下游空间推理任务的实际能力提升。研究团队在三个主要基准上进行了评测。All-Angles Bench专门测试从不同视角理解场景的能力,VSI-Bench测试物体计数、路线规划、相对方向等综合空间推理能力,BLINK的空间子集则侧重于相对深度和多视角感知。

在All-Angles Bench的摄像机姿态估计任务上,LLaVA-NeXT-Video-7B的基线分数是22.7%,GASP版本提升到40.9%,绝对提升18.2个百分点;Qwen2.5-VL-7B从34.1%提升到52.8%,绝对提升18.7个百分点。在VSI-Bench的物体计数任务上,LLaVA-NeXT-Video-7B从23.5%跳升到52.5%,提升整整29个百分点;Qwen2.5-VL-7B从33.8%提升到41.6%,提升7.8个百分点。在BLINK的多视角推理子任务上,LLaVA-NeXT-Video-7B从42.1%提升到57.1%,提升15个百分点;Qwen2.5-VL-7B从41.5%提升到53.4%,提升11.9个百分点。

这些增益出现在一个额外重要的背景下:与GASP同数据量的"公平基线"(用相同DL3DV数据,但以问答形式训练)在多个关键指标上表现反而有所下降,比如摄像机姿态估计从22.7%降至19.8%,物体计数从23.5%降至21.4%。这再次证明,GASP带来的提升来自几何先验的注入,而非数据量的增加。

六、不牺牲"老本行":对通用能力的影响

一个自然而然的担心是:专门训练几何感知,会不会让AI忘掉原来的语言理解能力?

研究团队在Video-MME(综合视频理解)、TempCompass(时序理解)、NextQA(视频问答)等通用基准上进行了评测。结果显示,代价是存在但可以接受的:以Qwen2.5-VL-7B为例,NextQA分数从76.6%小幅降至74.7%,损失1.9个百分点。然而与此同时,Video-MME从59.3%提升到61.6%,TempCompass从68.4%提升到70.3%,这两个涉及时序理解的基准上反而有所进步。

这个现象背后有一个合理的解释:视频理解本身需要跨帧追踪物体的持续身份,也就是说"这一帧里的这个杯子,和下一帧里的那个杯子是同一个"。GASP训练的视角不变性表征,正好也服务于这种需求。相比之下,NextQA更多考察的是动作语义和因果关系,对精确空间定位的依赖较少,这解释了为何在那里出现了小幅下滑。

在更宽泛的CV-Bench基准(同时测试2D和3D任务)上,Qwen2.5-VL-7B加上GASP后的综合得分达到79.8%,优于许多规模更大的模型,比如InternVL2.5-8B(74.1%)和LLaVA-OneVision-7B(73.2%)。

七、训练配置的精细调校

研究团队还系统地研究了两个关键训练参数对最终效果的影响。

第一个参数是LoRA秩(rank)。LoRA是一种高效微调技术,秩越高代表对模型改动的"维度"越多,可以理解为给AI学习新技能时分配的"练习纸"数量。实验表明,内部对应点匹配准确率(Avg. PCK)随着秩的增加单调提升,但下游空间推理任务的性能有一个最优点,超过该点后反而会有轻微下滑:对于LLaVA-NeXT-Video-7B,秩512时效果最佳,对于Qwen2.5-VL-7B则是秩128时最优。这说明过高的秩可能在提升几何拟合的同时,开始损伤原有的语言能力,两者之间存在真实的容量权衡。

第二个参数是对应点识别头插入的层范围。实验比较了在模型较浅层、中间层、较深层以及所有层分别插入的效果。结论是:在全部层都插入,表现最佳且最稳定。这个结果有其内在逻辑:几何一致性是分层次的——浅层需要学习边缘和角点的低级特征对应,中间层需要理解物体部件的对应,深层需要维持语义-几何的对齐。如果只在深层施加几何监督,浅层仍然会学习视角依赖的特征,在特征传递中形成"表示瓶颈",限制最终效果。

八、GASP与位置编码的本质区别

研究团队特别说明了GASP和另一种常见技术——旋转位置编码(RoPE)之间的根本区别,因为这两者表面上都在处理"位置信息",容易被混淆。

RoPE的作用是告诉AI"这个标记在图像网格中的位置是(x, y)",它是一种输入级别的坐标信号,内容无关——无论这个位置是一面空白墙还是一张复杂的人脸,RoPE给出的信号是完全相同的。实验数据已经表明,即使使用了先进的RoPE,Qwen2.5-VL和LLaVA-NeXT的对应匹配准确率依然几乎为零,说明光有坐标信息是不够的。

GASP作用在完全不同的层面:它通过训练改变了模型内部的注意力机制中查询矩阵(Q)和键矩阵(K)的相互作用方式,使得两个视觉标记之间的相似度分数不仅反映"它们在语义上是否相似",还反映"它们在三维空间中是否对应同一个点"。从梯度传播的角度来看,GASP训练产生的梯度会通过对应点识别头反向传播,逐步调整每个变换器层的Q和K投影矩阵,使得几何对应的标记对得分高,几何不对应的标记对(即使语义相似)得分低。

用一个类比来说:RoPE教会了AI说"我在北纬39度、东经116度",而GASP教会了AI说"从这里和从那里看到的那栋楼,是同一栋楼"。前者是静态坐标,后者是动态的跨视角同一性认知。两者不是竞争关系,而是互补关系:RoPE提供"在哪里"的信息,GASP赋予AI"是什么、是哪个"的时空认知能力。

说到底,这项研究揭示了一个被长期忽视的根本问题:用大量空间问答题来训练AI的空间理解能力,就像让学生背诵地图数字来学习导航,终究只是表面工夫。真正的空间智能,应该来自对视觉世界几何一致性的内在感知——知道同一个物体从不同角度看起来依然是同一个,知道前景和背景的椅子尽管长得一样但处于不同深度。

GASP用对应点学习和深度一致性训练,把这种几何感知能力直接"烙"进了AI的注意力机制里,而不是让它去背答案套路。更难得的是,这种内在能力的提升在推理时完全不需要额外的三维输入或辅助模块——AI用标准的图像输入就能工作,几何感知已经成为它思考方式的一部分。

当然,目前这项研究还有一些局限性值得关注。深度信息依赖于伪真值深度数据的质量,在一些特殊场景下可能不够准确;而且在以动作语义为主的任务上,几何训练会带来轻微的性能损失,说明这两类能力之间存在容量权衡。未来的研究方向或许是把几何先验训练和适量的任务监督结合起来,取长补短,同时在更大规模的模型上验证这套框架的可扩展性。

归根结底,这项研究给出了一个值得深思的启示:让AI更聪明,有时候不是让它背更多题,而是教它更本质的能力。对于关心AI发展的读者,不妨思考这样一个问题:在其他需要"理解"而非"记忆"的AI任务上,是否也存在类似的根本性缺陷?有兴趣深入探讨的读者,可以通过arXiv:2605.30231查阅完整论文。

Q&A

Q1:GASP框架在推理时还需要额外的三维输入吗?

A:不需要。GASP的对应点识别头模块只在训练阶段存在,训练完成后会被彻底移除。推理时GASP模型和普通视觉语言模型完全一样,只接受标准的图像或视频输入,不需要任何深度图、点云或其他三维辅助数据。几何感知能力已经被编码进模型的权重参数中。

Q2:为什么视觉语言模型的对应点匹配准确率会那么低?

A:因为大型语言模型的预训练数据主要是网络文本,缺乏三维几何信息的直接监督。模型学会了语义理解,但没有建立跨视角的几何一致性认知。即使使用了旋转位置编码提供坐标信息,也只是静态坐标,无法告诉模型两帧中的同一物体是同一个实体。这是语言模型预训练本身的先天局限。

Q3:深度一致性损失和对应关系损失分别解决什么问题?

A:对应关系损失解决的是跨视角同一性问题,训练AI认出不同角度下同一个物体上的对应点。深度一致性损失解决的是前景-背景混淆问题:当两个外观相似的物体处于不同深度时,纯外观匹配会出错,深度损失通过惩罚深度不一致的匹配来强迫模型区分它们。两者互补,共同建立完整的三维几何感知。
神经辐射场(Neural Radiance Fields,简称NeRF)技术于2020年由加州大学伯克利分校的研究人员开发,这一创新方法彻底改变了3D场景的表示和渲染方式。传统的3D重建技术往往依赖于离散表示,如三角网格或体素网格,而NeRF采用的是连续函数表示,能够捕捉更加精细的几何和外观细节。

NeRF的工作原理看似简单却蕴含深刻的数学和计算机视觉理论。它利用深度神经网络表示场景,网络输入是5D坐标(包括3D空间位置和2D视角方向),输出则是该点的体积密度和视角相关的辐射颜色。简单来说,NeRF能够告诉我们空间中每个点是否有物体存在,以及从不同角度看它应该呈现什么颜色。

这一技术的核心在于体积渲染方程的应用。在NeRF中,为了渲染一个像素,系统会从相机出发,沿着视线方向采样多个点,通过神经网络计算每个点的颜色和密度,最后将这些信息组合起来得到最终的像素颜色。这个过程可以看作是光线追踪的一种实现,但与传统方法不同的是,NeRF使用可微分的体积渲染技术,允许通过反向传播来优化网络参数。

与传统计算机视觉方法相比,NeRF具有显著的优势。传统方法如结构光、立体视觉或基于SLAM的重建技术通常需要精确的几何信息,而且在处理复杂材质和光照时常常力不从心。基于深度学习的方法虽然取得了进步,但大多数仍依赖于离散表示,难以捕捉精细的细节。
神经辐射场(Neural Radiance Fields,简称NeRF)技术于2020年由加州大学伯克利分校的研究人员开发,这一创新方法彻底改变了3D场景的表示和渲染方式。传统的3D重建技术往往依赖于离散表示,如三角网格或体素网格,而NeRF采用的是连续函数表示,能够捕捉更加精细的几何和外观细节。

NeRF的工作原理看似简单却蕴含深刻的数学和计算机视觉理论。它利用深度神经网络表示场景,网络输入是5D坐标(包括3D空间位置和2D视角方向),输出则是该点的体积密度和视角相关的辐射颜色。简单来说,NeRF能够告诉我们空间中每个点是否有物体存在,以及从不同角度看它应该呈现什么颜色。

这一技术的核心在于体积渲染方程的应用。在NeRF中,为了渲染一个像素,系统会从相机出发,沿着视线方向采样多个点,通过神经网络计算每个点的颜色和密度,最后将这些信息组合起来得到最终的像素颜色。这个过程可以看作是光线追踪的一种实现,但与传统方法不同的是,NeRF使用可微分的体积渲染技术,允许通过反向传播来优化网络参数。

与传统计算机视觉方法相比,NeRF具有显著的优势。传统方法如结构光、立体视觉或基于SLAM的重建技术通常需要精确的几何信息,而且在处理复杂材质和光照时常常力不从心。基于深度学习的方法虽然取得了进步,但大多数仍依赖于离散表示,难以捕捉精细的细节。
尽管NeRF展现出了巨大的潜力,但原始版本存在一些限制,特别是在渲染质量和计算效率方面。针对这些问题,研究人员提出了一系列改进方法,大致可分为两个方向:提升渲染质量和加速训练与渲染过程。

在提升渲染质量方面,Mip-NeRF是一个重要的里程碑。这项由谷歌研究团队在2021年提出的技术主要解决了NeRF中的采样和锯齿问题。在原始NeRF中,每个像素对应一条光线,这种方法在处理不同分辨率的图像时容易产生锯齿和采样不足的问题。

Mip-NeRF通过引入锥体追踪代替光线追踪,为每个像素创建了一个更准确的表示。具体来说,它将锥体分成多个锥台,并使用积分位置编码(IPE)特征创建每个锥台覆盖体积的表示。这种方法替换了NeRF中两个独立的"粗"和"细"多层感知机,减少了模型大小,使训练和评估更快。

实验结果表明,Mip-NeRF的错误率比NeRF降低了60%,速度提升了7%,同时参数量减半。这一改进使得NeRF在处理不同分辨率图像时能够产生更加平滑和一致的结果,大大提升了用户体验。

Point-NeRF是另一项针对NeRF质量问题的改进。它将场景表示为点的集合,每个点都有一个对应的神经网络来预测颜色和外观。这种表示比传统NeRF的连续体积表示更加高效。Point-NeRF结合了深度多视图立体(MVS)方法和神经3D点云,能够产生高质量的视图合成结果。

更令人印象深刻的是,Point-NeRF可以通过预训练深度网络的直接推理来初始化,生成神经点云,这个点云可以进一步微调,超越NeRF的视觉质量,而训练时间比实际NeRF快30倍。与NeRF不同,Point-NeRF完全在3D中操作,避免了对空场景空间的采样,大大提高了效率。

在加速训练和渲染方面,FastNeRF和KiloNeRF都做出了重要贡献。FastNeRF采用了一种巧妙的架构,将原始NeRF神经网络分成两个仅依赖于位置和方向的单独网络。通过缓存这两个函数的输出,渲染过程显著加速,性能提升了三个数量级,而不损失视觉质量。标准NeRF模型需要5600TB的缓存大小,这对于消费级硬件来说太大了。相比之下,FastNeRF架构将缓存大小减少到54GB,使其在消费级硬件上变得可行。

KiloNeRF则采用了不同的策略。它将场景划分为统一分辨率的网格,并分配许多小型独立的多层感知机,每个都负责表示场景中特定3D单元内的部分。KiloNeRF模型首先通过蒸馏普通NeRF模型的知识来训练,然后在训练图像上使用光度损失进行微调。为了进一步减少网络评估的点数,使用了等距点采样,并在采样过程中使用了空间跳过和提前光线终止技术。

Block-NeRF和Mega-NeRF则关注于扩展NeRF以处理更大规模的场景。Block-NeRF将场景分成较小、可管理的块,以克服原始NeRF的内存限制。这种变体能够表示大规模环境,通过在推理时动态渲染和组合单独训练的Block-NeRF来解决渲染大规模环境的挑战。
相比之下,Mega-NeRF使用动态网格,该网格适应正在渲染的场景。Mega-NeRF提出了一个使用NeRF从大规模视觉捕获创建交互式3D环境的框架。它使用稀疏网络结构和几何聚类算法来训练和渲染大规模场景。场景被分解为带有质心的单元,并初始化相应的模型权重集。

通过这些技术改进,NeRF在渲染质量和计算效率上取得了显著进步。渲染质量的提升使得NeRF能够产生更加逼真和细腻的结果,而计算效率的提高则使得NeRF能够在更多场景中实际应用,包括需要实时渲染的虚拟现实和增强现实应用。这些进步不仅解决了NeRF的一些固有限制,也为未来的研究和应用打开了新的可能性。
传统的3D重建技术往往需要大量高质量图像才能创建出令人满意的结果。这就像用积木搭建城堡,积木块越多,城堡就越精细。但在实际应用中,获取大量图像并不容易,特别是对于一些稀有物体或难以全方位拍摄的场景。这个问题引发了一个重要研究方向:如何利用有限的数据创建高质量的3D模型?

研究人员通过引入先验条件来改进NeRF,使其能够从有限的图像数据中学习。CAMPARI就是这样一种方法,它在2021年被提出,旨在解决3D感知图像合成中的摄像机建模挑战。CAMPARI独特之处在于同时学习摄像机生成器和图像生成器,允许处理更复杂的摄像机分布而无需调整。该模型将场景分解为前景和背景,实现高效且解耦的表示。这使得模型可以学习3D一致的表示并忠实地恢复摄像机分布。更重要的是,它可以在测试时生成新场景,同时控制摄像机视角、形状和外观。

另一个创新方法是CoCo-INR,这项技术针对NeRF需要大量校准视图的限制提出了解决方案。CoCo-INR通过将先验信息注入到基于坐标的网络中,增强特征表示并减少对大量校准图像的依赖。它采用两个注意力模块:码本注意力和坐标注意力。码本注意力从码本中提取有价值的原型,而坐标注意力则使每个坐标能够从原型中查询代表性特征。通过这些注意力机制集成先验信息,结果是更准确、更高效的3D表示。

Pix2NeRF走得更远,它提出了一种从单个输入图像生成NeRF的方法。这个2022年的研究基于π-GAN,一种将潜在码映射到辐射场的生成模型,并包含重建目标,由自动编码器和π-GAN生成器组成。Pix2NeRF的特别之处在于它是无监督的,能够使用独立图像进行训练,并在3D头像生成、新视图合成和超分辨率方面有潜在应用。不过,目前Pix2NeRF也有限制,它只适用于每个数据集的一个类别,无法推广到新类别。

DietNeRF提出了另一种解决方案,它通过结合预训练图像编码器的先验知识来指导NeRF模型的优化过程。这种先验知识以语义一致性损失的形式出现,确保观察到的视图和渲染视图的高级语义特征相似。语义一致性损失使DietNeRF模型能够捕获不同视点之间稳定的高级语义。在实验中,DietNeRF显著提高了小样本视图合成的质量,允许它使用少至一个观察图像渲染新视图。该模型还可以对未观察区域进行合理填补,使其在虚拟和增强现实、机器人技术和自动驾驶等各种应用中都有用处。
MirrorNeRF则提出了一种全新的低成本解决方案,使用单个高分辨率相机的多镜面阴极成像系统,实现一次性人像重建和渲染。该系统使用排列成六边形的球形镜阵列和绿色屏幕作为背景进行前景分割。为了校准,系统使用红色校准点获取相机和镜阵列之间的相对位置。系统将图像像素与镜面上的相应3D点关联起来,以对捕获的场景进行采样和重建。MirrorNeRF还引入了神经扭曲辐射场(NeWRF)来恢复3D场景并从任意视点生成照片般逼真的图像。

FDNeRF则针对动态场景的重建提出了创新方法。传统动态NeRF方法需要密集图像输入且只能建模单一身份,而FDNeRF只需少量动态图像就能用于不同人物。它使用条件特征扭曲(CFW)模块处理动态帧中的不一致性,并将它们扭曲到所需表情,消除了对密集图像的需求。CFW模块由特征编码网络、语义映射网络和条件扭曲网络组成,可以提取输入帧特征,将这些特征映射到目标表情,并使用运动描述符指导扭曲过程。

在零样本学习领域,Dream Fields通过神经渲染和多模态图像及文本表示生成物体,无需3D监督。该方法使用在大型带标题图像数据集上训练的图像-文本模型指导生成过程。Dream Fields基于预训练的CLIP模型,优化产生与给定文本提示具有高语义相似性的图像的辐射场。该方法还结合简单的几何先验,提高保真度和视觉质量。尽管存在一些限制,如迭代优化成本高、对所有视角使用相同提示可能导致重复模式,以及图像-文本模型可能继承有害偏见,但Dream Fields在产生逼真、多视图一致的物体几何形状和颜色方面显示出很有前途的结果。
未来路径的探索者

随着NeRF技术的成熟,研究人员开始探索更复杂的应用场景,其中两个特别具有挑战性的方向是铰接物体的表示和场景编辑。这些领域的进展不仅展示了NeRF的潜力,也揭示了它在实际应用中的限制。

铰接物体表示是NeRF领域的一个重要挑战。与静态场景不同,铰接物体(如人体或动物)有多个可移动部分,几何形状高度动态且随视点变化。这对NeRF提出了挑战,因为它假设场景是静态的。iNeRF在2021年提出了一种新框架,用于6自由度姿态估计。它使用观察到的图像、初始姿态估计和3D物体或场景作为输入来估计相机姿态。与传统NeRF模型不同,iNeRF通过反转训练好的NeRF来恢复相机姿态。通过最小化渲染图像与真实图像之间的光度损失函数,iNeRF能够准确估计相机位置。
NARF则针对铰接物体提出了不同方法。NARF使用神经网络将3D位置和2D观察方向转换为密度和RGB颜色值。密度控制穿过位置的光线辐射,网络由两个ReLU MLP网络组成,一个用于体积密度,另一个用于RGB颜色。NARF提出了一种姿态条件NeRF模型,可以扩展NeRF的表示能力到可由运动学模型描述的铰接物体。物体被分解为刚性部分,每个部分有自己的局部坐标系,通过前向运动学获得刚性变换定义。每个部分使用刚性变换神经辐射场(RT-NeRF)建模,并训练单一统一NeRF编码多个部分,避免部分依赖问题。

Animatable NeRF通过添加控制场景姿态的能力扩展了NeRF。该方法利用NeRF和参数化人体模型SMPL的优势,创建高质量人体重建。作者通过引入姿态引导变形和分析合成,优化NeRF和SMPL参数,获得更好结果和更快收敛。方法通过将3D位置、形状和姿态映射到颜色和密度工作。使用SMPL模型建模人体外观和几何形状,处理不同帧间的人体运动,将观察空间中的3D位置变换到规范空间。模板姿态定义为X姿态,使用SMPL顶点集定义点从观察空间到规范空间的变换。

2022年的HumanNeRF则进一步提升了动态人体建模能力。HumanNeRF是NeRF的修改版本,它结合人体运动并能够推广到未见的姿态和身份。它使用聚合像素对齐特征来混合多视图输入图像,并使用非刚性变形场学习细微位移,将人体从当前时间帧扭曲到通用规范姿态。这产生了一个模型,可以预测变形前给定点的体积密度和颜色。该方法可以产生高质量、照片般逼真的动态人体图像,使用稀疏RGB流。

在场景编辑方面,D2NeRF是一种从单目视频中生成高质量静态场景NeRF模型的新方法。D2NeRF学习使用分离的NeRF表示移动物体和静态背景的3D场景。静态部分使用NeRF,表示场景为空间依赖密度和空间-视图依赖辐射。而动态部分使用HyperNeRF,准确捕获具有非刚性运动和拓扑变化的场景。两个模型通过在预定义深度范围内根据体积渲染集成辐射来计算相机光线的颜色进行组合。应用自监督正则化器确保静态和动态物体之间的正确分离。

Kobayashi等人在2022年提出的蒸馏特征场(DFFs)作为一种新方法,使得无需重新训练即可对NeRF进行局部和交互式编辑。

DFFs通过添加其他感兴趣量的解码器来扩展NeRF,如语义标签,以计算密度和视角依赖颜色。作者提出了一种3D零样本分割方法,使用开放集文本标签或其他特征查询创建描述每个空间点语义的特征分支。作者使用预训练的像素级图像编码器作为教师网络监督特征场,并通过最小化渲染特征与教师特征之间的差异来优化它。为了保持重建几何质量,在渲染特征时对密度应用了梯度停止。DFF模型计算3D空间中点的标签概率,这种分割可用于交互式编辑而无需重新训练。
尽管NeRF技术取得了快速进展,但仍面临一些重要挑战。内存需求仍是一个显著瓶颈,尤其对于大规模场景或高分辨率图像。计算成本也是限制,特别是在训练阶段。评估场景中每条光线的神经网络很耗时,加速NeRF训练的技术可能以性能下降为代价。另一个限制是NeRF处理动态场景或移动物体的能力。NeRF只学习场景的单一表示,无法处理场景随时间的变化。扩展NeRF处理动态场景是活跃研究领域。

未来研究方向包括提高解释性、降低计算开销以实现实时渲染、探索新应用场景以及增强方法的可扩展性和多用途性。随着这些挑战被克服,NeRF有望在更多领域展现其强大的潜力。尽管仍有诸多限制需要解决,包括慢速推理速度、对准确姿态估计和多视图的依赖,以及在视图稀疏或相机校准不佳情况下的有限效果,但持续的研究努力有望克服这些限制,释放NeRF的全部潜力。
返回列表