2025年CES展会上,英伟达的RTX 5090显卡亮相,DLSS 4技术同样备受瞩目。它为GPU注入了多帧生成魔力,RTX 50系列显卡一经上市,便能为75款以上游戏提供高达4倍的性能飞跃。
然而,市场对DLSS 4的实际运作存在不少误读,部分归因于英伟达CEO黄仁勋的某些模糊表述,也因DLSS技术本身的剧变。
CEO的“预测未来”之谜
在一次问答中,黄仁勋否认DLSS 4使用帧插值技术,称其为“预测未来”,而非“插值过去”。这种说法虽普及了高级技术概念,却也导致了关于DLSS 4运作机制的混淆。
实际上,DLSS 4采用帧插值方法,与DLSS 3如出一辙,这也是其他帧生成工具(如Lossless Scaling和AMD的FSR 3)所采用的方式。
尽管帧外推等新技术的研究已有进展,但DLSS 4确采用了帧插值技术。这种技术发展通常伴随着大量研究论文,最终转化为市场产品。
尽管如此,DLSS 4的性能优势并未受损。尽管它与DLSS 3使用类似技术,但DLSS 4取得的成果不容忽视。
延迟并非直线上升
英伟达对DLSS 4使用帧插值技术的低调处理,其中一个原因可能是帧插值可能引起延迟。使用帧插值工具时,需要在显示序列的首帧之前渲染两帧,然后执行插值操作,这本质上会引入一定的延迟。
一些媒体对“新的帧生成技术如何影响延迟”表示担忧,也有媒体指出“用户担忧多帧渲染可能加剧‘延迟’问题”。这些担忧源于对DLSS 4生成多个“虚拟”帧的直观理解,但事实并非如此。
理解DLSS 4使用帧插值的关键在于,无论是DLSS 3生成一个额外帧,还是DLSS 4生成三个额外帧,延迟的影响机制本质上是一致的,都需要先渲染两帧,并比较它们之间的差异。
例如,假设游戏以每秒60帧运行,即每帧间隔16.6毫秒。使用DLSS 3后,帧率翻倍至120 fps,但延迟并未减半至8.3毫秒;游戏画面更流畅,但帧间渲染间隔仍为16.6毫秒。
这是对PC延迟的简化阐释,未考虑DLSS帧生成的运算开销、显示器及鼠标引入的延迟等因素,但有助于理解在帧插值中增加帧数时,核心延迟并不线性增长。
尽管大部分额外延迟源自缓冲额外帧的过程,但增加更多中间帧带来的延迟增量相对较小。DLSS计算渲染两帧间更多帧的额外延迟有限,因此DLSS 4与DLSS 3相比,延迟增加并不显著。
DLSS 4的延迟特性与DLSS 3相似。若基准帧率较低,响应性与视觉流畅性之间可能出现脱节,这在DLSS 4中可能更为显著,但并不意味着延迟会急剧上升。
DLSS 4的工作原理
英伟达对DLSS 4工作原理的说明可能让人误以为它只是DLSS 3的自然演进,但实际上,两者之间存在显著差异。DLSS 4之所以与众不同,很大程度上是因为它采用了全新的AI模型架构,更准确地说,是多种AI模型的集成应用。
据英伟达详尽介绍,在执行超分辨率、光线重建及多帧生成任务时,DLSS 4会为每一帧渲染部署五个独立的AI模型,且这些模型都需在毫秒级时间内高效运行。
针对DLSS 4的任务需求,英伟达摒弃了传统的卷积神经网络(CNN),转而采用视觉Transformer模型。这一转变带来了两大关键变化。
一是引入了“自注意力”机制,使模型能够跨越多帧追踪像素的重要性,通过自我参照的方式,新模型能更精准地聚焦于问题区域,比如超分辨率处理中可能出现的细微闪烁问题。
此外,Transformer模型还具备更高的可扩展性,为DLSS 4提供了远超以往CNN方法的参数数量。据英伟达透露,新的Transformer模型参数量实际上翻倍了。
从展示的内容来看,英伟达声称这种新模型在提升稳定性和保留精细细节方面相较于CNN方法有了显著提升。值得注意的是,这些改进不仅限于RTX 50系列GPU,所有RTX显卡都能在支持DLSS 4的游戏中受益于这种新的Transformer模型,当然,这要在每代显卡支持的功能范围内。
结语
尽管DLSS 4已经经过多次展示,但其真正的能力将在英伟达下一代GPU发布时得到全面检验。届时,用户将能在多款游戏和多种场景中评估DLSS 4的实际表现。