标签 低精度推理 下的文章

30、40、50 系显卡可以享受到此次更新。

从图上看 Quen Image 启用原生 NVFP4 支持。可带来高达 4.6 倍的性能提升。

同时还能够降低显存使用。

FeatureFP4 (E2M1)MXFP4NVFP4
Format
Structure4 bits (1 sign, 2 exponent, 1 mantissa) plus software scaling factor4 bits (1 sign, 2 exponent, 1 mantissa) plus 1 shared power-of-two scale per 32 value block4 bits (1 sign, 2 exponent, 1 mantissa) plus 1 shared FP8 scale per 16 value block
Accelerated Hardware ScalingNoYesYes
MemoryUp to 4x less memory than FP16
AccuracyRisk of noticeable accuracy drop compared to FP8Risk of noticeable accuracy drop compared to FP8Lower risk of noticeable accuracy drop particularly for larger models

详细介绍可以看 NV 的博客,NV 在 CES2026 还开源了全球最大规模的数据集。


📌 转载信息
原作者:
Tusk4125
转载时间:
2026/1/7 19:22:07