float16(也写作 Float16、FP16、half-precision floating point)指16 位浮点数格式,常用于机器学习、图形计算与高性能计算中,用更少的内存与带宽换取更快的运算,但相较 float32 精度与可表示范围更有限。(在不同标准/硬件中实现细节可能略有差异,最常见的是 IEEE 754 半精度。)
/floʊt sɪkˈstiːn/
We stored the model weights in float16 to save memory.
我们把模型权重用 float16 存储,以节省内存。
Although float16 speeds up training on modern GPUs, you may need loss scaling to reduce underflow and keep gradients stable.
尽管 float16 能在现代 GPU 上加速训练,但你可能需要使用损失缩放来减少下溢,并保持梯度稳定。
float16 由 float(浮点数)+ 16(16 位)构成,字面意思就是“16 位的浮点格式”。在计算与工程语境里,数字后缀常用来指代数据类型的位宽(如 int8、float32 等)。