Tensor Cores(张量核心):指 NVIDIA 等 GPU 中专门用于加速张量/矩阵运算(尤其是深度学习中的矩阵乘法与累加,如 GEMM、卷积的底层计算)的硬件单元,常对低精度数据类型(如 FP16、BF16、INT8 等)提供高吞吐支持。也可泛指用于 AI 训练与推理加速的这类“矩阵乘法加速器”。(不同架构的细节与支持数据类型会有所差异。)
/ˈtɛn.sər kɔːrz/
Tensor Cores can speed up neural network training.
Tensor Cores 可以加速神经网络训练。
By using mixed precision, the model achieved higher throughput because Tensor Cores handled most matrix multiplications efficiently.
通过混合精度计算,由于 Tensor Cores 高效处理了大多数矩阵乘法,模型获得了更高的吞吐量。
tensor 源自拉丁语 tendere(“伸展”),在现代数学与机器学习语境中常指“张量”(可看作多维数组/数据结构);core 意为“核心”。合在一起的 Tensor Cores 是硬件命名,强调其“专门服务张量(矩阵)计算的核心单元”。