cuBLASLt 是 NVIDIA CUDA 生态中的一个库组件,属于 cuBLAS(CUDA 基础线性代数子程序) 的“Lt”接口(常被理解为 Lightweight/扩展接口),主要用于更灵活、更可调优的矩阵乘法(尤其是 GEMM)与相关线性代数运算,在 GPU 上实现高性能计算。
(注:它是技术名词/库名,并非日常英语单词。)
/ˈkjuːblæs ˌɛlˈtiː/
I used cuBLASLt to speed up matrix multiplication on the GPU.
我使用 cuBLASLt 来加速 GPU 上的矩阵乘法。
By tuning cuBLASLt GEMM heuristics and workspace size, the team improved throughput for mixed-precision training without changing the model code.
通过调整 cuBLASLt 的 GEMM 启发式策略和工作区大小,团队在不改动模型代码的情况下提升了混合精度训练的吞吐量。
cuBLASLt 可拆解为:cu(CUDA 的常见前缀,表示与 CUDA/GPU 相关)+ BLAS(Basic Linear Algebra Subprograms,基础线性代数子程序标准)+ Lt(通常指更“轻量/新式/更灵活”的接口系列)。它反映了 NVIDIA 在 cuBLAS 之外提供的一套更可配置的矩阵运算 API,便于在不同数据类型、布局与算法之间做性能取舍。