重点

llama.cpp CUDA性能显著提升，MTP吞吐量增强

llama.cpp 更新 (b9521) 显著优化了其CUDA实现，特别是通过将 `mul_mat_vec_q_moe` 操作纳入PDL，大幅提高了MTP（多线程处理）的性能。

编

潜龙编辑部

发布于 · 2026/06/05 20:59

3 分钟·来源: github.com

illustration · QianLong editorial

核心摘要

llama.cpp 更新 (b9521) 显著优化了其CUDA实现，特别是通过将 `mul_mat_vec_q_moe` 操作纳入PDL，大幅提高了MTP（多线程处理）的性能。

对于本地运行大型语言模型的开发者和用户而言，这意味着更快的推理速度和更高的处理效率，尤其是在使用多线程计算时。

该条资讯来自 github.com。标签：重点。相关平台：github。

潛

继续阅读