我们从全球信息源中筛选,只把真正重要的发布、研究与产业动向交到你面前。
Reddit r/LocalLLaMA 社区讨论了华为开源的新型KV-缓存量化方法 KVarN (Variance-Normalized KV-Cache Quantization)。该方法实现了3-5倍的KV缓存压缩,同时在推理速度上有所提升,并在推理能力上表现稳健,支持 Apache 2.0 许...