记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch | 山潍

大模型

记录-为什么模型推理时，显存占用分析只需要KV-Catch而没有Q-Catch

字数 1807阅读时长≈ 5 分钟

2026-4-11

AI智能摘要

GPT

这里是萌新 AI，这篇文章介绍了为什么模型推理时显存占用分析只需关注 KV-Cache 而非 Q-Cache。作者通过自注意力机制中 Q、K、V 的含义与计算公式，结合“新华字典”比喻和例子，指出 Q 仅用于当前 token 的计算，生成后即可释放；而 K 和 V 需保留供后续 token 使用，因此显存中只需缓存 KV。

URL

type

Post

status

Published

date

Jun 26, 2025

slug

KV-Catch

summary

KV-Catch

tags

大模型

深度学习

推荐

实用教程

category

大模型

icon

password

😀

今天主要记录学习过程中解决为什么只分析KV-Catch而没有Q-Catch的疑惑！

📝 注意力机制

Tips

理解为什么？需要大家首先理解注意力机制Q,K,V的含义以及计算公式！！

Transformer在深度学习模型中如雷贯耳。学习过Transformer的伙伴们，一定知道注意力机制(Attention)。随着大佬们研究，Attention也从自注意力机制——>多头注意力机制(MHA)——>多查询注意力(MQA)——>分组查询注意力机制(GQA)——>多头局部注意力机制(MLA)。

今天，我们不会讲各种注意力机制具体细节，仅仅以自注意力机制的Q,K,V为例。

含义(个人理解,仅仅便于理解：以新华字典为例)

Q(3,3):可以理解为不带声调的拼音。eg:xue。
K(3,3):可以理解为拼音 xue 的声调。
V(3,3):可以理解为拼音 xue 带声调的汉字。eg:学，血，靴，穴。
QK：拼音和声调组成权重。eg:xue 一声 w=0.1,xue 二声 w=0.5, xue 三声 w=0.2, xue 四声 w=0.2。

eg:句子：不爱吃香菜的萌新，喜欢骑摩托车，爱好是研究。假设将该句子分割成Token：不爱吃|香菜的|萌新, 喜欢|骑|摩托车, 爱好|是|研究。则与input矩阵对应：不爱吃-1，香菜的-2，萌新-3，喜欢-4，骑-5，摩托车-6，爱好-7，是-8，研究-9。

将”不爱吃香菜的萌新”通过Token字典转换成x=[1, 2, 3]（还有embading操作）后，x分别与Q,K,V的weight进行矩阵相乘计算得到相应Q,K,V。

notion image

notion image

从计算公式上来看，Q,K,V是一样的(抛开权重)。

根据上述图标和计算公式，则Q,K,V值分别等于：

从上述Q,K,V矩阵元素值中可以发现：

(以第一行为例)代表Seq中的token以不同权重组合得到的值。

(以第一列为例)代表不同Seq中的token以相同权重组合得到的值。

个人理解：矩阵中的元素值代表了Seq中哪个token比较重要。eg:”不爱吃香菜的萌新”这句话的核心token是“萌新”，则“不爱吃”，“香菜的”token是形容词，用于修饰“萌新”。那么，矩阵每个元素从整体上看已经是完整的Seq，只是“偏向”不同Token的Seq。

接着，计算“权重”：

为了方便，博主将Q,K公式简化,并去掉了放缩操作：

从上述矩阵相乘计算中，可以发现Q,K得到的权重值是针对Seq与Seq之间计算得到的。

再接着，计算”最终“值：

为了方便，博主将V公式简化：

从上诉矩阵相乘计算中，可以发现μ对不同的Seq进行权重相加。矩阵O的每个元素值都包含所有Seq。

结构图(简单)

notion image

总结：以上便是Transformer中attention注意力机制的主要内容。接下来分析在模型推理中，显存占用为什么只需要计算KV-Catch，而不是Q-Catch。

🤗分析原因

这里博主将上诉两个公式摘抄下来：

首先，分析QK^T矩阵：

首先从矩阵行分析（以第一行为例，其他行同理）：

Q矩阵：只使用了Q_1=[q_1,q_2,q_3]行向量信息，也就是说矩阵第一行只使用了第一个Seq的信息（”不爱吃香菜的萌新“）。
K^T矩阵：使用了整个矩阵信息。

接着从矩阵列分析（以第一列为例，其他列同理）：

Q矩阵：使用了整个矩阵信息。
K^T矩阵：只使用了K_1=[k_1,k_2,k_3].T列向量信息，也就是说矩阵第一列只使用了第一个Seq的信息（”不爱吃香菜的萌新“）。

总结：在计算过程中，矩阵Q在前，矩阵K在后。因此，计算过程中矩阵Q只需要关注行向量（也可以理解为Seq，既后一个Seq不需要前一个Seq的信息。eg:”喜欢骑摩托车”-Q_2不需要关注”不爱吃香菜的萌新”-Q_1的信息），而，计算过程中矩阵K需要关注整个信息。

接着，分析QK^TV矩阵：

按照上诉分析原理，可以发现矩阵V也需要关注整个信息。所以，在分析显存占用情况中，只需要分析KV-Catch，不需要分析Q-Catch。

最后，Decode加一个下三角的Mask矩阵。Decode的最终输出结果为：

📎 参考文章

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想、ROPE 位置编码的兼容性问题，以及如何通过矩阵吸收来优化 KV Cache。

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

https://yuanchaofa.com/post/hands-on-deepseek-mla.html

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA - 科学空间|Scientific Spaces

前几天，幻方发布的DeepSeek-V2引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱...

缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA - 科学空间|Scientific Spaces

https://kexue.fm/archives/10091

💡

以上便是为什么只需KV-Catch，而不需Q-Catch的学习记录分享，欢迎您在底部评论区留言，一起交流~

记录-NotionNext博客添加Twikoo评论插件

Paper-Attention Is All You Need

Paper-Attention Is All You Need

作者:不爱吃香菜的萌新
链接:https://hexo.levsongsw.com//largemoder/KV-Catch
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

记录-MCP：FastMCP创建server方法（一）

Lazy loaded image

记录-MCP：FastMCP创建server方法（二）

Lazy loaded image

记录-MCP：Client-服务器回调Client模型

Lazy loaded image

记录-MCP：Client-服务器行为用户确认

Lazy loaded image

记录-Docker打包Python-Web服务

Lazy loaded image

VScode插件(一)

Lazy loaded image

评论

Loading...

目录

你好！我是

不爱吃香菜的萌新

🎉内容输出中🎉

-- 感谢您的支持 ---

👏内容输出中👏

目录

交流频道

加入我们的社群讨论分享

点击加入社群

最新发布

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

²⁹⁴

²⁷

²⁶

²⁵

²⁴

²¹

¹⁰

⁷

³

²

¹

¹

文章数:

338

建站天数:

352 天