Attention 层参数量计算疑问

AI 计算集群概述中code1中，Attention 层参数量计算时，公式是否有问题？标准多头注意力（不考虑GQA等技术），参数量是否应该是P\_{attn\_per\_layer} = (d\_{model} \times d\_{model})*Q*8 + (d*{model} \times d\_{model})*K*8 + (d*{model} \times d\_{model})*V*8 + (d*{model} \times d\_{model})*O，也就是需要QKV的参数量应该是d_model*d_model*n_heads