Question about token-wise cache in attention

非常棒的工作！！
但是我有一些问题想问
Q1 : 我看hunyuan-clusca中对于attention部分是直接用的之前缓存的token，为什么不对attention也选择一些token进行更新呢？这样的话不就变成了只对mlp部分的token进行重新计算么
Q2：如果我要对attention也选择一些token进行重新计算的话，那么就必须完整计算所有的token才能获取对应需要的重新计算的token，这个开销要怎么处理呢？
如果有理解错了，请您指出，感谢 :)
@Shenyi-Z