非常棒的工作!! 但是我有一些问题想问 Q1 : 我看hunyuan-clusca中对于attention部分是直接用的之前缓存的token,为什么不对attention也选择一些token进行更新呢?这样的话不就变成了只对mlp部分的token进行重新计算么 Q2:如果我要对attention也选择一些token进行重新计算的话,那么就必须完整计算所有的token才能获取对应需要的重新计算的token,这个开销要怎么处理呢? 如果有理解错了,请您指出,感谢 :) @Shenyi-Z