Skip to content

Question about token-wise cache in attention #16

@ywlq

Description

@ywlq

非常棒的工作!!
但是我有一些问题想问
Q1 : 我看hunyuan-clusca中对于attention部分是直接用的之前缓存的token,为什么不对attention也选择一些token进行更新呢?这样的话不就变成了只对mlp部分的token进行重新计算么
Q2:如果我要对attention也选择一些token进行重新计算的话,那么就必须完整计算所有的token才能获取对应需要的重新计算的token,这个开销要怎么处理呢?
如果有理解错了,请您指出,感谢 :)
@Shenyi-Z

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions