current['module'] = 'skipped' if current['layer'] == 27: x = cache_dic['cache'][-1]['noise'] 论文中的激进缓存的意思不是跳过前26层的计算嘛,只计算最后一层。这里的实现是跳过所有dit的计算?
论文中的激进缓存的意思不是跳过前26层的计算嘛,只计算最后一层。这里的实现是跳过所有dit的计算?