你好,就是我看你们权重使用的是sd系列的底膜,然后改成了v-prediction的形式,那么请问你们用了多少数据呢?在我看来,从预测epsilon到模型预测v-prediction,你们是如何做到既保持原有模型的生成能力,有让它能迁移到预测v-prediction上面去呢?还有其他的训练细节能否透露一下吗