能否请教一下，你们第一阶段训练用了多少数据吗

你好，就是我看你们权重使用的是sd系列的底膜，然后改成了v-prediction的形式，那么请问你们用了多少数据呢？在我看来，从预测epsilon到模型预测v-prediction，你们是如何做到既保持原有模型的生成能力，有让它能迁移到预测v-prediction上面去呢？还有其他的训练细节能否透露一下吗