你们是使用的与现有图像训练完全不一样的训练方案还是也是扩散呢?如果是扩散是否有尝试不同的方案?
我尝试过使用jit和meanflow进行minist手写识别的训练。
1.meanflow 使用unet 256batch经过1次训练轮次推理步长1得到的结果
如果使用transformer 的dit 效果仅略差
但是
2.jit 1000batch 50次训练轮次推理步长10得到的结果

尽管2者差距很明显。但是jit 模型更小,参数更少。且从原论文上看最终效果区别应该是不大的
因此是否有使用不同训练方案结果的对比 ?