您好,有些问题想要请教您。 验证数据集有5070张图像和5070文本;处理成5000对图像和句子。为什么又把图像处理成1000张? 是指索引为0的图像和索引为0-4的文本相对应?那么图像索引为1-4的图像和文本索引1-4是没有关系的? 谢谢您