关于训练时候的batch size

您好，感谢您的开源工作。我在尝试使用预训练数据集尝试对wifo模型进行训练复现的时候，使用了论文中提供的 Pre-training parameters，并且我使用的设备也是 4*4090。我想请问超参数中的batch size指的是每张卡128batch size，然后进行ddp训练、还是说每张卡32，总共128个batch？

我简单编写脚本测试了一下，在数据shape最大的子数据集 D2 上，在单卡上对128的bs进行一次forward和backward，会超出cuda显存。
再次感谢你们的工作，期待您的解答。