-
Notifications
You must be signed in to change notification settings - Fork 15
Open
Description
您好,感谢您的开源工作。我在尝试使用预训练数据集尝试对wifo模型进行训练复现的时候,使用了论文中提供的 Pre-training parameters,并且我使用的设备也是 4*4090。我想请问超参数中的batch size指的是每张卡128batch size,然后进行ddp训练、还是说每张卡32,总共128个batch?
我简单编写脚本测试了一下,在数据shape最大的子数据集 D2 上,在单卡上对128的bs进行一次forward和backward,会超出cuda显存。
再次感谢你们的工作,期待您的解答。
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels