Skip to content

关于训练时候的batch size #9

@luckyyf0517

Description

@luckyyf0517

您好,感谢您的开源工作。我在尝试使用预训练数据集尝试对wifo模型进行训练复现的时候,使用了论文中提供的 Pre-training parameters,并且我使用的设备也是 4*4090。我想请问超参数中的batch size指的是每张卡128batch size,然后进行ddp训练、还是说每张卡32,总共128个batch?

我简单编写脚本测试了一下,在数据shape最大的子数据集 D2 上,在单卡上对128的bs进行一次forward和backward,会超出cuda显存。
再次感谢你们的工作,期待您的解答。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions