Skip to content

平台支持多节点并行训练Megatron-LM或者Deepspeed吗? #8

@Lzl20092009

Description

@Lzl20092009

你好,请问现在平台支持在本地集群中运行Megatron-LM、Deepspeed等大的训练框架吗?
我们在配置中遇到2个问题
1.Megatron多节点启动bash脚本(每个节点bash有部分参数不一样,如NODE_RANK)。如何可以让分配相同任务节点使用不同配置文件?
2.多节点bash脚本有一个需要配置主Master IP,分配任务节点是由调度器分配的并不知道后续哪一个真正工作节点,这个配置要怎么支持
有没有多节点结合Megatron-LM的实现例子,提供参考一下。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions