Skip to content

关于论文中“Generating workloads using a single host.”的相关疑问 #212

@intWings

Description

@intWings

论文中提到,SimAI-WG 可以通过一种 hijacking机制 在单节点环境下生成分布式训练工作负载,主要包括两点:
通过欺骗训练框架,使其“认为”自己运行在目标 GPU 数量的集群环境中。
劫持并跳过 NCCL 的真实通信,使通信操作被触发但不实际执行。
我对这个做法很感兴趣,但在当前开源仓库中,我尚未找到论文中描述的 基于真实训练框架 + NCCL 劫持的工作负载生成实现。

对于以上,我有以下问题
论文中描述的 “单节点 hijacking 方式生成工作负载” 在当前仓库中是否有对应实现?如果有,具体位于哪个模块或文件?
该 hijacking-based 的 SimAI-WG 是否已经开源,还是仅作为论文中的内部实现?
当前 AICB 中的 workload generator 是否被设计为 替代 论文中描述的 hijacking-based 工作负载生成方式,还是两种并行的生成路径?

感谢解答。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions