论文中提到,SimAI-WG 可以通过一种 hijacking机制 在单节点环境下生成分布式训练工作负载,主要包括两点:
通过欺骗训练框架,使其“认为”自己运行在目标 GPU 数量的集群环境中。
劫持并跳过 NCCL 的真实通信,使通信操作被触发但不实际执行。
我对这个做法很感兴趣,但在当前开源仓库中,我尚未找到论文中描述的 基于真实训练框架 + NCCL 劫持的工作负载生成实现。
对于以上,我有以下问题
论文中描述的 “单节点 hijacking 方式生成工作负载” 在当前仓库中是否有对应实现?如果有,具体位于哪个模块或文件?
该 hijacking-based 的 SimAI-WG 是否已经开源,还是仅作为论文中的内部实现?
当前 AICB 中的 workload generator 是否被设计为 替代 论文中描述的 hijacking-based 工作负载生成方式,还是两种并行的生成路径?
感谢解答。