fix

tastelikefeet · tastelikefeet · commit f2e26dd22532 · 2026-03-29T19:43:28.000+08:00
diff --git a/cookbook/rl/dpo_full.py b/cookbook/rl/dpo_full.py
@@ -67,7 +67,7 @@
 logger = get_logger()
 
 # ── Configuration ─────────────────────────────────────────────────────────────
-USE_MEGATRON = int(os.environ.get('USE_MEGATRON', 1))
+USE_MEGATRON = int(os.environ.get('USE_MEGATRON', 0))
 MODEL_ID = os.environ.get('MODEL_ID', 'ms://Qwen/Qwen3-4B')
 DATASET_ID = os.environ.get('DATASET_ID', 'ms://hjh0119/shareAI-Llama3-DPO-zh-en-emoji')
 
diff --git a/cookbook/rl/dpo_lora.py b/cookbook/rl/dpo_lora.py
@@ -147,9 +147,10 @@ def main():
         policy_mesh = DeviceMesh.from_sizes(world_size=MODEL_GPUS, dp_size=4, pp_size=2)
         ModelClass = MegatronModel
     else:
-        # Transformers: fsdp=4, dp=2
+        # Transformers: dp_size=8
+        # FSDP2 forward_only & forward has problems with `with unwrapped_model.disable_adapter()`
         from twinkle.model import TransformersModel
-        policy_mesh = DeviceMesh.from_sizes(world_size=MODEL_GPUS, dp_size=4, fsdp_size=2)
+        policy_mesh = DeviceMesh.from_sizes(world_size=MODEL_GPUS, dp_size=8)
         ModelClass = TransformersModel
 
     twinkle.initialize(mode='ray', nproc_per_node=MODEL_GPUS, groups=device_groups)