wip

tastelikefeet · tastelikefeet · commit c75e43f20da2 · 2026-03-29T18:33:53.000+08:00
diff --git a/README.md b/README.md
@@ -101,6 +101,7 @@ Or use ModelScope's [official image](https://www.modelscope.cn/docs/intro/enviro
 
 ## Changelog
 
+- 🎉2026-03-28 Support DPO training with both Transformers and Megatron backends. See [dpo_full.py](cookbook/rl/dpo_full.py) and [dpo_lora.py](cookbook/rl/dpo_lora.py).
 - 🎉2026-03-24 Twinkle Web site is now live at https://modelscope.github.io/twinkle-web/
 - 🎉2026-03-19 Support GKD training ，please refer to this [cookbook](cookbook/rl/gkd_on_policy.py).
 - 🎉2026-02-13 Initial version of Twinkle✨ released, including SFT/PT/RL support for text models.
diff --git a/README_ZH.md b/README_ZH.md
@@ -91,6 +91,7 @@ Twinkle✨支持相同的算法接口运行在单GPU、torchrun多机、Ray、Cl
 
 ## 更新日志
 
+🎉2026-03-28 支持 DPO 训练，同时支持 Transformers 和 Megatron 后端。参考 [dpo_full.py](cookbook/rl/dpo_full.py) 和 [dpo_lora.py](cookbook/rl/dpo_lora.py)。
 🎉2026-03-24 Twinkle 站点上线，访问地址 https://modelscope.github.io/twinkle-web/
 🎉2026-03-19 支持GKD蒸馏能力，参考[cookbook](cookbook/rl/gkd_on_policy.py)。
 🎉2026-02-13 Twinkle✨ 初始版本发布，支持文本模型的SFT/PT/RL训练。我们还通过兼容Tinker的API，在魔搭社区上提供了无服务器训练功能。
diff --git a/cookbook/rl/dpo_lora.py b/cookbook/rl/dpo_lora.py
@@ -149,7 +149,7 @@ def main():
     else:
         # Transformers: fsdp=4, dp=2
         from twinkle.model import TransformersModel
-        policy_mesh = DeviceMesh.from_sizes(world_size=MODEL_GPUS, fsdp_size=4, dp_size=2)
+        policy_mesh = DeviceMesh.from_sizes(world_size=MODEL_GPUS, dp_size=4, fsdp_size=2)
         ModelClass = TransformersModel
 
     twinkle.initialize(mode='ray', nproc_per_node=MODEL_GPUS, groups=device_groups)
diff --git a/cookbook/transformers/fsdp2.py b/cookbook/transformers/fsdp2.py
@@ -9,8 +9,8 @@
 from twinkle.model import TransformersModel
 from twinkle.preprocessor import SelfCognitionProcessor
 
-# Construct a device_mesh, dp=2
-device_mesh = DeviceMesh.from_sizes(dp_size=2)
+# Construct a device_mesh, fsdp_size=2, dp=4
+device_mesh = DeviceMesh.from_sizes(fsdp_size=2, dp_size=4)
 # use torchrun mode
 twinkle.initialize(mode='local', global_device_mesh=device_mesh)
 
diff --git a/src/twinkle/preprocessor/__init__.py b/src/twinkle/preprocessor/__init__.py
@@ -1,6 +1,5 @@
 # Copyright (c) ModelScope Contributors. All rights reserved.
 from .base import DataFilter, Preprocessor
-from .dpo import (DPOProcessor, EmojiDPOProcessor, HHRLHFProcessor, IntelOrcaDPOProcessor, ShareGPTDPOProcessor,
-                  UltraFeedbackKTOProcessor, UltraFeedbackProcessor)
+from .dpo import EmojiDPOProcessor
 from .llm import (AlpacaProcessor, CompetitionMathGRPOProcessor, CompetitionMathProcessor, CountdownProcessor,
                   GSM8KProcessor, SelfCognitionProcessor)