wip

tastelikefeet · tastelikefeet · commit 04f9f71747ad · 2026-02-07T11:25:52.000+08:00
diff --git a/cookbook/megatron/ddp.py b/cookbook/megatron/ddp.py
@@ -0,0 +1,99 @@
+import os
+
+from peft import LoraConfig
+from tqdm import tqdm
+
+import twinkle
+from twinkle import DeviceMesh, Platform
+from twinkle import get_device_placement, get_logger
+from twinkle.dataloader import DataLoader
+from twinkle.dataset import Dataset, DatasetMeta
+from twinkle.model import MegatronModel
+from twinkle.preprocessor import SelfCognitionProcessor
+
+if Platform.get_rank() == 0:
+    # rank0 recording
+    import swanlab
+    swanlab.login(api_key=os.environ['SWANLAB_API_KEY'], save=True)
+
+    run = swanlab.init(
+        project="twinkle",
+    )
+
+
+# Construct a device_mesh, tp=pp=cp=2, dp=1
+device_mesh = DeviceMesh.from_sizes(dp_size=1, tp_size=2, pp_size=2, cp_size=2)
+# use torchrun mode
+twinkle.initialize(mode='local', global_device_mesh=device_mesh)
+
+logger = get_logger()
+
+
+def eval(model):
+    # 100 Samples
+    dataset = Dataset(dataset_meta=DatasetMeta('ms://swift/self-cognition', data_slice=range(100)))
+    dataset.set_template('Template', model_id='ms://Qwen/Qwen2.5-7B-Instruct')
+    dataset.map(SelfCognitionProcessor('twinkle大模型', 'ModelScope社区'))
+    dataset.encode()
+    dataloader = DataLoader(dataset=dataset, batch_size=1)
+    for step, batch in tqdm(enumerate(dataloader)):
+        model.forward_only(inputs=batch)
+        model.calculate_loss()
+    metrics = model.calculate_metric(is_training=False)
+    return metrics
+
+
+def train():
+    # 1000 samples
+    dataset = Dataset(dataset_meta=DatasetMeta('ms://swift/self-cognition', data_slice=range(1000)))
+    # Set template to prepare encoding
+    dataset.set_template('Template', model_id='ms://Qwen/Qwen2.5-7B-Instruct')
+    # Preprocess the dataset to standard format
+    dataset.map(SelfCognitionProcessor('twinkle大模型', 'ModelScope社区'))
+    # Encode dataset
+    dataset.encode()
+    # Global batch size = 1, dp_size = 1
+    dataloader = DataLoader(dataset=dataset, batch_size=1)
+    # Use a MegatronModel
+    model = MegatronModel(model_id='ms://Qwen/Qwen2.5-7B-Instruct')
+
+    lora_config = LoraConfig(
+        r=8,
+        lora_alpha=32,
+        target_modules='all-linear'
+    )
+
+    # Add a lora to model, with name `default`
+    model.add_adapter_to_model('default', lora_config, gradient_accumulation_steps=16)
+    # Add Optimizer for lora `default`
+    model.set_optimizer(optimizer_cls='default', lr=1e-4)
+    # Add LRScheduler for lora `default`
+    model.set_lr_scheduler(scheduler_cls='default', num_warmup_steps=5, num_training_steps=len(dataloader))
+    logger.info(get_device_placement())
+    # Print the training config
+    logger.info(model.get_train_configs())
+    logger.info(f'Total steps: {len(dataloader)}')
+    loss_metric = 99.0
+    for step, batch in enumerate(dataloader):
+        # Do forward and backward
+        model.forward_backward(inputs=batch)
+        # Step
+        model.clip_grad_and_step()
+        if step % 20 == 0:
+            # Print metric
+            metric = model.calculate_metric(is_training=True)
+            if Platform.get_rank() == 0:
+                swanlab.log(metric)
+            logger.info(f'Current is step {step} of {len(dataloader)}, metric: {metric}')
+        if step > 0 and step % 40 == 0:
+           metrics = eval(model)
+           logger.info(f'Eval metric: {metrics}')
+           metrics['step'] = step
+           if loss_metric > float(metrics['loss']):
+               model.save(f'checkpoint-{step}')
+               loss_metric = float(metrics['loss'])
+    model.save(f'last-checkpoint')
+
+
+if __name__ == '__main__':
+    train()
diff --git a/cookbook/transformers/fsdp2.py b/cookbook/transformers/fsdp2.py
@@ -17,7 +17,7 @@
     swanlab.login(api_key=os.environ['SWANLAB_API_KEY'], save=True)
 
     run = swanlab.init(
-        project="megatron-swift",
+        project="twinkle",
     )
 
 
@@ -92,7 +92,7 @@ def train():
            if loss_metric > float(metrics['loss']):
                model.save(f'checkpoint-{step}')
                loss_metric = float(metrics['loss'])
-    model.save(f'last-checkpoint', adapter_name='default')
+    model.save(f'last-checkpoint')
 
 
 if __name__ == '__main__':
diff --git a/src/twinkle/model/megatron/megatron.py b/src/twinkle/model/megatron/megatron.py
@@ -185,8 +185,8 @@ def __init__(
         self._model_wrapped = False
         # This correctly handles vocab sharding in Tensor Parallelism
         self.optimizer_group: Dict[str, MegatronOptimizerGroup] = {_default_adapter_name: self._construct_default_optimizer_group()}
-        MegatronPeft().patch()
-
+        self.active_group = _default_adapter_name
+        MegatronPeft().__call__()
 
     def _construct_default_optimizer_group(self):
         return MegatronOptimizerGroup(
@@ -230,6 +230,12 @@ def _lazy_wrap_model(self):
             self.model = self.strategy.wrap_model(self.model)
             self._model_wrapped = True
 
+    def _get_default_group(self):
+        """Get the only group has optimizer, else return the default one"""
+        if len(self.optimizer_group) == 1:
+            return next(iter(self.optimizer_group))
+        return self.active_group
+
     @staticmethod
     def _not_encoded(inputs):
         assert isinstance(inputs, dict)
@@ -299,7 +305,7 @@ def forward_backward(self,
         from megatron.core.pipeline_parallel import get_forward_backward_func
         from megatron.core import parallel_state as mpu
 
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         forward_only = kwargs.pop('forward_only', False)
         optimizer_config = self.optimizer_group[adapter_name]
         loss_instance = self.optimizer_group[adapter_name].loss_instance
@@ -465,7 +471,7 @@ def step(self, **kwargs):
         Args:
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
 
         if not optimizer_config.do_grad_sync(
@@ -503,7 +509,7 @@ def zero_grad(self, **kwargs):
         Args:
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
 
         # For DDP-wrapped models, ALWAYS zero the gradient buffer
@@ -528,7 +534,7 @@ def lr_step(self, **kwargs):
         Args:
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
 
         if not optimizer_config.do_grad_sync(
@@ -557,7 +563,7 @@ def set_loss(self, loss_cls: Union[Loss, Type[Loss], str, Callable[[InputFeature
             loss_cls: Loss class or string name (not used for Megatron).
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         optimizer_config.loss_instance = construct_class(loss_cls, Loss, twinkle.loss, **kwargs)
 
@@ -571,7 +577,7 @@ def add_metric(self, metric_cls: Union[Metric, str], is_training: Optional[bool]
                 adapter_name: Lora adapter name.
                 Any parameters needed to construct the metric_cls instance.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         kwargs['device_mesh'] = self.device_mesh
         kwargs['process_group'] = optimizer_config._dp_group
@@ -593,7 +599,7 @@ def set_optimizer(self, optimizer_cls: Union[Optimizer, Type[Optimizer], str],
                 - For standard optimizers: lr, weight_decay, etc.
                 - For MegatronDistributed: use_distributed_optimizer, clip_grad, etc.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         if not self._model_wrapped:
             self.model = self.strategy.wrap_model(self.model)
@@ -611,7 +617,7 @@ def _accumulate_metric(optimizer_config: MegatronOptimizerGroup, is_training):
 
     @remote_function(collect='first', lazy_collect=False)
     def calculate_metric(self, is_training, **kwargs):
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         return optimizer_config.calculate_metrics(is_training)
 
@@ -715,7 +721,7 @@ def set_lr_scheduler(self, scheduler_cls: Union[LRScheduler, Type[LRScheduler],
             scheduler_cls: Scheduler class or string name.
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         optimizer = optimizer_config.optimizer
         if not scheduler_cls or scheduler_cls in ('OptimizerParamScheduler', 'default'):
@@ -738,7 +744,7 @@ def save(self, name: Optional[str] = None, output_dir: Optional[str] = None, int
             interval: Save each interval steps.
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         if optimizer_config.cur_step % interval != 0:
             return
@@ -772,7 +778,7 @@ def load(self, name: str, output_dir: Optional[str] = None, **kwargs):
             checkpoint_dir = HubOperation.download_model(name, token=token)
         else:
             checkpoint_dir = os.path.join(output_dir, name)
-        adapter_name = kwargs.get('adapter_name')
+        adapter_name = kwargs.get('adapter_name', self._get_default_group())
         bridge = self._bridge
         for _model in self.strategy.unwrap_model(self.model):
             bridge.load_weights(_model, checkpoint_dir, is_peft_format = (adapter_name != _default_adapter_name))
@@ -860,7 +866,7 @@ def get_state_dict(self, **kwargs):
         Returns:
             State dict of trainable parameters.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         return self._get_trainable_parameters(adapter_name)
 
     def get_hf_state_dict(self, adapter_name: str = '') -> Generator[Tuple[str, torch.Tensor], None, None]:
@@ -988,7 +994,7 @@ def set_template(self, template_cls: Union[Template, Type[Template], str], **kwa
             template_cls: Template class or string name.
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         optimizer_config.template = construct_class(template_cls, Template, twinkle.template, **kwargs)
 
@@ -1000,7 +1006,7 @@ def set_processor(self, processor_cls: Union[InputProcessor, Type[InputProcessor
             processor_cls: Processor class or string name.
             **kwargs: Additional arguments.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
         kwargs['framework'] = 'megatron'
         optimizer_config.processor = construct_class(processor_cls, InputProcessor, twinkle.processor, **kwargs)
@@ -1015,7 +1021,7 @@ def get_train_configs(self, **kwargs):
         Returns:
             Configuration summary string.
         """
-        adapter_name = kwargs.pop('adapter_name', _default_adapter_name)
+        adapter_name = kwargs.pop('adapter_name', self._get_default_group())
         optimizer_config = self.optimizer_group[adapter_name]
 
         expr = f'Backend: Megatron-Core\n'