wip

tastelikefeet · tastelikefeet · commit 0cf1ac38d5ae · 2026-03-27T20:08:33.000+08:00
diff --git a/cookbook/rl/dpo.py b/cookbook/rl/dpo.py
@@ -59,14 +59,15 @@
 from twinkle.dataloader import DataLoader
 from twinkle.dataset import Dataset, DatasetMeta
 from twinkle.loss import CPOLoss, DPOLoss, ORPOLoss, SimPOLoss
+from twinkle.metric import DPOMetric
 from twinkle.model import TransformersModel
 from twinkle.preprocessor import EmojiDPOProcessor
 from twinkle.processor import InputProcessor
 
 logger = get_logger()
 
 # ── Configuration ─────────────────────────────────────────────────────────────
-MODEL_ID = os.environ.get('MODEL_ID', 'ms://Qwen/Qwen3.5-4B')
+MODEL_ID = os.environ.get('MODEL_ID', 'ms://Qwen/Qwen2.5-7B-Instruct')
 DATASET_ID = os.environ.get('DATASET_ID', 'ms://hjh0119/shareAI-Llama3-DPO-zh-en-emoji')
 
 MODEL_GPUS = int(os.environ.get('MODEL_GPUS', 4))
@@ -75,20 +76,21 @@
 
 BATCH_SIZE = int(os.environ.get('BATCH_SIZE', 4))  # Number of preference pairs
 MICRO_BATCH_SIZE = int(os.environ.get('MICRO_BATCH_SIZE', 4))
-GRADIENT_ACCUMULATION_STEPS = int(os.environ.get('GRADIENT_ACCUMULATION_STEPS', 1))
+GRADIENT_ACCUMULATION_STEPS = int(os.environ.get('GRADIENT_ACCUMULATION_STEPS', 8))
 MAX_STEPS = int(os.environ.get('MAX_STEPS', 1000))
-LEARNING_RATE = float(os.environ.get('LR', 5e-6))
+LEARNING_RATE = float(os.environ.get('LR', 5e-5))
 DPO_BETA = float(os.environ.get('DPO_BETA', 0.1))
+SFT_WEIGHT = float(os.environ.get('SFT_WEIGHT', 0.1))  # SFT loss weight for regularization
 LOSS_TYPE = os.environ.get('LOSS_TYPE', 'sigmoid')  # sigmoid, hinge, ipo, simpo, orpo, cpo
-SAVE_STEPS = int(os.environ.get('SAVE_STEPS', 100))
+SAVE_STEPS = int(os.environ.get('SAVE_STEPS', 200))
 MAX_LENGTH = int(os.environ.get('MAX_LENGTH', 2048))
 ADAPTER_NAME = 'default'
 SYSTEM_PROMPT = os.environ.get('SYSTEM_PROMPT', 'You are a helpful assistant.')
 
 
 def create_dpo_dataset():
     """Create DPO dataset with positive/negative format."""
-    dataset = Dataset(DatasetMeta(DATASET_ID))
+    dataset = Dataset(DatasetMeta(DATASET_ID, data_slice=range(15000)))
     dataset.set_template('Template', model_id=MODEL_ID, max_length=MAX_LENGTH)
     dataset.map(
         EmojiDPOProcessor,
@@ -134,7 +136,7 @@ def prepare_dpo_batch(batch: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
 
 # ── Loss Factory ──────────────────────────────────────────────────────────────
 
-def create_loss(loss_type: str, beta: float, reference_free: bool = False):
+def create_loss(loss_type: str, beta: float, sft_weight: float = 0.0, reference_free: bool = False):
     """Create the appropriate loss function based on configuration."""
     if loss_type == 'simpo':
         return SimPOLoss(beta=beta, gamma=0.5)
@@ -148,6 +150,7 @@ def create_loss(loss_type: str, beta: float, reference_free: bool = False):
             beta=beta,
             loss_type=loss_type,
             reference_free=reference_free,
+            sft_weight=sft_weight,
         )
 
 
@@ -174,10 +177,7 @@ def main():
 
     # ── Policy Model Setup ────────────────────────────────────────────────────
     lora_config = LoraConfig(
-        target_modules=[
-            'q_proj', 'k_proj', 'v_proj', 'o_proj',
-            'gate_proj', 'up_proj', 'down_proj',
-        ],
+        target_modules='all-linear',
         r=16,
         lora_alpha=32,
         lora_dropout=0.05,
@@ -195,9 +195,10 @@ def main():
     # Determine if we need reference model based on loss type
     reference_free = LOSS_TYPE in ['simpo', 'orpo', 'cpo']
 
-    # Set up loss function
-    loss_fn = create_loss(LOSS_TYPE, DPO_BETA, reference_free=False)
+    # Set up loss function and metrics
+    loss_fn = create_loss(LOSS_TYPE, DPO_BETA, sft_weight=SFT_WEIGHT, reference_free=False)
     policy_model.set_loss(loss_fn)
+    policy_model.add_metric(DPOMetric, beta=DPO_BETA)
     policy_model.set_processor(InputProcessor)
     policy_model.set_template('Template', model_id=MODEL_ID)
 
diff --git a/src/twinkle/loss/dpo.py b/src/twinkle/loss/dpo.py
@@ -118,6 +118,7 @@ class DPOLoss(PreferenceLossBase):
         ignore_index: Index to ignore in labels (default: -100).
         loss_type: Type of DPO loss variant ('sigmoid', 'hinge', 'ipo', 'kto_pair') (default: 'sigmoid').
         reference_free: Whether to use reference-free DPO (default: False).
+        sft_weight: Weight for SFT loss on chosen responses to prevent likelihood displacement (default: 0.0).
     """
 
     def __init__(
@@ -127,13 +128,15 @@ def __init__(
         ignore_index: int = -100,
         loss_type: str = 'sigmoid',
         reference_free: bool = False,
+        sft_weight: float = 0.0,
         **kwargs,
     ):
         super().__init__(ignore_index=ignore_index)
         self.beta = beta
         self.label_smoothing = label_smoothing
         self.loss_type = loss_type
         self.reference_free = reference_free
+        self.sft_weight = sft_weight
 
     def _align_logps(
         self,
@@ -329,14 +332,26 @@ def __call__(
             )
 
         # Compute DPO loss
-        loss = self._compute_dpo_loss(
+        dpo_loss = self._compute_dpo_loss(
             policy_chosen_logps,
             policy_rejected_logps,
             reference_chosen_logps,
             reference_rejected_logps,
         )
 
-        return LossOutput(loss=loss, num_tokens=0)
+        # Add SFT loss on chosen responses to prevent likelihood displacement
+        if self.sft_weight > 0:
+            sft_loss = self._compute_nll_loss(chosen_logps, chosen_labels)
+            loss = dpo_loss + self.sft_weight * sft_loss
+        else:
+            loss = dpo_loss
+
+        # Return sample count for gradient normalization (not token count)
+        # DPO loss is already per-sample mean, so we just count samples for accumulation
+        import torch
+        num_samples = torch.tensor(chosen_labels.shape[0], device=loss.device)
+
+        return LossOutput(loss=loss, num_tokens=num_samples)
 
 
 class SimPOLoss(PreferenceLossBase):
diff --git a/src/twinkle/metric/__init__.py b/src/twinkle/metric/__init__.py
@@ -2,5 +2,6 @@
 from .accuracy import Accuracy
 from .base import Metric
 from .completion_and_reward import CompletionRewardMetric
+from .dpo import DPOMetric
 from .loss import LossMetric
 from .train_metric import TrainMetric
diff --git a/src/twinkle/metric/dpo.py b/src/twinkle/metric/dpo.py
@@ -0,0 +1,177 @@
+# Copyright (c) ModelScope Contributors. All rights reserved.
+"""DPO-specific metrics for preference optimization training."""
+from typing import List, Union
+
+from twinkle.data_format import InputFeature, ModelOutput
+from .base import Metric
+
+
+class DPOMetric(Metric):
+    """Metrics for DPO (Direct Preference Optimization) training.
+
+    Computes TRL-style metrics:
+        - logps/chosen: Average sequence-level log prob of chosen responses
+        - logps/rejected: Average sequence-level log prob of rejected responses
+        - rewards/chosen: β * (policy_chosen - ref_chosen)
+        - rewards/rejected: β * (policy_rejected - ref_rejected)
+        - rewards/margins: chosen_reward - rejected_reward
+        - rewards/accuracies: Percentage where chosen_reward > rejected_reward
+
+    Args:
+        device_mesh: The device mesh
+        process_group: The process group to collect data from
+        ignore_index: Label index to ignore (default: -100)
+        beta: DPO beta parameter for reward scaling (default: 0.1)
+    """
+
+    def __init__(self, device_mesh, process_group, ignore_index: int = -100, beta: float = 0.1, **kwargs):
+        super().__init__(device_mesh, process_group, **kwargs)
+        self.ignore_index = ignore_index
+        self.beta = beta
+        self.reset()
+
+    def _compute_sequence_logps(self, per_token_logps, labels):
+        """Compute sequence-level log probs by summing valid token logps."""
+        import torch
+        loss_mask = (labels != self.ignore_index).float()
+        return (per_token_logps * loss_mask).sum(dim=-1)
+
+    def _split_chosen_rejected(self, tensor):
+        """Split interleaved tensor into chosen and rejected.
+
+        Input format: [pos_1, neg_1, pos_2, neg_2, ...] (interleaved for DP-safe slicing)
+        Output: (chosen [pos_1, pos_2, ...], rejected [neg_1, neg_2, ...])
+        """
+        return tensor[0::2], tensor[1::2]
+
+    def accumulate(self, inputs: Union[InputFeature, List[InputFeature]], outputs: ModelOutput, **kwargs):
+        """Accumulate DPO metrics from model outputs.
+
+        Expects:
+            - outputs['logps']: [batch, seq_len] per-token log probabilities
+            - inputs['labels']: [batch, seq_len] labels with ignore_index for non-target tokens
+            - kwargs['ref_outputs']: Optional reference model outputs with 'logps'
+        """
+        import torch
+
+        logps = outputs.get('logps')
+        if logps is None:
+            return
+
+        # Get labels from inputs
+        if isinstance(inputs, list):
+            # Stack labels from list of inputs
+            labels_list = [torch.as_tensor(inp['labels']) for inp in inputs]
+            max_len = max(l.shape[0] for l in labels_list)
+            padded = []
+            for l in labels_list:
+                if l.shape[0] < max_len:
+                    pad = torch.full((max_len - l.shape[0],), self.ignore_index, dtype=l.dtype)
+                    l = torch.cat([pad, l])
+                padded.append(l)
+            labels = torch.stack(padded)
+        else:
+            labels = torch.as_tensor(inputs['labels'])
+            if labels.dim() == 1:
+                labels = labels.unsqueeze(0)
+
+        # Ensure logps and labels have same device
+        if logps.device != labels.device:
+            labels = labels.to(logps.device)
+
+        # Align sequence lengths if needed (truncate right)
+        if logps.shape[1] != labels.shape[1]:
+            min_len = min(logps.shape[1], labels.shape[1])
+            logps = logps[:, :min_len]
+            labels = labels[:, :min_len]
+
+        # Compute sequence-level logps
+        seq_logps = self._compute_sequence_logps(logps, labels)
+
+        # Split into chosen and rejected (interleaved format)
+        chosen_logps, rejected_logps = self._split_chosen_rejected(seq_logps)
+        chosen_labels, rejected_labels = self._split_chosen_rejected(labels)
+
+        # Accumulate policy logps
+        self.total_chosen_logps += chosen_logps.sum().item()
+        self.total_rejected_logps += rejected_logps.sum().item()
+
+        # Compute rewards if ref_outputs available
+        ref_outputs = kwargs.get('ref_outputs')
+        if ref_outputs is not None:
+            ref_logps = ref_outputs.get('logps')
+            if ref_logps is not None:
+                # Align ref_logps
+                if ref_logps.device != labels.device:
+                    ref_logps = ref_logps.to(labels.device)
+                if ref_logps.shape[1] != labels.shape[1]:
+                    min_len = min(ref_logps.shape[1], labels.shape[1])
+                    ref_logps = ref_logps[:, :min_len]
+
+                ref_seq_logps = self._compute_sequence_logps(ref_logps, labels)
+                ref_chosen_logps, ref_rejected_logps = self._split_chosen_rejected(ref_seq_logps)
+
+                # Compute rewards: β * (policy - ref)
+                chosen_rewards = self.beta * (chosen_logps - ref_chosen_logps)
+                rejected_rewards = self.beta * (rejected_logps - ref_rejected_logps)
+
+                self.total_chosen_rewards += chosen_rewards.sum().item()
+                self.total_rejected_rewards += rejected_rewards.sum().item()
+                margins = chosen_rewards - rejected_rewards
+                self.total_reward_margin += margins.sum().item()
+                self.total_reward_correct += (margins > 0).sum().item()
+                self.has_rewards = True
+
+        self.total_count += chosen_logps.shape[0]
+
+    def reset(self):
+        """Reset all accumulated values."""
+        self.total_chosen_logps = 0.0
+        self.total_rejected_logps = 0.0
+        self.total_chosen_rewards = 0.0
+        self.total_rejected_rewards = 0.0
+        self.total_reward_margin = 0.0
+        self.total_reward_correct = 0
+        self.total_count = 0
+        self.has_rewards = False
+
+    def calculate(self):
+        """Calculate and return aggregated metrics."""
+        local_results = [{
+            'chosen_logps': self.total_chosen_logps,
+            'rejected_logps': self.total_rejected_logps,
+            'chosen_rewards': self.total_chosen_rewards,
+            'rejected_rewards': self.total_rejected_rewards,
+            'reward_margin': self.total_reward_margin,
+            'reward_correct': self.total_reward_correct,
+            'count': self.total_count,
+            'has_rewards': self.has_rewards,
+        }]
+        all_results = self.gather_results(local_results)
+
+        total_chosen_logps = sum(r['chosen_logps'] for r in all_results)
+        total_rejected_logps = sum(r['rejected_logps'] for r in all_results)
+        total_chosen_rewards = sum(r['chosen_rewards'] for r in all_results)
+        total_rejected_rewards = sum(r['rejected_rewards'] for r in all_results)
+        total_reward_margin = sum(r['reward_margin'] for r in all_results)
+        total_reward_correct = sum(r['reward_correct'] for r in all_results)
+        total_count = sum(r['count'] for r in all_results)
+        has_rewards = any(r['has_rewards'] for r in all_results)
+
+        self.reset()
+
+        if total_count == 0:
+            return {}
+
+        results = {
+            'logps/chosen': f'{total_chosen_logps / total_count:.2f}',
+            'logps/rejected': f'{total_rejected_logps / total_count:.2f}',
+        }
+
+        if has_rewards:
+            results['rewards/chosen'] = f'{total_chosen_rewards / total_count:.4f}'
+            results['rewards/rejected'] = f'{total_rejected_rewards / total_count:.4f}'
+            results['rewards/margins'] = f'{total_reward_margin / total_count:.4f}'
+            results['rewards/accuracies'] = f'{total_reward_correct / total_count * 100:.1f}%'
+
+        return results
diff --git a/src/twinkle/metric/loss.py b/src/twinkle/metric/loss.py
@@ -60,8 +60,10 @@ def calculate(self):
         num_tokens = sum(r['num_tokens'] for r in all_results)
         if num_tokens > 0:
             avg_loss = total_loss / num_tokens
-        else:
+        elif total_count > 0:
             avg_loss = total_loss / total_count
+        else:
+            avg_loss = 0.0
         self.reset()
         results = {}
         if avg_loss is not None:
diff --git a/src/twinkle/model/transformers/transformers.py b/src/twinkle/model/transformers/transformers.py
@@ -121,6 +121,8 @@ def accumulate_metrics(self, is_training):
             metrics = self.train_metrics
         else:
             metrics = self.eval_metrics
+        # Get stored forward_kwargs from previous forward
+        forward_kwargs = getattr(self, 'forward_kwargs', None) or {}
         if len(metrics) > 0 and self.inputs is not None and self.outputs is not None:
             for metric in metrics:
                 metric.accumulate(
@@ -130,7 +132,8 @@ def accumulate_metrics(self, is_training):
                     step=self.cur_step - 1,
                     gradient_accumulation_steps=self.gradient_accumulation_steps,
                     grad_norm=self._last_grad_norm,
-                    loss_reduction=getattr(self.loss_instance, 'reduction', 'mean'))
+                    loss_reduction=getattr(self.loss_instance, 'reduction', 'mean'),
+                    **forward_kwargs)
 
     def calculate_metrics(self, is_training):
         self.accumulate_metrics(is_training)
@@ -405,6 +408,7 @@ def forward(self, *, inputs: Union[InputFeature, List[InputFeature], List[Trajec
         inputs['labels'] = labels
         optimizer_config.inputs = inputs
         optimizer_config.outputs = outputs
+        optimizer_config.forward_kwargs = kwargs  # Store for next metric accumulation
         optimizer_config.loss_value = outputs.get('aux_loss', 0)
         if labels is not None:
             loss_mask = (labels != -100).bool()
@@ -1086,6 +1090,7 @@ def set_grad_scaler(self, **kwargs):
         grad_scaler_config.update(kwargs)
         optimizer_config.scaler = GradScaler(**grad_scaler_config)
 
+    @remote_function()
     def add_metric(self, metric_cls: Union[Metric, str], is_training: Optional[bool] = None, **kwargs):
         """Add an eval metric