update twinkle dpo

Yunnglin · Yunnglin · commit 21a7c17192a9 · 2026-04-03T18:14:29.000+08:00
diff --git a/cookbook/client/tinker/self_host/dpo.py b/cookbook/client/tinker/self_host/dpo.py
@@ -0,0 +1,183 @@
+# Tinker-Compatible Client - DPO (Direct Preference Optimization) Training with LoRA
+#
+# This script demonstrates how to fine-tune a language model using DPO
+# through the Tinker-compatible client API.
+#
+# Training flow per step:
+#   1. forward_backward with 'cross_entropy' + disable_lora=True
+#      → base-model forward pass; LoRA weights are NOT in the computation graph
+#        so backward accumulates zero LoRA gradients (safe to discard).
+#   2. Attach returned per-token ref logps to each datum's loss_fn_inputs.
+#   3. forward_backward with 'importance_sampling'
+#      → server detects ref_logps and switches to DPOLoss + DPOMetric.
+#   4. optim_step → update LoRA, DPO metrics returned automatically.
+#
+# The server must be running first (see server.py and server_config.yaml).
+
+import numpy as np
+import torch
+from tqdm import tqdm
+from typing import Any, Dict, List
+
+from tinker import types
+from twinkle import init_tinker_client, get_logger
+from twinkle.dataset import Dataset, DatasetMeta
+from twinkle.dataloader import DataLoader
+from twinkle.preprocessor import EmojiDPOProcessor
+from twinkle.server.common import input_feature_to_datum
+
+logger = get_logger()
+
+# Initialize the Tinker client before importing ServiceClient
+init_tinker_client()
+
+from tinker import ServiceClient  # noqa: E402 (must follow init_tinker_client)
+
+# ---------------------------------------------------------------------------
+# Configuration
+# ---------------------------------------------------------------------------
+base_model = 'Qwen/Qwen3.5-4B'
+base_url = 'http://localhost:8000'
+api_key = 'EMPTY_API_KEY'
+dataset_id = 'ms://hjh0119/shareAI-Llama3-DPO-zh-en-emoji'
+
+batch_size = 4
+learning_rate = 1e-4
+dpo_beta = 0.1
+sft_weight = 1.0
+loss_type = 'sigmoid'
+max_length = 2048
+lora_rank = 8
+system_prompt = 'You are a helpful assistant.'
+
+
+# ---------------------------------------------------------------------------
+# Dataset helpers  (reused from twinkle/self_host/dpo.py)
+# ---------------------------------------------------------------------------
+
+def create_dpo_dataset():
+    """Create DPO dataset with positive/negative format."""
+    dataset = Dataset(DatasetMeta(dataset_id, data_slice=range(600)))
+    dataset.set_template('Qwen3_5Template', model_id=f'ms://{base_model}', max_length=max_length)
+    dataset.map(
+        EmojiDPOProcessor,
+        init_args={'system': system_prompt},
+    )
+    # EmojiDPOProcessor returns {'positive': InputFeature, 'negative': InputFeature, ...}
+    # encode handles this format automatically
+    dataset.encode()
+    return dataset
+
+
+def prepare_dpo_batch(batch: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
+    """Reorganise batch into DP-safe interleaved format [pos_1, neg_1, pos_2, neg_2, ...].
+
+    Args:
+        batch: List of rows, each with 'positive' and 'negative' InputFeatures.
+
+    Returns:
+        Interleaved list so each DP worker slice contains complete pairs.
+    """
+    result = []
+    for row in batch:
+        base_fields = {k: v for k, v in row.items() if k not in ('positive', 'negative')}
+        pos_sample = {**base_fields, **row['positive']}
+        neg_sample = {**base_fields, **row['negative']}
+        result.append(pos_sample)
+        result.append(neg_sample)
+    return result
+
+
+# ---------------------------------------------------------------------------
+# Training
+# ---------------------------------------------------------------------------
+
+def train():
+    # Step 1: Prepare dataset & dataloader
+    logger.info('Loading DPO dataset...')
+    dataset = create_dpo_dataset()
+    dataloader = DataLoader(dataset=dataset, batch_size=batch_size)
+    logger.info(f'Dataset ready: {len(dataloader)} steps per epoch')
+
+    # Step 2: Connect to server and create LoRA training client
+    service_client = ServiceClient(base_url=base_url, api_key=api_key)
+    training_client = service_client.create_lora_training_client(
+        base_model=base_model,
+        rank=lora_rank,
+    )
+    logger.info(f'LoRA training client created (rank={lora_rank})')
+    logger.info(f'Starting DPO training: loss_type={loss_type}, beta={dpo_beta}, lr={learning_rate}')
+
+    # Step 3: Training loop
+    for step, batch in tqdm(enumerate(dataloader), total=len(dataloader)):
+        # Normalise numpy / torch tensors to plain Python lists for serialisation
+        for row in batch:
+            for key in list(row.keys()):
+                if isinstance(row[key], np.ndarray):
+                    row[key] = row[key].tolist()
+                elif isinstance(row[key], torch.Tensor):
+                    row[key] = row[key].cpu().numpy().tolist()
+
+        # Build interleaved [pos, neg, pos, neg, ...] batch
+        dpo_batch = prepare_dpo_batch(batch)
+
+        # Convert each InputFeature dict to a Tinker Datum
+        input_datums = [input_feature_to_datum(row) for row in dpo_batch]
+
+        # -----------------------------------------------------------------
+        # A. Reference forward pass (base model, disable_lora=True)
+        #    LoRA weights are outside the computation graph → backward
+        #    produces zero LoRA gradients, so this call is safe.
+        # -----------------------------------------------------------------
+        ref_result = training_client.forward_backward(
+            input_datums,
+            'cross_entropy',
+            loss_fn_config={'disable_lora': True},
+        ).result()
+
+        # -----------------------------------------------------------------
+        # B. Attach per-token ref logps to each datum's loss_fn_inputs
+        # -----------------------------------------------------------------
+        for datum, ref_out in zip(input_datums, ref_result.loss_fn_outputs):
+            ref_logprobs_np = np.array(ref_out['logprobs'].tolist(), dtype=np.float32)
+            datum.loss_fn_inputs['ref_logps'] = types.TensorData.from_numpy(ref_logprobs_np)
+
+        # -----------------------------------------------------------------
+        # C. DPO forward_backward
+        #    Server detects ref_logps → sets DPOLoss + DPOMetric automatically.
+        #    Optional DPO hyper-params can be forwarded via loss_fn_config.
+        # -----------------------------------------------------------------
+        fwdbwd_result = training_client.forward_backward(
+            input_datums,
+            'importance_sampling',
+            loss_fn_config={
+                'dpo_beta': dpo_beta,
+                'dpo_loss_type': loss_type,
+                'dpo_sft_weight': sft_weight,
+            },
+        ).result()
+
+        # -----------------------------------------------------------------
+        # D. Optimizer step — DPOMetric is calculated automatically on the
+        #    server and returned inside optim_result.metrics.
+        # -----------------------------------------------------------------
+        optim_result = training_client.optim_step(
+            types.AdamParams(learning_rate=learning_rate)
+        ).result()
+
+        dpo_loss = fwdbwd_result.metrics.get('loss:avg', 'N/A')
+        logger.info(f'[Step {step}] dpo_loss={dpo_loss} | metrics={optim_result.metrics}')
+
+    # Step 4: Save checkpoint
+    save_result = training_client.save_state('dpo-lora-final').result()
+    logger.info(f'Saved checkpoint: {save_result.path}')
+
+    # Step 5: (Optional) Upload to ModelScope Hub
+    # YOUR_USER_NAME = 'your_username'
+    # hub_model_id = f'{YOUR_USER_NAME}/twinkle-tinker-dpo-lora'
+    # training_client.publish_checkpoint_from_tinker_path(save_result.path).result()
+    # logger.info(f'Uploaded checkpoint to hub: {hub_model_id}')
+
+
+if __name__ == '__main__':
+    train()
diff --git a/src/twinkle/server/common/datum.py b/src/twinkle/server/common/datum.py
@@ -71,6 +71,11 @@ def extract_rl_feature(datum: types.Datum | list[types.Datum]) -> dict:
         if 'advantages' in d.loss_fn_inputs:
             advantages = d.loss_fn_inputs['advantages'].to_numpy().tolist()
             result['advantages'].append(advantages)
+
+        # 'ref_logps' -> 'ref_logps' (for DPO loss)
+        if 'ref_logps' in d.loss_fn_inputs:
+            ref_logps = d.loss_fn_inputs['ref_logps'].to_numpy().tolist()
+            result['ref_logps'].append(ref_logps)
     return result
 
 
diff --git a/src/twinkle/server/model/backends/transformers_model.py b/src/twinkle/server/model/backends/transformers_model.py
@@ -50,14 +50,42 @@ def tinker_forward_backward(self, *, inputs: List[types.Datum], adapter_name: st
         if loss_fn == 'cross_entropy':
             super().set_loss('CrossEntropyLoss', adapter_name=adapter_name)
         elif loss_fn == 'importance_sampling':
-            super().set_loss('GRPOLoss', adapter_name=adapter_name, epsilon=0.2, beta=0.0)
+            # Detect DPO format: datums contain ref_logps in loss_fn_inputs
+            has_ref_logps = any('ref_logps' in d.loss_fn_inputs for d in inputs)
+            if has_ref_logps:
+                # DPO mode: read optional DPO params from loss_fn_config kwargs
+                beta = kwargs.pop('dpo_beta', 0.1)
+                loss_type = kwargs.pop('dpo_loss_type', 'sigmoid')
+                sft_weight = kwargs.pop('dpo_sft_weight', 0.0)
+                super().set_loss(
+                    'DPOLoss', adapter_name=adapter_name, beta=beta, loss_type=loss_type, sft_weight=sft_weight)
+                super().add_metric('DPOMetric', adapter_name=adapter_name, beta=beta)
+            else:
+                # GRPO mode: read optional GRPO params from loss_fn_config kwargs
+                # Also pop DPO-specific kwargs to prevent leaking into forward/backward
+                epsilon = kwargs.pop('epsilon', 0.2)
+                grpo_beta = kwargs.pop('beta', 0.0)
+                super().set_loss('GRPOLoss', adapter_name=adapter_name, epsilon=epsilon, beta=grpo_beta)
         else:
             super().set_loss('CrossEntropyLoss', adapter_name=adapter_name)
         template = self.get_template(adapter_name)
         input_features = datum_to_input_feature(inputs, template)
         outputs = super().forward(inputs=input_features, adapter_name=adapter_name, **kwargs)
         loss_values = extract_rl_feature(inputs)
         loss_kwargs = kwargs.copy()
+        # Convert ref_logps list-of-lists into a padded tensor wrapped in ref_outputs
+        # so that DPOLoss and DPOMetric can consume it via ref_outputs.get('logps').
+        # if 'ref_logps' in loss_values:
+        #     import torch
+        #     import torch.nn.functional as F
+        #     ref_logps_lists = loss_values.pop('ref_logps')
+        #     max_len = max(len(r) for r in ref_logps_lists)
+        #     padded = [
+        #         F.pad(torch.tensor(r, dtype=torch.float32), (0, max_len - len(r)))
+        #         for r in ref_logps_lists
+        #     ]
+        #     ref_logps_tensor = torch.stack(padded)  # [batch, max_seq_len]
+        #     loss_kwargs['ref_outputs'] = {'logps': ref_logps_tensor}
         loss_kwargs.update(loss_values)
         loss = super().calculate_loss(adapter_name=adapter_name, **loss_kwargs)
         super().backward(adapter_name=adapter_name, **kwargs)