fix lint

addsubmuldiv · addsubmuldiv · commit ff7464a021df · 2026-03-27T09:41:23.000+08:00
diff --git a/src/twinkle/model/megatron/_mindspeed_args.py b/src/twinkle/model/megatron/_mindspeed_args.py
@@ -3,19 +3,14 @@
 
 import argparse
 import json
-from typing import Any, Dict
-
 import torch
+from typing import Any, Dict
 
 from .utils import convert_hf_config
 
 
 def sanitize_mindspeed_values(values: Dict[str, Any]) -> Dict[str, Any]:
-    return {
-        key: value
-        for key, value in values.items()
-        if isinstance(key, str) and key.isidentifier()
-    }
+    return {key: value for key, value in values.items() if isinstance(key, str) and key.isidentifier()}
 
 
 def _resolve_optimization_level(values: Dict[str, Any]) -> int:
@@ -35,9 +30,81 @@ def _resolve_optimization_level(values: Dict[str, Any]) -> int:
     return 0
 
 
+def _update_sanitized(values: Dict[str, Any], section: Dict[str, Any]) -> None:
+    values.update(sanitize_mindspeed_values(section))
+
+
+def _build_fixed_runtime_defaults() -> Dict[str, Any]:
+    # Fixed MindSpeed / TE runtime defaults.
+    return {
+        'transformer_impl': 'transformer_engine',
+        'fp8': None,
+        'optimizer_selection': 'fused_adamw',
+        'shape_order': 'SBH',
+        'use_ascend_mc2': False,
+        'enable_gloo_process_groups': True,
+        'disable_gloo_group': False,
+    }
+
+
+def _build_topology_and_shape_defaults(args: Any, values: Dict[str, Any], rope_scaling: Dict[str,
+                                                                                             Any]) -> Dict[str, Any]:
+    # Core topology and transformer shape.
+    return {
+        'tensor_model_parallel_size': args.tp_size,
+        'pipeline_model_parallel_size': args.pp_size,
+        'context_parallel_size': args.cp_size,
+        'expert_model_parallel_size': args.ep_size,
+        'expert_tensor_parallel_size': args.etp_size,
+        'virtual_pipeline_model_parallel_size': args.vpp_size,
+        'sequence_parallel': bool(args.sequence_parallel),
+        'num_layers': int(args.num_layers),
+        'hidden_size': int(args.hidden_size),
+        'num_attention_heads': int(args.num_attention_heads),
+        'num_query_groups': int(args.num_query_groups or args.num_attention_heads),
+        'ffn_hidden_size': int(args.ffn_hidden_size),
+        'mtp_num_layers': int(args.mtp_num_layers or 0),
+        'bf16': args.params_dtype == torch.bfloat16,
+        'fp16': args.params_dtype == torch.float16,
+        'position_embedding_type': values.get('position_embedding_type', 'rope'),
+        'rope_scaling_type': rope_scaling.get('rope_type') or rope_scaling.get('type'),
+        'yarn_scaling_factor': rope_scaling.get('factor'),
+        'rope_scaling_mscale': rope_scaling.get('mscale'),
+        'rope_scaling_mscale_all_dim': rope_scaling.get('mscale_all_dim'),
+    }
+
+
+def _build_moe_runtime_defaults(values: Dict[str, Any], args: Any, num_experts: int) -> Dict[str, Any]:
+    # MoE runtime knobs.
+    return {
+        'num_experts': num_experts,
+        'num_moe_experts': num_experts or None,
+        'moe_grouped_gemm': bool(values.get('moe_grouped_gemm', False) or num_experts > 0),
+        'moe_token_dispatcher_type': values.get('moe_token_dispatcher_type')
+        or ('alltoall' if num_experts > 0 else None),
+        'moe_router_topk': int(values.get('moe_router_topk', args.num_experts_per_tok) or 2),
+    }
+
+
+def _build_mla_runtime_defaults(values: Dict[str, Any], q_lora_rank: Any, multi_latent_attention: bool,
+                                qk_layernorm: bool, args: Any) -> Dict[str, Any]:
+    # MLA / DeepSeek-style attention knobs.
+    return {
+        'multi_latent_attention': multi_latent_attention,
+        'multi_head_latent_attention': multi_latent_attention,
+        'q_lora_rank': q_lora_rank,
+        'kv_lora_rank': values.get('kv_lora_rank'),
+        'qk_layernorm': qk_layernorm,
+        'use_qk_norm': qk_layernorm,
+        'qk_nope_head_dim': values.get('qk_head_dim', values.get('qk_nope_head_dim')),
+        'qk_rope_head_dim': values.get('qk_pos_emb_head_dim', values.get('qk_rope_head_dim')),
+        'v_head_dim': values.get('v_head_dim', args.kv_channels),
+    }
+
+
 def build_mindspeed_namespace(args: Any, defaults: Dict[str, Any]) -> argparse.Namespace:
     """Build MindSpeed runtime args namespace from Twinkle args.
-    
+
     If there are fields with the same name, the one at the lowest level will be overwritten.
 
     Merges three layers in order of precedence (later layers override earlier ones):
@@ -64,64 +131,15 @@ def build_mindspeed_namespace(args: Any, defaults: Dict[str, Any]) -> argparse.N
     num_experts = int(getattr(args, 'num_experts', 0) or values.get('num_experts', 0) or 0)
     q_lora_rank = values.get('q_lora_rank', getattr(args, 'q_lora_rank', None))
     multi_latent_attention = bool(
-        getattr(args, 'multi_latent_attention', False)
-        or values.get('multi_latent_attention', False)
-        or values.get('multi_head_latent_attention', False)
-        or q_lora_rank is not None
-    )
+        getattr(args, 'multi_latent_attention', False) or values.get('multi_latent_attention', False)
+        or values.get('multi_head_latent_attention', False) or q_lora_rank is not None)
     qk_layernorm = bool(getattr(args, 'qk_layernorm', False) or values.get('qk_layernorm', False))
 
-    values.update(
-        sanitize_mindspeed_values({
-            # Fixed MindSpeed / TE runtime defaults.
-            'transformer_impl': 'transformer_engine',
-            'fp8': None,
-            'optimizer_selection': 'fused_adamw',
-            'shape_order': 'SBH',
-            'use_ascend_mc2': False,
-            'enable_gloo_process_groups': True,
-            'disable_gloo_group': False,
-
-            # Core topology and transformer shape.
-            'tensor_model_parallel_size': args.tp_size,
-            'pipeline_model_parallel_size': args.pp_size,
-            'context_parallel_size': args.cp_size,
-            'expert_model_parallel_size': args.ep_size,
-            'expert_tensor_parallel_size': args.etp_size,
-            'virtual_pipeline_model_parallel_size': args.vpp_size,
-            'sequence_parallel': bool(args.sequence_parallel),
-            'num_layers': int(args.num_layers),
-            'hidden_size': int(args.hidden_size),
-            'num_attention_heads': int(args.num_attention_heads),
-            'num_query_groups': int(args.num_query_groups or args.num_attention_heads),
-            'ffn_hidden_size': int(args.ffn_hidden_size),
-            'mtp_num_layers': int(args.mtp_num_layers or 0),
-            'bf16': args.params_dtype == torch.bfloat16,
-            'fp16': args.params_dtype == torch.float16,
-            'position_embedding_type': values.get('position_embedding_type', 'rope'),
-            'rope_scaling_type': rope_scaling.get('rope_type') or rope_scaling.get('type'),
-            'yarn_scaling_factor': rope_scaling.get('factor'),
-            'rope_scaling_mscale': rope_scaling.get('mscale'),
-            'rope_scaling_mscale_all_dim': rope_scaling.get('mscale_all_dim'),
-
-            # MoE runtime knobs.
-            'num_experts': num_experts,
-            'num_moe_experts': num_experts or None,
-            'moe_grouped_gemm': bool(values.get('moe_grouped_gemm', False) or num_experts > 0),
-            'moe_token_dispatcher_type': values.get('moe_token_dispatcher_type') or ('alltoall' if num_experts > 0 else None),
-            'moe_router_topk': int(values.get('moe_router_topk', args.num_experts_per_tok) or 2),
-
-            # MLA / DeepSeek-style attention knobs.
-            'multi_latent_attention': multi_latent_attention,
-            'multi_head_latent_attention': multi_latent_attention,
-            'q_lora_rank': q_lora_rank,
-            'kv_lora_rank': values.get('kv_lora_rank'),
-            'qk_layernorm': qk_layernorm,
-            'use_qk_norm': qk_layernorm,
-            'qk_nope_head_dim': values.get('qk_head_dim', values.get('qk_nope_head_dim')),
-            'qk_rope_head_dim': values.get('qk_pos_emb_head_dim', values.get('qk_rope_head_dim')),
-            'v_head_dim': values.get('v_head_dim', args.kv_channels),
-        }))
+    _update_sanitized(values, _build_fixed_runtime_defaults())
+    _update_sanitized(values, _build_topology_and_shape_defaults(args, values, rope_scaling))
+    _update_sanitized(values, _build_moe_runtime_defaults(values, args, num_experts))
+    _update_sanitized(values,
+                      _build_mla_runtime_defaults(values, q_lora_rank, multi_latent_attention, qk_layernorm, args))
     values['optimization_level'] = _resolve_optimization_level(values)
     return argparse.Namespace(**sanitize_mindspeed_values(values))
 
diff --git a/src/twinkle/model/megatron/args.py b/src/twinkle/model/megatron/args.py
@@ -42,12 +42,8 @@ def _allreduce_word_embedding_grads_allow_none(*call_args, **call_kwargs):
     it can survive Megatron helper signature drift across versions.
     """
     from megatron.core import parallel_state
-    from megatron.core.distributed.finalize_model_grads import (
-        _get_main_grad_attr,
-        _reshard_if_dtensor,
-        _unshard_if_dtensor,
-        get_attr_wrapped_model,
-    )
+    from megatron.core.distributed.finalize_model_grads import (_get_main_grad_attr, _reshard_if_dtensor,
+                                                                _unshard_if_dtensor, get_attr_wrapped_model)
 
     model, config, embd_group, pp_group, _ = _normalize_word_embedding_allreduce_call(*call_args, **call_kwargs)
     if embd_group is None:
@@ -65,8 +61,8 @@ def _get_main_grad_attr_compat(weight, ddp_config):
             return _get_main_grad_attr(weight)
         return _get_main_grad_attr(weight, ddp_config.use_custom_fsdp)
 
-    if parallel_state.is_rank_in_embedding_group(ignore_virtual=True) and torch.distributed.get_world_size(
-            embd_group) > 1:
+    if parallel_state.is_rank_in_embedding_group(
+            ignore_virtual=True) and torch.distributed.get_world_size(embd_group) > 1:
         if parallel_state.is_pipeline_first_stage(ignore_virtual=True):
             model_module = model[0]
         elif parallel_state.is_pipeline_last_stage(ignore_virtual=True):
@@ -328,9 +324,8 @@ def expert_tensor_parallel_size(self) -> int:
             # the parameters were built according to tp_size.
             tp = self.device_mesh.tp_world_size or 1
             if self.device_mesh.etp_size is not None and self.device_mesh.etp_world_size != tp:
-                logger.warning(
-                    f'etp_size={self.device_mesh.etp_world_size} is ignored on '
-                    f'megatron_core<0.13; expert TP is tied to tp_size={tp}')
+                logger.warning(f'etp_size={self.device_mesh.etp_world_size} is ignored on '
+                               f'megatron_core<0.13; expert TP is tied to tp_size={tp}')
             return tp
         return self.device_mesh.etp_world_size
 
@@ -438,9 +433,7 @@ def from_hf_config(
         # The registry import chain can pull in megatron.core, which must stay
         # behind the MindSpeed bootstrap on NPU.
         from .model.constant import MLLMModelType
-        is_multimodal = model_type in {
-            value for key, value in vars(MLLMModelType).items() if not key.startswith('_')
-        }
+        is_multimodal = model_type in {value for key, value in vars(MLLMModelType).items() if not key.startswith('_')}
 
         # Determine QKV bias
         if hasattr(text_config, 'attention_bias'):
@@ -589,15 +582,10 @@ def create_model(self, ) -> List[nn.Module]:
 
         def finalize_model_grads_for_lora(model, *args, **kwargs):
             import importlib
-
-            from megatron.core.distributed import DistributedDataParallel as MegatronDDP
-            from megatron.core.distributed.finalize_model_grads import (
-                _get_main_grad_attr,
-                _reshard_if_dtensor,
-                _unshard_if_dtensor,
-                get_attr_wrapped_model,
-            )
             from megatron.core import parallel_state
+            from megatron.core.distributed import DistributedDataParallel as MegatronDDP
+            from megatron.core.distributed.finalize_model_grads import (_get_main_grad_attr, _reshard_if_dtensor,
+                                                                        _unshard_if_dtensor, get_attr_wrapped_model)
             from peft import PeftModel as _PeftModel
 
             # Unwrap PeftModel -> LoraModel -> real model to check DDP capability.
@@ -610,9 +598,7 @@ def _get_base_model(m):
             base_model = _get_base_model(model[0])
             if isinstance(base_model, MegatronDDP) or hasattr(base_model, 'finish_grad_sync'):
                 # Fix 2: temporarily swap in the None-safe embedding allreduce.
-                finalize_model_grads_mod = importlib.import_module(
-                    'megatron.core.distributed.finalize_model_grads'
-                )
+                finalize_model_grads_mod = importlib.import_module('megatron.core.distributed.finalize_model_grads')
                 orig_allreduce_word_embedding_grads = finalize_model_grads_mod._allreduce_word_embedding_grads
                 finalize_model_grads_mod._allreduce_word_embedding_grads = _allreduce_word_embedding_grads_allow_none
                 try:
diff --git a/src/twinkle/model/megatron/megatron.py b/src/twinkle/model/megatron/megatron.py
@@ -502,7 +502,7 @@ def forward_step_func(data_iterator, model):
                 masked_labels = torch.where(loss_mask, labels, torch.zeros_like(labels))
 
                 output_tensor.div_(temperature)
-                
+
                 logps = selective_log_softmax(output_tensor, masked_labels)
                 if cp_size > 1:
                     logps = self._postprocess_tensor_cp(logps)
diff --git a/src/twinkle/model/megatron/mindspeed_bootstrap.py b/src/twinkle/model/megatron/mindspeed_bootstrap.py
@@ -7,7 +7,6 @@
 from typing import Any, Dict, Optional
 
 from twinkle import Platform
-
 from ._mindspeed_args import build_mindspeed_namespace, get_mindspeed_signature, sanitize_mindspeed_values
 
 _DEFAULT_MINDSPEED_VALUES: Optional[Dict[str, Any]] = None
@@ -60,10 +59,8 @@ def bootstrap_mindspeed_for_npu(args: Any) -> Optional[Dict[str, Any]]:
     try:
         args_utils = importlib.import_module('mindspeed.args_utils')
     except ModuleNotFoundError as exc:
-        raise RuntimeError(
-            'MindSpeed is required for Twinkle NPU Megatron runs. '
-            'Please install MindSpeed in the current environment.'
-        ) from exc
+        raise RuntimeError('MindSpeed is required for Twinkle NPU Megatron runs. '
+                           'Please install MindSpeed in the current environment.') from exc
     # Fetch MindSpeed defaults here, then merge them with Twinkle args to
     # build the final MindSpeed runtime args.
     runtime_args = build_mindspeed_namespace(args, _get_mindspeed_defaults(args_utils))
diff --git a/src/twinkle/model/megatron/model/__init__.py b/src/twinkle/model/megatron/model/__init__.py
@@ -1,4 +1,4 @@
 from .constant import MegatronModelType
 from .gpt_bridge import GPTBridge
-from .register import (MegatronModelLoader, MegatronModelMeta, ensure_megatron_model_registry,
-                       get_megatron_model_meta, register_megatron_model)
+from .register import (MegatronModelLoader, MegatronModelMeta, ensure_megatron_model_registry, get_megatron_model_meta,
+                       register_megatron_model)
diff --git a/src/twinkle/utils/framework.py b/src/twinkle/utils/framework.py
@@ -58,8 +58,7 @@ def gather_object(object: Any, device_mesh: DeviceMesh, process_group=None):
                     from megatron.core import parallel_state as mpu
 
                     process_group = mpu.get_data_parallel_group_gloo(
-                        with_context_parallel=getattr(device_mesh, 'cp_world_size', 1) > 1
-                    )
+                        with_context_parallel=getattr(device_mesh, 'cp_world_size', 1) > 1)
                 except Exception:
                     pass
             group_size = dist.get_world_size(group=process_group)