modelscope
diff --git a/‎README.md‎
Lines changed: 6 additions & 6 deletions b/‎README.md‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎README_zh.md‎
Lines changed: 5 additions & 5 deletions b/‎README_zh.md‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/mcore_bridge/__init__.py‎
Lines changed: 2 additions & 2 deletions b/‎src/mcore_bridge/__init__.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎src/mcore_bridge/bridge/gpt_bridge.py‎
Lines changed: 86 additions & 13 deletions b/‎src/mcore_bridge/bridge/gpt_bridge.py‎
Lines changed: 86 additions & 13 deletions
diff --git a/‎src/mcore_bridge/config/model_config.py‎
Lines changed: 1 addition & 0 deletions b/‎src/mcore_bridge/config/model_config.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/mcore_bridge/model/mm_gpts/internvl.py‎
Lines changed: 21 additions & 4 deletions b/‎src/mcore_bridge/model/mm_gpts/internvl.py‎
Lines changed: 21 additions & 4 deletions
@@ -7,11 +7,11 @@
 <p> -->
 
 <p align="center">
-    <b>Providing Megatron-Core model definitions for state-of-the-art large language models</b>
+    <b>Providing Megatron-Core model definitions for state-of-the-art large models</b>
 </p>
 
 <p align="center">
-<a href="https://modelscope.cn/home">ModelScope Community Website</a>
+<a href="https://modelscope.cn">ModelScope</a>
 <br>
         <a href="README_zh.md">中文</a> &nbsp ｜ &nbsp English &nbsp
 </p>
@@ -21,17 +21,17 @@
 <img src="https://img.shields.io/badge/python-3.11-5be.svg">
 <img src="https://img.shields.io/badge/pytorch-%E2%89%A52.0-orange.svg">
 <a href="https://github.com/NVIDIA/Megatron-LM/"><img src="https://img.shields.io/badge/megatron--core-%E2%89%A50.12-76B900.svg"></a>
-<a href="https://mcore-bridge.readthedocs.io/en/latest/"><img src="https://img.shields.io/badge/docs-latest-blue.svg"></a>
+<!-- <a href="https://mcore-bridge.readthedocs.io/en/latest/"><img src="https://img.shields.io/badge/docs-latest-blue.svg"></a> -->
 <a href="https://pypi.org/project/mcore-bridge/"><img src="https://badge.fury.io/py/mcore-bridge.svg"></a>
 <a href="https://github.com/modelscope/mcore-bridge/blob/main/LICENSE"><img src="https://img.shields.io/github/license/modelscope/mcore-bridge"></a>
 <a href="https://pepy.tech/project/mcore-bridge"><img src="https://pepy.tech/badge/mcore-bridge"></a>
 <a href="https://github.com/modelscope/mcore-bridge/pulls"><img src="https://img.shields.io/badge/PR-welcome-55EB99.svg"></a>
 </p>
 
 
-<p align="center">
+<!-- <p align="center">
         <a href="https://mcore-bridge.readthedocs.io/en/latest/">English Documentation</a> &nbsp ｜ &nbsp <a href="https://mcore-bridge.readthedocs.io/zh-cn/latest/">中文文档</a> &nbsp
-</p>
+</p> -->
 
 ## 📖 Table of Contents
 - [Groups](#-Groups)
@@ -54,7 +54,7 @@ You can contact us and communicate with us by adding our group:
 ## 📝 Introduction
 
 ## 🎉 News
-- 🎉 2025.04.01: MCore-Bridge is released! Providing Megatron-Core model definitions for state-of-the-art large language models and making Megatron training as simple as Transformers.
+- 🎉 2026.03.30: MCore-Bridge is released! Providing Megatron-Core model definitions for state-of-the-art large models and making Megatron training as simple as Transformers.
 
 ## 🛠️ Installation
 To install using pip:
 
@@ -7,7 +7,7 @@
 <p> -->
 
 <p align="center">
-    <b>为最先进的大语言模型提供 Megatron-Core 模型定义</b>
+    <b>为最先进的大模型提供 Megatron-Core 模型定义</b>
 </p>
 
 <p align="center">
@@ -21,17 +21,17 @@
 <img src="https://img.shields.io/badge/python-3.11-5be.svg">
 <img src="https://img.shields.io/badge/pytorch-%E2%89%A52.0-orange.svg">
 <a href="https://github.com/NVIDIA/Megatron-LM/"><img src="https://img.shields.io/badge/megatron--core-%E2%89%A50.12-76B900.svg"></a>
-<a href="https://mcore-bridge.readthedocs.io/en/latest/"><img src="https://img.shields.io/badge/docs-latest-blue.svg"></a>
+<!-- <a href="https://mcore-bridge.readthedocs.io/en/latest/"><img src="https://img.shields.io/badge/docs-latest-blue.svg"></a> -->
 <a href="https://pypi.org/project/mcore-bridge/"><img src="https://badge.fury.io/py/mcore-bridge.svg"></a>
 <a href="https://github.com/modelscope/mcore-bridge/blob/main/LICENSE"><img src="https://img.shields.io/github/license/modelscope/mcore-bridge"></a>
 <a href="https://pepy.tech/project/mcore-bridge"><img src="https://pepy.tech/badge/mcore-bridge"></a>
 <a href="https://github.com/modelscope/mcore-bridge/pulls"><img src="https://img.shields.io/badge/PR-welcome-55EB99.svg"></a>
 </p>
 
 
-<p align="center">
+<!-- <p align="center">
         <a href="https://mcore-bridge.readthedocs.io/en/latest/">English Documentation</a> &nbsp ｜ &nbsp <a href="https://mcore-bridge.readthedocs.io/zh-cn/latest/">中文文档</a> &nbsp
-</p>
+</p> -->
 
 ##  📖 目录
 - [用户群](#-用户群)
@@ -53,7 +53,7 @@
 ## 📝 简介
 
 ## 🎉 新闻
-- 🎉 2026.04.01: MCore-Bridge 正式发布！为最先进的大语言模型提供 Megatron-Core 模型定义，让 Megatron 训练像 Transformers 一样简单。
+- 🎉 2026.03.30: MCore-Bridge 正式发布！为最先进的大模型提供 Megatron-Core 模型定义，让 Megatron 训练像 Transformers 一样简单。
 
 ## 🛠️ 安装
 使用pip进行安装：
 
@@ -12,15 +12,15 @@
     from .config import ModelConfig, hf_to_mcore_config
     from .model import get_mcore_model
     from .tuners import LoraParallelLinear
-    from .utils import get_logger, set_random_seed
+    from .utils import get_logger, set_random_seed, split_cp_inputs, unwrap_model
     from .version import __release_datetime__, __version__
 else:
     _import_structure = {
         'bridge': ['GPTBridge'],
         'config': ['ModelConfig', 'hf_to_mcore_config'],
         'model': ['get_mcore_model'],
         'tuners': ['LoraParallelLinear'],
-        'utils': ['get_logger', 'set_random_seed'],
+        'utils': ['get_logger', 'set_random_seed', 'split_cp_inputs', 'unwrap_model'],
         'version': ['__release_datetime__', '__version__'],
     }
 
 
@@ -5,13 +5,15 @@
 import torch
 import torch.distributed as dist
 import torch.nn.functional as F
-import transformers
+from contextlib import contextmanager
 from megatron.core import mpu
 from packaging import version
 from peft import PeftModel
 from peft.utils import ModulesToSaveWrapper
 from tqdm import tqdm
-from typing import List, Optional, Union
+from transformers import PreTrainedModel
+from transformers.utils import ContextManagers
+from typing import Callable, List, Optional, Union
 
 from mcore_bridge.tuners import LoraParallelLinear
 from mcore_bridge.utils import (MxFp4Dequantizer, SafetensorLazyLoader, StreamingSafetensorSaver, deep_getattr,
@@ -66,7 +68,6 @@ def __init__(self, config):
         self.pp_group = mpu.get_pipeline_model_parallel_group()
         self.etp_group = mpu.get_expert_tensor_parallel_group()
         self.ep_group = mpu.get_expert_model_parallel_group()
-        self.is_transformers_5 = version.parse(transformers.__version__) >= version.parse('5.0.0.dev')
         self.tp_rank = mpu.get_tensor_model_parallel_rank()
         self.pp_rank = mpu.get_pipeline_model_parallel_rank()
         self.etp_rank = mpu.get_expert_tensor_parallel_rank()
@@ -1615,7 +1616,14 @@ def _convert_mtp_layer(self, lm_model, hf_state_dict, hf_prefix: str, layer_idx:
             hf_state_dict.update(origin_hf_state_dict)
         return hf_state_dict
 
-    def load_weights(self, mg_models, hf_model_dir: str, peft_format: bool = False, adapter_name: str = 'default'):
+    def load_weights(
+        self,
+        mg_models,
+        hf_model_dir: str,
+        peft_format: bool = False,
+        adapter_name: str = 'default',
+        converter: Optional[Callable] = None,
+    ):
         """Load weights from safetensors (HuggingFace) format into Megatron model.
 
         Args:
@@ -1624,24 +1632,38 @@ def load_weights(self, mg_models, hf_model_dir: str, peft_format: bool = False,
             peft_format: Whether the weights are in PEFT (LoRA, etc.) format. Defaults to False.
                 If True, loads LoRA delta weights. If False, loads the full model weights.
             adapter_name: Name of the adapter for PEFT models. Defaults to 'default'.
+            converter: Used to perform key-value conversion on the newly loaded state_dict.
         """
         self._peft_format = peft_format
         self._adapter_name = adapter_name
         mg_models = unwrap_model(mg_models)
         self._disable_tqdm = False
         with torch.no_grad(), SafetensorLazyLoader(hf_model_dir, peft_format=peft_format) as loader:
             state_dict = loader.get_state_dict()
+            if converter:
+                new_state_dict = {}
+                for k, v in state_dict.items():
+                    kv = converter(k, v)
+                    if kv is None:
+                        continue
+                    k, v = kv
+                    new_state_dict[k] = v
+                state_dict = new_state_dict
             hf_prefix = 'base_model.model.' if peft_format else ''
             for mg_model in mg_models:
                 list(self._convert([mg_model], state_dict, hf_prefix, True, 'Loading: '))
 
-    def export_weights(self,
-                       mg_models,
-                       target_device=None,
-                       only_master_rank: bool = False,
-                       peft_format: bool = False,
-                       tqdm_desc: str = 'Exporting: ',
-                       disable_tqdm: bool = True):
+    def export_weights(
+        self,
+        mg_models,
+        target_device=None,
+        only_master_rank: bool = False,
+        peft_format: bool = False,
+        adapter_name: str = 'default',
+        converter: Optional[Callable] = None,
+        tqdm_desc: str = 'Exporting: ',
+        disable_tqdm: bool = True,
+    ):
         """Export Megatron model weights to safetensors (HuggingFace) format as a generator.
 
         This method yields weight tensors one by one for streaming save operations or RL weight synchronization,
@@ -1654,6 +1676,8 @@ def export_weights(self,
             peft_format: Whether to export in PEFT (LoRA, etc.) format. Defaults to False.
                 - If True, exports only LoRA delta weights. If False, exports the complete model weights
                 (e.g., after merge-lora or full-parameter fine-tuning).
+            adapter_name: Name of the adapter for PEFT models. Defaults to 'default'.
+            converter: Used to perform key-value conversion on the newly exported state_dict.
             tqdm_desc: Description text for the progress bar. Defaults to 'Exporting: '.
             disable_tqdm: Whether to disable the tqdm progress bar. Defaults to True.
 
@@ -1663,8 +1687,8 @@ def export_weights(self,
         self._target_device = target_device
         self._only_master_rank = only_master_rank
         self._peft_format = peft_format
+        self._adapter_name = adapter_name
         self._disable_tqdm = disable_tqdm
-        self._adapter_name = 'default'
         self._peft_target_modules = set()
         self._peft_modules_to_save = set()
         hf_prefix = 'base_model.model.' if peft_format else ''
@@ -1674,13 +1698,21 @@ def export_weights(self,
                 mg_models[i] = mg_model.model
         self.config = mg_models[0].config
         with torch.no_grad():
-            yield from self._convert(mg_models, {}, hf_prefix, False, tqdm_desc=tqdm_desc)
+            for k, v in self._convert(mg_models, {}, hf_prefix, False, tqdm_desc=tqdm_desc):
+                if converter:
+                    kv = converter(k, v)
+                    if kv is None:
+                        continue
+                    k, v = kv
+                yield k, v
 
     def save_weights(
         self,
         mg_models,
         output_dir: str,
         peft_format: bool = False,
+        adapter_name: str = 'default',
+        converter: Optional[Callable] = None,
         max_shard_size: str = '5GB',
     ) -> None:
         """Save Megatron model checkpoint in safetensors (HuggingFace) format.
@@ -1695,6 +1727,8 @@ def save_weights(
             peft_format: Whether to save in PEFT (LoRA, etc.) format. Defaults to False.
                 If True, saves LoRA delta weights. If False, saves the complete model weights
                 (e.g., after merge-lora or full-parameter fine-tuning).
+            adapter_name: Name of the adapter for PEFT models. Defaults to 'default'.
+            converter: Used to perform key-value conversion on the newly exported state_dict.
             max_shard_size: Maximum size of a single storage file, default is '5GB'.
         """
         gc_collect()
@@ -1705,12 +1739,51 @@ def save_weights(
                 target_device='cpu',
                 only_master_rank=True,
                 peft_format=peft_format,
+                adapter_name=adapter_name,
+                converter=converter,
                 tqdm_desc='Saving: ',
                 disable_tqdm=False):
             saver.add_tensor(k, v)
         saver.finalize()
         dist.barrier()  # Ensure all weights are saved completely
 
+    @contextmanager
+    def _patch_hf_initialize_weight(self):
+
+        _origin_initialize_weight = PreTrainedModel._initialize_weights
+
+        def _initialize_weight(self, *args, **kwargs):
+            return
+
+        PreTrainedModel._initialize_weights = _initialize_weight
+        try:
+            yield
+        finally:
+            PreTrainedModel._initialize_weights = _origin_initialize_weight
+
+    @contextmanager
+    def _patch_device_meta(self, model_cls):
+        __origin_init__ = model_cls.__init__
+
+        def __init__(self, *args, **kwargs):
+            with torch.device('meta'):
+                __origin_init__(self, *args, **kwargs)
+
+        model_cls.__init__ = __init__
+
+        try:
+            yield
+        finally:
+            model_cls.__init__ = __origin_init__
+
+    def _get_meta_model_context(self, ignore_init_model_cls=None):
+        ignore_init_model_cls = ignore_init_model_cls or []
+        if not isinstance(ignore_init_model_cls, list):
+            ignore_init_model_cls = [ignore_init_model_cls]
+        context_list = [self._patch_device_meta(model_cls) for model_cls in ignore_init_model_cls]
+        context_list.append(self._patch_hf_initialize_weight())
+        return ContextManagers(context_list)
+
 
 class MultimodalGPTBridge(GPTBridge):
     hf_layers_prefix = 'model.language_model.layers'
 
@@ -285,6 +285,7 @@ def __post_init__(self):
 
         if self.add_bias_linear:
             self.add_qkv_bias = True
+        self.batch_p2p_comm = not self.overlap_p2p_comm
         if self.swiglu:
             self.activation_func = F.silu
             self.gated_linear_unit = True
 
@@ -1,7 +1,8 @@
 # Copyright (c) ModelScope Contributors. All rights reserved.
+import importlib
 import torch
 from torch import nn
-from transformers import AutoModel, PretrainedConfig
+from transformers import AutoModel, AutoTokenizer, PretrainedConfig
 from transformers.dynamic_module_utils import get_class_from_dynamic_module
 
 from mcore_bridge.bridge import GPTBridge, MultimodalGPTBridge
@@ -18,6 +19,23 @@ class InternvlBridge(GPTBridge):
     hf_lm_head_key = 'language_model.lm_head.weight'
     hf_score_key = 'language_model.score.weight'
 
+    def get_hf_meta_model(self):
+        model_cls = []
+        class_names = ['Qwen2ForCausalLM', 'Qwen3ForCausalLM', 'Qwen3MoeForCausalLM', 'GptOssForCausalLM']
+        module = importlib.import_module('transformers')
+        for cls_name in class_names:
+            try:
+                model_cls.append(getattr(module, cls_name))
+            except (ImportError, AttributeError):
+                pass
+        contexts = self._get_meta_model_context(model_cls)
+        hf_config = self.config.hf_config
+        model_cls = get_class_from_dynamic_module('modeling_internvl_chat.InternVLChatModel', hf_config.name_or_path)
+        with contexts:
+            model = model_cls(hf_config)
+        model._auto_class = 'AutoModelForCausalLM'
+        return model
+
 
 class InternvlVit(HuggingFaceVit):
     module_mapping = {'vision_model': 'vision_model', 'mlp1': 'mlp1'}
@@ -33,7 +51,6 @@ def prepare_attn_impl(self):
         self.hf_config.vision_config.use_flash_attn = use_flash_attn
 
     def prepare_model(self, hf_config: PretrainedConfig):
-        from transformers import AutoProcessor
         llm_model_type = self.config.llm_model_type
         if llm_model_type not in ['qwen2', 'qwen3', 'qwen3_moe', 'gpt_oss']:
             raise ValueError(f'{llm_model_type} is not supported for internvl_chat model')
@@ -52,7 +69,7 @@ def prepare_model(self, hf_config: PretrainedConfig):
         self.select_layer = hf_config.select_layer
         self.downsample_ratio = hf_config.downsample_ratio
         self.ps_version = hf_config.ps_version
-        self.processor = AutoProcessor.from_pretrained(hf_config.name_or_path, trust_remote_code=True)
+        self.tokenizer = AutoTokenizer.from_pretrained(hf_config.name_or_path, trust_remote_code=True)
 
     def get_inputs_embeds(self, inputs_embeds, **kwargs):
         input_ids = kwargs['input_ids']
@@ -63,7 +80,7 @@ def get_inputs_embeds(self, inputs_embeds, **kwargs):
             inputs_embeds = inputs_embeds + vit_embeds.mean() * 0.
         else:
             vit_embeds = self.extract_feature(pixel_values.to(self.vision_model.dtype))
-            selected = (input_ids == self.processor.encode('<IMG_CONTEXT>', add_special_tokens=False)[0])
+            selected = (input_ids == self.tokenizer.encode('<IMG_CONTEXT>', add_special_tokens=False)[0])
             inputs_embeds = inputs_embeds.clone()
             inputs_embeds[selected] = vit_embeds.reshape(-1, vit_embeds.shape[-1]).to(dtype=inputs_embeds.dtype)
         return inputs_embeds