update doc

Yunnglin · Yunnglin · commit 6e823c9083c1 · 2026-02-26T15:59:45.000+08:00
diff --git a/cookbook/client/tinker/megatron/server_config.yaml b/cookbook/client/tinker/megatron/server_config.yaml
@@ -21,6 +21,8 @@ applications:
     route_prefix: /api/v1          # API endpoint prefix (Tinker-compatible)
     import_path: server            # Python module to import
     args:
+      server_config:
+        per_token_model_limit: 3      # Maximum number of models (adapters) per token (server-globally enforced)
 
     deployments:
       - name: TinkerCompatServer
@@ -95,7 +97,6 @@ applications:
         rps_limit: 20                               # Max requests per second
         tps_limit: 16000                            # Max tokens per second
       adapter_config:
-        per_token_adapter_limit: 3                # Max concurrent LoRA adapters
         adapter_timeout: 30                       # Seconds before idle adapter unload
         adapter_max_lifetime: 36000               # Maximum lifetime of an adapter in seconds (e.g., 10 hours)
     deployments:
diff --git a/cookbook/client/tinker/megatron/server_config_7b.yaml b/cookbook/client/tinker/megatron/server_config_7b.yaml
@@ -22,7 +22,7 @@ applications:
     import_path: server            # Python module to import
     args:
       server_config:
-        per_token_adapter_limit: 1      # Maximum number of adapters per token (globally)
+        per_token_model_limit: 1      # Maximum number of models (adapters) per token (server-globally enforced)
       supported_models:
         - Qwen/Qwen2.5-7B-Instruct
     deployments:
diff --git a/cookbook/client/tinker/transformer/server_config.yaml b/cookbook/client/tinker/transformer/server_config.yaml
@@ -21,7 +21,8 @@ applications:
     route_prefix: /api/v1          # API endpoint prefix (Tinker-compatible)
     import_path: server            # Python module to import
     args:
-
+      server_config:
+        per_token_model_limit: 3      # Maximum number of models (adapters) per token (server-globally enforced)
     deployments:
       - name: TinkerCompatServer
         autoscaling_config:
@@ -52,7 +53,6 @@ applications:
         rps_limit: 100                             # Max requests per second
         tps_limit: 100000                           # Max tokens per second
       adapter_config:
-        per_token_adapter_limit: 30                # Max concurrent LoRA adapters
         adapter_timeout: 1800                      # Seconds before idle adapter unload
     deployments:
       - name: ModelManagement
diff --git a/cookbook/client/twinkle/megatron/server_config.yaml b/cookbook/client/twinkle/megatron/server_config.yaml
@@ -21,7 +21,8 @@ applications:
     route_prefix: /server          # API endpoint prefix
     import_path: server            # Python module to import
     args:
-
+      server_config:
+        per_token_model_limit: 3      # Maximum number of models (adapters) per token (server-globally enforced)
     deployments:
       - name: TwinkleServer
         autoscaling_config:
@@ -50,7 +51,6 @@ applications:
         mesh: [0,1]                   # Device indices in the mesh
         mesh_dim_names: ['dp']        # Mesh dimension names: 'dp' = data parallel
       adapter_config:
-        per_token_adapter_limit: 30                # Max concurrent LoRA adapters
         adapter_timeout: 1800                      # Seconds before idle adapter unload
     deployments:
       - name: ModelManagement
diff --git a/cookbook/client/twinkle/transformer/server_config.yaml b/cookbook/client/twinkle/transformer/server_config.yaml
@@ -21,7 +21,8 @@ applications:
     route_prefix: /server          # API endpoint prefix
     import_path: server            # Python module to import
     args:
-
+      server_config:
+        per_token_model_limit: 3      # Maximum number of models (adapters) per token (server-globally enforced)
     deployments:
       - name: TwinkleServer
         autoscaling_config:
@@ -40,7 +41,6 @@ applications:
       use_megatron: false                              # Use HuggingFace Transformers (not Megatron)
       model_id: "ms://Qwen/Qwen2.5-3B-Instruct"     # ModelScope model identifier to load
       adapter_config:
-        per_token_adapter_limit: 30   # Max LoRA adapters that can be active simultaneously
         adapter_timeout: 1800         # Seconds before an idle adapter is unloaded
       nproc_per_node: 2               # Number of GPU processes per node
       device_group:                   # Logical device group for this model
@@ -103,7 +103,6 @@ applications:
         gpu_memory_utilization: 0.4
         max_model_len: 1024
       adapter_config:                                    # Adapter lifecycle management
-        per_token_adapter_limit: 30                      # Max LoRA adapters per user
         adapter_timeout: 1800                            # Seconds before idle adapter is unloaded
       device_group:
         name: sampler
diff --git a/docs/source_en/Usage Guide/Server and Client/Server.md b/docs/source_en/Usage Guide/Server and Client/Server.md
@@ -259,7 +259,6 @@ applications:
       use_megatron: false                              # Use Transformers backend
       model_id: "ms://Qwen/Qwen2.5-7B-Instruct"      # ModelScope model identifier
       adapter_config:                                  # LoRA adapter configuration
-        per_token_adapter_limit: 30   # Maximum number of LoRAs that can be activated simultaneously
         adapter_timeout: 1800         # Idle adapter timeout unload time (seconds)
       nproc_per_node: 2               # Number of GPU processes per node
       device_group:                   # Logical device group
@@ -354,6 +353,8 @@ applications:
     route_prefix: /api/v1              # Tinker protocol API prefix
     import_path: server
     args:
+      server_config:
+        per_token_model_limit: 30     # Maximum number of models (adapters) per token (server-global)
     deployments:
       - name: TinkerCompatServer
         autoscaling_config:
diff --git a/docs/source_zh/使用指引/服务端和客户端/服务端.md b/docs/source_zh/使用指引/服务端和客户端/服务端.md
@@ -202,7 +202,6 @@ applications:
       use_megatron: false                              # 使用 Transformers 后端
       model_id: "ms://Qwen/Qwen2.5-7B-Instruct"      # ModelScope 模型标识
       adapter_config:                                  # LoRA 适配器配置
-        per_token_adapter_limit: 30   # 同时可激活的最大 LoRA 数量
         adapter_timeout: 1800         # 空闲适配器超时卸载时间（秒）
       nproc_per_node: 2               # 每节点 GPU 进程数
       device_group:                   # 逻辑设备组
@@ -297,6 +296,8 @@ applications:
     route_prefix: /api/v1              # Tinker 协议 API 前缀
     import_path: server
     args:
+      server_config:
+        per_token_model_limit: 30     # 每个 token 最多可创建的模型（适配器）数量（服务器全局生效）
     deployments:
       - name: TinkerCompatServer
         autoscaling_config:
diff --git a/src/twinkle/server/utils/state/model_manager.py b/src/twinkle/server/utils/state/model_manager.py
@@ -36,7 +36,7 @@ def add(self, model_id: str, record: ModelRecord) -> None:
         token = record.token
         current_ids = self._token_models.get(token, set())
         if len(current_ids) >= self._per_token_model_limit:
-            raise RuntimeError(f'Model limit exceeded for token {token[:8]}...: '
+            raise RuntimeError(f'Model limit exceeded: '
                                f'{len(current_ids)}/{self._per_token_model_limit} models')
         self._token_models.setdefault(token, set()).add(model_id)
         self._store[model_id] = record