fix

tastelikefeet · tastelikefeet · commit c685f067f0cf · 2026-02-13T14:25:05.000+08:00
diff --git a/cookbook/client/tinker/megatron/server_config.yaml b/cookbook/client/tinker/megatron/server_config.yaml
@@ -45,7 +45,7 @@ applications:
       nproc_per_node: 4               # Number of GPU processes per node
       sampler_type: vllm              # Inference engine: 'vllm' (fast) or 'torch' (TorchSampler)
       engine_args:                    # vLLM engine-specific settings
-        max_model_len: 8192           # Maximum sequence length the engine supports
+        max_model_len: 14336           # Maximum sequence length the engine supports
         gpu_memory_utilization: 0.85   # Fraction of GPU memory to use (0.0-1.0)
         enable_lora: true             # Allow loading LoRA adapters during inference
       device_group:                   # Logical device group for the sampler
@@ -58,7 +58,7 @@ applications:
         dp_size: 4
       queue_config:
         rps_limit: 20                               # Max requests per second
-        tps_limit: 10000                            # Max tokens per second
+        tps_limit: 14336                            # Max tokens per second
     deployments:
       - name: SamplerManagement
         autoscaling_config:
@@ -80,7 +80,7 @@ applications:
     args:
       use_megatron: true                          # Use HuggingFace Transformers backend
       model_id: "ms://Qwen/Qwen3-30B-A3B-Instruct-2507" # ModelScope model identifier
-      max_length: 10240                           # model max length
+      max_length: 14336                           # model max length
       max_loras: 5                                # model max loras
       nproc_per_node: 4                           # Number of GPU processes per node
       device_group:
@@ -94,7 +94,7 @@ applications:
 
       queue_config:
         rps_limit: 20                               # Max requests per second
-        tps_limit: 10000                            # Max tokens per second
+        tps_limit: 14336                            # Max tokens per second
       adapter_config:
         per_token_adapter_limit: 3                # Max concurrent LoRA adapters
         adapter_timeout: 30                       # Seconds before idle adapter unload