SemiAnalysisAI · cquil11 · Mar 10, 2026 · Mar 10, 2026 · Mar 10, 2026 · claude
@@ -3076,7 +3076,7 @@ gptoss-fp4-b200-trt:
     - { tp: 8, conc-start:   4, conc-end:   4}
 
 gptoss-fp4-b200-vllm:
-  image: vllm/vllm-openai:v0.15.1
+  image: vllm/vllm-openai:v0.16.0-cu130
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: b200
@@ -3107,7 +3107,7 @@ gptoss-fp4-b200-vllm:
     - { tp: 8, conc-start: 4, conc-end: 4 }
 
 gptoss-fp4-h100-vllm:
-  image: vllm/vllm-openai:v0.15.1
+  image: vllm/vllm-openai:v0.16.0-cu130
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: h100
@@ -3386,7 +3386,7 @@ gptoss-fp4-h200-trt:
     - { tp: 8, ep: 8, dp-attn: false, conc-start: 4, conc-end: 8 }
 
 gptoss-fp4-h200-vllm:
-  image: vllm/vllm-openai:v0.15.1
+  image: vllm/vllm-openai:v0.16.0-cu130
   model: openai/gpt-oss-120b
   model-prefix: gptoss
   runner: h200

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
@@ -932,3 +932,10 @@
     - "Remove deprecated VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION/VLLM_ROCM_USE_AITER_MHA env vars and compilation-config cudagraph_mode"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/867
 
+- config-keys:
+    - gptoss-fp4-b200-vllm
+    - gptoss-fp4-h100-vllm
+    - gptoss-fp4-h200-vllm
+  description:
+    - "Update vLLM image from v0.15.1 to v0.16.0-cu130 for NVIDIA GPT-OSS configs"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/800