From 04949ab6fcbcb28ff8448b1e72615986093a01f5 Mon Sep 17 00:00:00 2001
From: Kapil Arya <kapila@nvidia.com>
Date: Mon, 26 Jan 2026 16:11:13 -0800
Subject: [PATCH 1/5] AI-Dynamo updates.

Signed-off-by: Kapil Arya <kapila@nvidia.com>
---
 conf/experimental/ai_dynamo/test/sglang.toml  | 191 +++++
 conf/experimental/ai_dynamo/test/vllm.toml    | 168 +++-
 .../ai_dynamo/test_scenario/sglang_slurm.toml |  44 +
 .../ai_dynamo/test_scenario/vllm_k8s.toml     |   9 +-
 .../test_scenario/vllm_kvbm_slurm.toml        |  85 ++
 .../ai_dynamo/test_scenario/vllm_slurm.toml   |  48 +-
 .../systems/kubernetes/kubernetes_system.py   |  64 +-
 .../slurm/slurm_command_gen_strategy.py       |   8 +-
 src/cloudai/workloads/ai_dynamo/__init__.py   |  16 +-
 src/cloudai/workloads/ai_dynamo/ai_dynamo.py  | 454 +++++++++-
 src/cloudai/workloads/ai_dynamo/ai_dynamo.sh  | 790 +++++++++++++-----
 src/cloudai/workloads/ai_dynamo/aiperf.sh     | 237 ++++++
 .../ai_dynamo/calc_percentile_csv.py          | 139 +++
 src/cloudai/workloads/ai_dynamo/genai_perf.sh | 161 ++++
 .../ai_dynamo/kubernetes_json_gen_strategy.py |   8 +-
 src/cloudai/workloads/ai_dynamo/kvstorage.py  | 299 +++++++
 src/cloudai/workloads/ai_dynamo/kvstorage.sh  | 359 ++++++++
 src/cloudai/workloads/ai_dynamo/lmbench.sh    | 119 +++
 .../ai_dynamo/report_generation_strategy.py   | 189 +----
 .../ai_dynamo/slurm_command_gen_strategy.py   | 138 ++-
 tests/ref_data/ai-dynamo.sbatch               |  81 +-
 tests/test_acceptance.py                      |  20 +-
 tests/test_calc_percentile_csv.py             |  92 ++
 .../test_command_gen_strategy_slurm.py        |  41 +-
 .../test_json_gen_strategy_kubernetes.py      |  27 +-
 .../ai_dynamo/test_report_gen_strategy.py     |  81 +-
 26 files changed, 3209 insertions(+), 659 deletions(-)
 create mode 100644 conf/experimental/ai_dynamo/test/sglang.toml
 create mode 100644 conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
 create mode 100644 conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
 mode change 100755 => 100644 src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
 create mode 100644 src/cloudai/workloads/ai_dynamo/aiperf.sh
 create mode 100644 src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
 create mode 100644 src/cloudai/workloads/ai_dynamo/genai_perf.sh
 create mode 100644 src/cloudai/workloads/ai_dynamo/kvstorage.py
 create mode 100644 src/cloudai/workloads/ai_dynamo/kvstorage.sh
 create mode 100644 src/cloudai/workloads/ai_dynamo/lmbench.sh
 create mode 100644 tests/test_calc_percentile_csv.py

diff --git a/conf/experimental/ai_dynamo/test/sglang.toml b/conf/experimental/ai_dynamo/test/sglang.toml
new file mode 100644
index 000000000..36fc2e05c
--- /dev/null
+++ b/conf/experimental/ai_dynamo/test/sglang.toml
@@ -0,0 +1,191 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+name = "sglang-Qwen3-0.6B"
+description = "sglang backend with Qwen3-0.6B model"
+test_template_name = "AIDynamo"
+
+[cmd_args]
+docker_image_url = "nvcr.io/nvidia/ai-dynamo/sglang-runtime:0.9.0"
+hf_home_path = "/lustre/fsw/coreai_tritoninference_triton3/kapila/huggingface"
+num_nodes = 2
+workloads = "aiperf.sh" #,lmbench.sh,kvstorage.sh"
+
+  [cmd_args.dynamo]
+  backend = "vllm"
+  model = "Qwen/Qwen3-0.6B"
+  workspace-path = "/workspace"
+  node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;"
+  ingress-cmd = "python -m dynamo.frontend" # --router-mode kv"
+  port = 8787
+  endpoint = "v1/chat/completions"
+  etcd-cmd = "etcd --log-level info --data-dir /tmp/etcd "
+  nats-cmd = "nats-server -js"
+  etcd-port = 2379
+  nats-port = 4222
+  worker-error-pattern = "zmq.error.ZMQError:.Address.already.in.use|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|ValueError:.a.python.*async.generator:.EngineDeadError:.EngineCore.encountered.an.issue|ZeroDivisionError:.integer.division.or.modulo.by.zero|ERROR.core.run_engine_core:.EngineCore.encountered.a.fatal.error|Exception:.Failed.to.fetch.model|ERROR.*Engine.core.proc.EngineCore_.*died.unexpectedly|RuntimeError:.Engine.core.initialization.failed."
+
+    [cmd_args.dynamo.prefill_worker]
+    num-nodes = 1
+    cmd = 'python3 -m dynamo.sglang'
+    worker-initialized-regex = 'register._register_llm_with_runtime_config:.Successfully.registered.LLM.with.runtime.config'
+    multiple-workers-per-node = "false"
+    extra-args = "--trust-remote-code --skip-tokenizer-init --enable-metrics"
+
+      [cmd_args.dynamo.prefill_worker.args]
+      model-path = "%MODEL%"
+      served-model-name = "%MODEL%"
+      page-size = 16
+      tensor-parallel-size = 1
+      pipeline-parallel-size = 1
+      disaggregation-mode = "prefill"
+      disaggregation-bootstrap-port = 12345
+      host = "0.0.0.0"
+      port = 40000
+      disaggregation-transfer-backend = "nixl"
+
+    [cmd_args.dynamo.decode_worker]
+    num-nodes = 1
+    cmd = 'python3 -m dynamo.sglang'
+    extra-args = "--trust-remote-code --skip-tokenizer-init --enable-metrics"
+    worker-initialized-regex = 'register._register_llm_with_runtime_config:.Successfully.registered.LLM.with.runtime.config'
+
+    multiple-workers-per-node = "false"
+
+      [cmd_args.dynamo.decode_worker.args]
+      model-path = "%MODEL%"
+      served-model-name = "%MODEL%"
+      page-size = 16
+      tensor-parallel-size = 1
+      pipeline-parallel-size = 1
+      disaggregation-mode = "decode"
+      disaggregation-bootstrap-port = 12345
+      host = "0.0.0.0"
+      disaggregation-transfer-backend = "nixl"
+
+  [cmd_args.lmcache]
+  controller_cmd = "lmcache_controller --host localhost --port 9000 --monitor-port 9001"
+
+    [cmd_args.lmcache.args]
+    chunk_size = 256
+    local_cpu = false
+    nixl_buffer_size = 10737418240
+    nixl_buffer_device = "cuda"
+    extra_config_enable_nixl_storage = true
+    extra_config_nixl_backend = "GDS_MT"
+    extra_config_nixl_file_pool_size = 64
+    extra_config_nixl_path = "%CACHEDIR%"
+
+    enable_controller = true
+    lmcache_instance_id = "lmcache_default_instance"
+    controller_url = "localhost:9001"
+    lmcache_worker_port = 8788
+    distributed_url = "localhost:8789"
+
+  [cmd_args.genai_perf]
+  cmd = "genai-perf profile"
+  extra-args = "--streaming --verbose -- -v --async"
+
+    [cmd_args.genai_perf.args]
+    model = "%MODEL%"
+    url = "%URL%"
+    endpoint = "%ENDPOINT%"
+    endpoint-type = "chat"
+    artifact-dir = "%RESULTS_DIR%/genai_perf_artifacts"
+    profile-export-file = "profile.json"
+    extra-inputs = 'min_tokens:10'
+    output-tokens-mean = 500
+    output-tokens-stddev = 0
+    random-seed = 123
+    request-count = 50
+    synthetic-input-tokens-mean = 300
+    synthetic-input-tokens-stddev = 0
+    warmup-request-count = 5
+    concurrency = 2
+
+  [cmd_args.aiperf]
+  cmd = "aiperf profile"
+  extra-args = "--streaming"
+  version = "git+https://github.com/ai-dynamo/aiperf.git@b1d116496a8247b254a7cd3b14b2f218685255d3"
+
+    [cmd_args.aiperf.args]
+    model = "%MODEL%"
+    url = "%URL%"
+    endpoint = "%ENDPOINT%"
+    artifact-dir = "%RESULTS_DIR%/aiperf"
+    endpoint-type = "chat"
+    warmup-request-count = 1
+    export-level = "raw"
+    benchmark-duration = 100
+
+    # Server metrics collection - set in test_scenario with correct service names per test
+    # LMCache metrics are exposed via vLLM worker's /metrics endpoint
+    server-metrics-formats = "json,csv"
+
+    # initla prompt the same for all users
+    shared-system-prompt-length = 1024
+    # 3K per-user context: unique per session, requires num-dataset-entries
+    user-context-prompt-length = 3072
+    #user sends eeach iteration 1023
+    synthetic-input-tokens-mean = 1024
+    # user gets each iteration 100
+    osl = 100
+    num-dataset-entries = 10
+
+    # Multi-turn conversation settings: 10 users, 20 turns each, message every 1 sec
+    user-centric-rate = 10.0
+    num-users = 10
+    conversation-turn-mean = 20
+
+    # 1 second delay between turns (simulates user think time)
+    conversation-turn-delay-mean = 1000
+
+    # Turn sequence: 1K ISL / 100 OSL for all 20 turns
+    #turn-sequence = "1024,100*20" # Removed by Kapil
+
+
+  [cmd_args.lmbench]
+  cmd = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
+
+    [cmd_args.lmbench.args]
+    num-users = 15
+    num-rounds = 20
+    qps = 0.1
+    shared-system-prompt = 1000
+    user-history-prompt = 20000
+    answer-len = 100
+    model = "%MODEL%"
+    base-url = "%URL%"
+    init-user-id = "1"
+    log-interval = 30
+    time = "100"
+
+  [cmd_args.kvstorage]
+  cmd = "hostname"
+  isl = "1000,2000,4000,8000,16000,24000,32000"
+
+    [cmd_args.kvstorage.args]
+
+[extra_env_vars]
+UCX_LOG_LEVEL = "warn"
+HF_HUB_OFFLINE = "1"
+TRANSFORMERS_OFFLINE = "1"
+HF_DATASETS_OFFLINE = "1"
+DYNAMO_NODELIST = "$(scontrol show hostname $SLURM_JOB_NODELIST | tr -s '\\n' ',')"
+UCX_TLS = "all"
+#DYN_LOGGING_JSONL="true"
+#OTEL_EXPORT_ENABLED="1"
+#OTEL_EXPORTER_OTLP_TRACES_ENDPOINT="http://localhost:4317"
diff --git a/conf/experimental/ai_dynamo/test/vllm.toml b/conf/experimental/ai_dynamo/test/vllm.toml
index ddf132194..12c02e1b1 100644
--- a/conf/experimental/ai_dynamo/test/vllm.toml
+++ b/conf/experimental/ai_dynamo/test/vllm.toml
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -19,34 +19,162 @@ description = "vLLM backend with Qwen3-0.6B model"
 test_template_name = "AIDynamo"
 
 [cmd_args]
-docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.7.0"
+docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.8.1"
+num_nodes = 2
+hf_home_path = "/opt/shared/huggingface"
+workloads = "genai_perf.sh,lmbench.sh,kvstorage.sh"
 
   [cmd_args.dynamo]
   backend = "vllm"
   model = "Qwen/Qwen3-0.6B"
-  workspace-path = "/workspace/examples/backends/vllm"
-  prefill-cmd = 'python3 -m dynamo.vllm --is-prefill-worker'
-  decode-cmd = 'python3 -m dynamo.vllm'
+  workspace-path = "/workspace"
+  node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;"
+  ingress-cmd = "python -m dynamo.frontend --router-mode kv"
+  port = 8787
+  endpoint = "v1/chat/completions"
+  etcd-cmd = "etcd --log-level info --data-dir /tmp/etcd "
+  nats-cmd = "nats-server -js"
+  etcd-port = 2379
+  nats-port = 4222
+  worker-error-pattern = "zmq.error.ZMQError:.Address.already.in.use|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|ValueError:.a.python.*async.generator:.EngineDeadError:.EngineCore.encountered.an.issue|ZeroDivisionError:.integer.division.or.modulo.by.zero|ERROR.core.run_engine_core:.EngineCore.encountered.a.fatal.error|Exception:.Failed.to.fetch.model|ERROR.*Engine.core.proc.EngineCore_.*died.unexpectedly|RuntimeError:.Engine.core.initialization.failed."
+
+    [cmd_args.dynamo.prefill_worker]
+    num-nodes = 1
+    #node-list = ""
+    cmd = 'python3 -m dynamo.vllm --is-prefill-worker' # --enforce-eager'
+    worker-initialized-regex = 'VllmWorker.*has.been.initialized'
+    multiple-workers-per-node = "false"
+    extra-args = "--no-enable-expert-parallel"
+
+      [cmd_args.dynamo.prefill_worker.args]
+      model = "%MODEL%"
+      gpu-memory-utilization = 0.8
+      tensor-parallel-size = 8
+      pipeline-parallel-size = 1
+      data-parallel-size = 1
 
     [cmd_args.dynamo.decode_worker]
-    pipeline-parallel-size = 1
+    num-nodes = 1
+    #node-list = ""
+    cmd = 'python3 -m dynamo.vllm' # --enforce-eager'
+    worker-initialized-regex = 'VllmWorker.*has.been.initialized'
+    multiple-workers-per-node = "false"
+    extra-args = "--no-enable-expert-parallel"
+
+      [cmd_args.dynamo.decode_worker.args]
+      model = "%MODEL%"
+      gpu-memory-utilization = 0.8
+      tensor-parallel-size = 8
+      pipeline-parallel-size = 1
+      data-parallel-size = 1
+
+  [cmd_args.lmcache]
+  controller_cmd = "lmcache_controller --host localhost --port 9000 --monitor-port 9001"
+
+    [cmd_args.lmcache.args]
+    chunk_size = 256
+    local_cpu = false
+    nixl_buffer_size = 10737418240
+    nixl_buffer_device = "cuda"
+    extra_config_enable_nixl_storage = true
+    extra_config_nixl_backend = "GDS_MT"
+    extra_config_nixl_file_pool_size = 64
+    extra_config_nixl_path = "%CACHEDIR%"
+
+    enable_controller = true
+    lmcache_instance_id = "lmcache_default_instance"
+    controller_url = "localhost:9001"
+    lmcache_worker_port = 8788
+    distributed_url = "localhost:8789"
 
   [cmd_args.genai_perf]
-  model = "Qwen/Qwen3-0.6B"
-  endpoint = "v1/chat/completions"
-  endpoint-type = "chat"
-  extra-inputs = 'min_tokens:10'
-  output-tokens-mean = 500
-  output-tokens-stddev = 0
-  random-seed = 123
-  request-count = 50
-  synthetic-input-tokens-mean = 300
-  synthetic-input-tokens-stddev = 0
-  warmup-request-count = 5
-  concurrency = 2
-  extra-args = "--streaming -- -v --async"
+  cmd = "genai-perf profile"
+  extra-args = "--streaming --verbose -- -v --async"
+
+    [cmd_args.genai_perf.args]
+    model = "%MODEL%"
+    url = "%URL%"
+    endpoint = "%ENDPOINT%"
+    endpoint-type = "chat"
+    artifact-dir = "%RESULTS_DIR%/genai_perf_artifacts"
+    profile-export-file = "profile.json"
+    extra-inputs = 'min_tokens:10'
+    output-tokens-mean = 500
+    output-tokens-stddev = 0
+    random-seed = 123
+    request-count = 50
+    synthetic-input-tokens-mean = 300
+    synthetic-input-tokens-stddev = 0
+    warmup-request-count = 5
+    concurrency = 2
+
+  [cmd_args.aiperf]
+  cmd = "aiperf profile"
+  extra-args = "--streaming"
+  version = "git+https://github.com/ai-dynamo/aiperf.git@b1d116496a8247b254a7cd3b14b2f218685255d3"
+
+    [cmd_args.aiperf.args]
+    model = "%MODEL%"
+    url = "%URL%"
+    endpoint = "%ENDPOINT%"
+    artifact-dir = "%RESULTS_DIR%/aiperf"
+    endpoint-type = "chat"
+    warmup-request-count = 1
+    export-level = "raw"
+    benchmark-duration = 100
+
+    # Server metrics collection - set in test_scenario with correct service names per test
+    # LMCache metrics are exposed via vLLM worker's /metrics endpoint
+    server-metrics-formats = "json,csv"
+
+    # initla prompt the same for all users
+    shared-system-prompt-length = 1024
+    # 3K per-user context: unique per session, requires num-dataset-entries
+    user-context-prompt-length = 3072
+    #user sends eeach iteration 1023
+    synthetic-input-tokens-mean = 1024
+    # user gets each iteration 100
+    osl = 100
+    num-dataset-entries = 10
+
+    # Multi-turn conversation settings: 10 users, 20 turns each, message every 1 sec
+    user-centric-rate = 10.0
+    num-users = 10
+    conversation-turn-mean = 20
+
+    # 1 second delay between turns (simulates user think time)
+    conversation-turn-delay-mean = 1000
+
+    # Turn sequence: 1K ISL / 100 OSL for all 20 turns
+    #turn-sequence = "1024,100*20" # Removed by Kapil
+
+
+  [cmd_args.lmbench]
+  cmd = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
+
+    [cmd_args.lmbench.args]
+    num-users = 15
+    num-rounds = 20
+    qps = 0.1
+    shared-system-prompt = 1000
+    user-history-prompt = 20000
+    answer-len = 100
+    model = "%MODEL%"
+    base-url = "%URL%"
+    init-user-id = "1"
+    log-interval = 30
+    time = "100"
+
+  [cmd_args.kvstorage]
+  cmd = "hostname"
+  isl = "1000,2000,4000,8000,16000,24000,32000"
+
+    [cmd_args.kvstorage.args]
 
 [extra_env_vars]
 UCX_LOG_LEVEL = "warn"
-UCX_TLS = "cuda_copy,rc_x"
+HF_HUB_OFFLINE = "1"
+TRANSFORMERS_OFFLINE = "1"
+HF_DATASETS_OFFLINE = "1"
 DYNAMO_NODELIST = "$(scontrol show hostname $SLURM_JOB_NODELIST | tr -s '\\n' ',')"
+UCX_TLS = "all"
diff --git a/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
new file mode 100644
index 000000000..acff6d379
--- /dev/null
+++ b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
@@ -0,0 +1,44 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+name = "dynamo_sglang_kvbm"
+
+[[Tests]]
+id = "sglang-Qwen3-0.6B"
+test_name = "sglang-Qwen3-0.6B"
+time_limit = "00:20:00"
+
+extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
+
+  [Tests.cmd_args]
+  num_nodes = 2                                     # 1 prefill node + 1 decode node
+  workloads = "aiperf.sh"          #,genai_perf.sh,lmbench.sh"
+
+    [Tests.cmd_args.dynamo]
+    model = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" #Qwen/Qwen3-0.6B"
+    node-setup-cmd = "hostname"
+
+      [Tests.cmd_args.dynamo.prefill_worker]
+      num-nodes = 1
+
+        [Tests.cmd_args.dynamo.prefill_worker.args]
+        tensor-parallel-size = 1
+
+      [Tests.cmd_args.dynamo.decode_worker]
+      num-nodes = 1
+
+        [Tests.cmd_args.dynamo.decode_worker.args]
+        tensor-parallel-size = 1
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml
index 66a67db57..c8fdcdad6 100644
--- a/conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_k8s.toml
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -24,7 +24,10 @@ test_name = "vLLM-Qwen3-0.6B"
     [Tests.cmd_args.dynamo]
       [Tests.cmd_args.dynamo.prefill_worker]
       num-nodes = 1
-      tensor-parallel-size = 8
+        [Tests.cmd_args.dynamo.prefill_worker.args]
+        tensor-parallel-size = 8
+
       [Tests.cmd_args.dynamo.decode_worker]
       num-nodes = 1
-      tensor-parallel-size = 8
+        [Tests.cmd_args.dynamo.decode_worker.args]
+        tensor-parallel-size = 8
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
new file mode 100644
index 000000000..020851313
--- /dev/null
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
@@ -0,0 +1,85 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+name = "dynamo_vllm_kvbm"
+
+[[Tests]]
+id = "vLLM-Qwen3-0.6B"
+test_name = "vLLM-Qwen3-0.6B"
+time_limit = "20:00:00"
+
+extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
+
+  [Tests.cmd_args]
+  #storage_cache_dir = "/raid/users/kapila"
+  #storage_cache_dir = "/mnt/vast/kapila"
+  #hf_home_path = "/mnt/vast/disagg_inf/huggingface"
+  num_nodes = 2                                     # 1 prefill node + 1 decode node
+  workloads = "aiperf.sh"          #,genai_perf.sh,lmbench.sh"
+
+    [Tests.cmd_args.dynamo]
+    model = "Qwen/Qwen3-0.6B"
+    ingress-cmd = "python -m dynamo.frontend --router-mode kv" # --router-mode kv --no-kv-events --kv-overlap-score-weight=0" # --router-mode kv"
+    #node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u; (cd /opt/dynamo/venv/lib/python3.12/site-packages/dynamo && patch -p4 < /cloudai_install/clear_kv_blocks_engine_route.patch)"
+    node-setup-cmd = "hostname"
+
+      [Tests.cmd_args.dynamo.prefill_worker]
+      num-nodes = 1
+
+        [Tests.cmd_args.dynamo.prefill_worker.args]
+        tensor-parallel-size = 2
+        connector = "kvbm nixl"                        #"kvbm" #["none", "kvbm"]
+
+      [Tests.cmd_args.dynamo.decode_worker]
+      num-nodes = 1
+
+        [Tests.cmd_args.dynamo.decode_worker.args]
+        tensor-parallel-size = 2
+        connector = "nixl"                        #"kvbm" #["none", "kvbm"]
+
+  [Tests.extra_env_vars]
+  CUFILE_LOG_LEVEL = "INFO"
+  CUFILE_LOGGING_LEVEL = "INFO"
+  PYTHONHASHSEED = "0"
+
+  # Dynamo Flags
+  DYN_LOG = "info"
+  DYN_SYSTEM_PORT = "8081" # Enable system metrics
+
+  # KVBM Flags
+  DYN_KVBM_METRICS = "1"
+  DYN_KVBM_METRICS_PORT = "6880" # Default port
+
+  # set a large timeout for allocating the disk
+  DYN_KVBM_LEADER_WORKER_INIT_TIMEOUT_SECS = "1200"
+  DYN_KVBM_DISABLE_DISK_OFFLOAD_FILTER = "1"        # Force KV cache write on first request
+
+  # Use it only on vast.
+  #DYN_KVBM_DISK_ZEROFILL_FALLBACK="true"
+
+  # set a relatively small CPU cache, so we can do quick disk onboarding
+  DYN_KVBM_CPU_CACHE_GB = "50"
+  # set a large disk cache, so we are actually testing the NIXL with onboarding
+  #DYN_KVBM_DISK_CACHE_GB="100"
+
+  DYN_KVBM_NIXL_BACKEND_UCX = "True"
+  DYN_KVBM_NIXL_BACKEND_GDS = "True"
+
+  # vLLM Flags
+  VLLM_SERVER_DEV_MODE = "1"
+
+  DYN_KVBM_LEADER_ZMQ_PUB_PORT="57001"
+  DYN_KVBM_LEADER_ZMQ_ACK_PORT="57002"
\ No newline at end of file
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
index b32e93fe2..45858d925 100644
--- a/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -20,31 +20,41 @@ job_status_check = false
 [[Tests]]
 id = "test.disagg.single-node"
 test_name = "vLLM-Qwen3-0.6B"
-num_nodes = 2                  # 1 prefill node + 1 decode node
 time_limit = "00:10:00"
 
-  [Tests.cmd_args.dynamo.prefill_worker]
-  num-nodes = 1
-  tensor-parallel-size = 4
-  pipeline-parallel-size = 1
+  [Tests.cmd_args]
+  num_nodes = 2 # 1 prefill node + 1 decode node
+  #storage_cache_dir = "/opt/shared"
+  hf_home_path = "/opt/shared/huggingface"
 
-  [Tests.cmd_args.dynamo.decode_worker]
-  num-nodes = 1
-  tensor-parallel-size = 4
-  pipeline-parallel-size = 1
+    [Tests.cmd_args.dynamo.prefill_worker]
+    num-nodes = 1
+      [Tests.cmd_args.dynamo.prefill_worker.args]
+      tensor-parallel-size = 4
+      pipeline-parallel-size = 1
+
+    [Tests.cmd_args.dynamo.decode_worker]
+    num-nodes = 1
+      [Tests.cmd_args.dynamo.decode_worker.args]
+      tensor-parallel-size = 4
+      pipeline-parallel-size = 1
 
 [[Tests]]
 id = "test.disagg.multinode"
 test_name = "vLLM-Qwen3-0.6B"
-num_nodes = 4                 # 2 prefill nodes + 2 decode nodes
 time_limit = "00:10:00"
 
-  [Tests.cmd_args.dynamo.prefill_worker]
-  num-nodes = 2
-  tensor-parallel-size = 4
-  pipeline-parallel-size = 1
+  [Tests.cmd_args]
+  num_nodes = 4 # 2 prefill nodes + 2 decode nodes
+
+    [Tests.cmd_args.dynamo.prefill_worker]
+    num-nodes = 2
+      [Tests.cmd_args.dynamo.prefill_worker.args]
+      tensor-parallel-size = 4
+      pipeline-parallel-size = 1
 
-  [Tests.cmd_args.dynamo.decode_worker]
-  num-nodes = 2
-  tensor-parallel-size = 4
-  pipeline-parallel-size = 1
+    [Tests.cmd_args.dynamo.decode_worker]
+    num-nodes = 2
+      [Tests.cmd_args.dynamo.decode_worker.args]
+      tensor-parallel-size = 4
+      pipeline-parallel-size = 1
diff --git a/src/cloudai/systems/kubernetes/kubernetes_system.py b/src/cloudai/systems/kubernetes/kubernetes_system.py
index f9ae85113..3d7329e39 100644
--- a/src/cloudai/systems/kubernetes/kubernetes_system.py
+++ b/src/cloudai/systems/kubernetes/kubernetes_system.py
@@ -298,19 +298,63 @@ def _run_genai_perf(self, job: KubernetesJob) -> None:
             raise TypeError("Test definition must be an instance of AIDynamoTestDefinition")
 
         genai_perf_results_path = "/tmp/cloudai/genai-perf"
+        frontend_pod = self._get_dynamo_pod_by_role(role="frontend")
 
-        genai_perf_cmd = ["genai-perf", "profile", f"--artifact-dir={genai_perf_results_path}"]
-        for k, v in tdef.cmd_args.genai_perf.model_dump(
-            exclude={"extra_args", "extra-args"}, exclude_none=True
-        ).items():
-            genai_perf_cmd.append(f"--{k}={v}")
-        if extra_args := tdef.cmd_args.genai_perf.extra_args:
-            genai_perf_cmd.extend(extra_args.split())
-        logging.debug(f"GenAI perf arguments: {genai_perf_cmd=}")
+        # Copy wrapper script and calc_percentile_csv script to the pod
+        wrapper_script_path = tdef.genai_perf_script.installed_path
+        calc_csv_script_path = tdef.calc_percentile_csv.installed_path
 
-        frontend_pod = self._get_dynamo_pod_by_role(role="frontend")
+        pod_wrapper_path = "/tmp/genai_perf.sh"
+        pod_calc_csv_path = "/tmp/calc_percentile_csv.py"
+
+        logging.debug(f"Copying wrapper script {wrapper_script_path} to pod {frontend_pod}")
+        cp_wrapper_cmd = f"kubectl cp {wrapper_script_path} {self.default_namespace}/{frontend_pod}:{pod_wrapper_path}"
+        subprocess.run(cp_wrapper_cmd, shell=True, capture_output=True, text=True, check=True)
+
+        logging.debug(f"Copying calc_percentile_csv script {calc_csv_script_path} to pod {frontend_pod}")
+        cp_calc_cmd = f"kubectl cp {calc_csv_script_path} {self.default_namespace}/{frontend_pod}:{pod_calc_csv_path}"
+        subprocess.run(cp_calc_cmd, shell=True, capture_output=True, text=True, check=True)
 
-        kubectl_exec_cmd = ["kubectl", "exec", "-n", self.default_namespace, frontend_pod, "--", *genai_perf_cmd]
+        # Make wrapper script executable
+
+        kubectl_exec_cmd = ["kubectl", "exec", "-n", self.default_namespace, frontend_pod, "--", *chmod_cmd]
+        logging.debug(f"Executing command to make wrapper script executable in pod={frontend_pod} cmd={kubectl_exec_cmd}")
+        try:
+            result = subprocess.run(kubectl_exec_cmd, capture_output=True, text=True, timeout=60 * 10)
+            logging.debug(f"chmod exited with code {result.returncode}. stdout: {result.stdout}, stderr: {result.stderr}")
+        except Exception as e:
+            logging.debug(f"Error making wrapper script executable in pod '{frontend_pod}': {e}")
+
+
+        # Build genai-perf command arguments
+        genai_perf_cmd_parts = ["genai-perf", "profile", f"--artifact-dir={genai_perf_results_path}"]
+        if tdef.cmd_args.genai_perf.args:
+            for k, v in tdef.cmd_args.genai_perf.args.model_dump(exclude_none=True).items():
+                genai_perf_cmd_parts.append(f"--{k}={v}")
+            if extra_args := tdef.cmd_args.genai_perf.extra_args:
+                if isinstance(extra_args, str):
+                    genai_perf_cmd_parts.extend(extra_args.split())
+                else:
+                    genai_perf_cmd_parts.extend(extra_args)
+
+        # Build wrapper command with proper parameters
+        report_file = "genai_perf_report.csv"
+        wrapper_cmd = [
+            "/bin/bash",
+            pod_wrapper_path,
+            "--result_dir",
+            genai_perf_results_path,
+            "--report_file",
+            report_file,
+            "--calc_percentile_csv_script",
+            pod_calc_csv_path,
+            "--gpus_per_node",
+            str(self.gpus_per_node),
+            "--",
+            *genai_perf_cmd_parts,
+        ]
+
+        kubectl_exec_cmd = ["kubectl", "exec", "-n", self.default_namespace, frontend_pod, "--", *wrapper_cmd]
         logging.debug(f"Executing genai-perf in pod={frontend_pod} cmd={kubectl_exec_cmd}")
         try:
             result = subprocess.run(kubectl_exec_cmd, capture_output=True, text=True, timeout=60 * 10)
diff --git a/src/cloudai/systems/slurm/slurm_command_gen_strategy.py b/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
index 65fae14f0..3893769a0 100644
--- a/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
+++ b/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
@@ -49,6 +49,8 @@ def __init__(self, system: System, test_run: TestRun) -> None:
         super().__init__(system, test_run)
         self.system = cast(SlurmSystem, system)
         self.test_run = test_run
+        self.container_install_path = "/cloudai_install"
+        self.container_results_path = "/cloudai_run_results"
 
         self._node_spec_cache: dict[str, tuple[int, list[str]]] = {}
 
@@ -79,8 +81,8 @@ def container_mounts(self) -> list[str]:
             repo_mounts.append(f"{path}:{repo.container_mount}")
 
         mounts = [
-            f"{self.test_run.output_path.absolute()}:/cloudai_run_results",
-            f"{self.system.install_path.absolute()}:/cloudai_install",
+            f"{self.test_run.output_path.absolute()}:{self.container_results_path}",
+            f"{self.system.install_path.absolute()}:{self.container_install_path}",
             f"{self.test_run.output_path.absolute()}",
             *tdef.extra_container_mounts,
             *repo_mounts,
@@ -302,7 +304,7 @@ def _ranks_mapping_cmd(self) -> str:
     def _metadata_cmd(self) -> str:
         (self.test_run.output_path.absolute() / "metadata").mkdir(parents=True, exist_ok=True)
         num_nodes, _ = self.get_cached_nodes_spec()
-        metadata_script_path = "/cloudai_install"
+        metadata_script_path = self.container_install_path
         if not self.image_path():
             metadata_script_path = str(self.system.install_path.absolute())
         return " ".join(
diff --git a/src/cloudai/workloads/ai_dynamo/__init__.py b/src/cloudai/workloads/ai_dynamo/__init__.py
index 70ed6453c..fbdcaa747 100644
--- a/src/cloudai/workloads/ai_dynamo/__init__.py
+++ b/src/cloudai/workloads/ai_dynamo/__init__.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -19,8 +19,13 @@
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
     DecodeWorkerArgs,
-    GenAIPerfArgs,
+    GenAIPerf,
+    LMBench,
+    LMCache,
+    LMCacheArgs,
     PrefillWorkerArgs,
+    WorkerBaseArgs,
+    WorkerConfig,
 )
 from .kubernetes_json_gen_strategy import AIDynamoKubernetesJsonGenStrategy
 from .report_generation_strategy import AIDynamoReportGenerationStrategy
@@ -34,6 +39,11 @@
     "AIDynamoSlurmCommandGenStrategy",
     "AIDynamoTestDefinition",
     "DecodeWorkerArgs",
-    "GenAIPerfArgs",
+    "GenAIPerf",
+    "LMBench",
+    "LMCache",
+    "LMCacheArgs",
     "PrefillWorkerArgs",
+    "WorkerBaseArgs",
+    "WorkerConfig",
 ]
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
index d7a585c0f..7712aef9c 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -16,25 +16,65 @@
 
 import logging
 from pathlib import Path
-from typing import Optional
+from typing import Literal, Optional
+
+from pydantic import (
+    AliasChoices,
+    BaseModel,
+    ConfigDict,
+    Field,
+    model_validator,
+)
+
+from cloudai.core import (
+    DockerImage,
+    File,
+    GitRepo,
+    HFModel,
+    Installable,
+    JobStatusResult,
+    TestRun,
+)
+from cloudai.models.workload import CmdArgs, TestDefinition
 
-from pydantic import AliasChoices, BaseModel, ConfigDict, Field
 
-from cloudai.core import DockerImage, File, GitRepo, HFModel, Installable, JobStatusResult, TestRun
-from cloudai.models.workload import CmdArgs, TestDefinition
+class Args(BaseModel):
+    """Arguments for custom workloads."""
 
-from .report_generation_strategy import CSV_FILES_PATTERN, JSON_FILES_PATTERN
+    model_config = ConfigDict(extra="allow", populate_by_name=True)
 
 
-class WorkerBaseArgs(BaseModel):
-    """Base arguments for VLLM workers."""
+class Workload(BaseModel):
+    """Arguments for custom workloads."""
 
     model_config = ConfigDict(extra="allow", populate_by_name=True)
 
-    num_nodes: int | list[int] = Field(
-        default=1, serialization_alias="num-nodes", validation_alias=AliasChoices("num-nodes", "num_nodes")
+    name: str
+    cmd: str
+    script: File
+    report_name: Optional[str] = Field(default=None, serialization_alias="report-name")
+    repo: Optional[GitRepo] = None
+    args: Optional[Args] = None
+    extra_args: str | list[str] | None = Field(
+        default=None,
+        serialization_alias="extra-args",
+        validation_alias=AliasChoices("extra-args", "extra_args"),
     )
-    nodes: str | None = Field(default=None)
+
+    @model_validator(mode="after")
+    def validate_workload(self) -> "Workload":
+        """Validate workload."""
+        if self.report_name is None:
+            self.report_name = f"{self.name}_report.csv"
+        if self.args is None:
+            self.args = Args()
+        return self
+
+
+class WorkerBaseArgs(Args):
+    """Base arguments for VLLM workers."""
+
+    model_config = ConfigDict(extra="allow", populate_by_name=True)
 
     data_parallel_size: int | list[int] | None = Field(
         default=None,
@@ -56,6 +96,20 @@ class WorkerBaseArgs(BaseModel):
         serialization_alias="tensor-parallel-size",
         validation_alias=AliasChoices("tensor-parallel-size", "tensor_parallel_size"),
     )
+
+
+class WorkerConfig(BaseModel):
+    """Configuration for workers."""
+
+    model_config = ConfigDict(extra="allow", populate_by_name=True)
+
+    num_nodes: int | list[int] = Field(
+        default=1, serialization_alias="num-nodes", validation_alias=AliasChoices("num-nodes", "num_nodes")
+    )
+    nodes: str | None = Field(default=None)
+
+    args: WorkerBaseArgs = Field(default_factory=WorkerBaseArgs)
+
     extra_args: str | list[str] | None = Field(
         default=None,
         serialization_alias="extra-args",
@@ -78,34 +132,220 @@ class DecodeWorkerArgs(WorkerBaseArgs):
 class AIDynamoArgs(BaseModel):
     """Arguments for AI Dynamo setup."""
 
-    model_config = ConfigDict(extra="allow")
+    model_config = ConfigDict(extra="allow", populate_by_name=True)
 
     model: str = "Qwen/Qwen3-0.6B"
     backend: str = "vllm"
+    connector: Optional[str | list[str]] = None
     workspace_path: str = Field(
         default="/workspace",
         serialization_alias="workspace-path",
         validation_alias=AliasChoices("workspace-path", "workspace_path"),
     )
-    decode_worker: DecodeWorkerArgs = Field(default_factory=DecodeWorkerArgs)
+    port: int = Field(
+        default=8000,
+        description="Dynamo frontend HTTP API port",
+    )
+    etcd_port: int = Field(
+        default=2379,
+        serialization_alias="etcd-port",
+        validation_alias=AliasChoices("etcd-port", "etcd_port"),
+    )
+    nats_port: int = Field(
+        default=4222,
+        serialization_alias="nats-port",
+        validation_alias=AliasChoices("nats-port", "nats_port"),
+    )
+    decode_worker: WorkerConfig = Field(default_factory=WorkerConfig)
     decode_cmd: str = Field(
         default="python3 -m dynamo.vllm",
         serialization_alias="decode-cmd",
         validation_alias=AliasChoices("decode-cmd", "decode_cmd"),
     )
-    prefill_worker: PrefillWorkerArgs | None = None
+    prefill_worker: WorkerConfig = Field(default_factory=WorkerConfig)
     prefill_cmd: str = Field(
-        default="python3 -m dynamo.vllm",
+        default="python3 -m dynamo.vllm --is-prefill-worker",
         serialization_alias="prefill-cmd",
         validation_alias=AliasChoices("prefill-cmd", "prefill_cmd"),
     )
 
 
-class GenAIPerfArgs(BaseModel):
-    """Arguments for GenAI performance profiling."""
+class LMCacheArgs(BaseModel):
+    """Arguments for LMCache."""
 
     model_config = ConfigDict(extra="allow")
 
+    chunk_size: int = 256
+    local_cpu: bool = False
+    nixl_buffer_size: int = 10737418240
+    nixl_buffer_device: str = "cuda"
+    extra_config_enable_nixl_storage: bool = True
+    extra_config_nixl_backend: str = "GDS_MT"
+    extra_config_nixl_file_pool_size: int = 64
+    extra_config_nixl_path: str = "%CACHEDIR%"
+
+    # LMCache controller configuration
+    enable_controller: bool = True
+    lmcache_instance_id: str = "lmcache_default_instance"
+    controller_url: str = "localhost:9001"
+    lmcache_worker_port: int = 8788
+    distributed_url: str = "localhost:8789"
+
+
+class LMCache(BaseModel):
+    """LMCache configuration."""
+
+    model_config = ConfigDict(extra="allow")
+
+    controller_cmd: str = "lmcache_controller --host localhost --port 9000 --monitor-port 9001"
+    repo: Optional[GitRepo] = GitRepo(
+        url="git@github.com:LMCache/LMCache.git",
+        commit="ab8530993992db873869ba882320953582d94309",
+        mount_as="/git/LMCache",
+    )
+
+    args: LMCacheArgs = Field(default_factory=LMCacheArgs)
+    extra_args: str | list[str] | None = Field(
+        default=None,
+        serialization_alias="extra-args",
+        validation_alias=AliasChoices("extra-args", "extra_args"),
+    )
+
+
+class GenAIPerf(Workload):
+    """Workload configuration for GenAI performance profiling."""
+
+    model_config = ConfigDict(extra="allow")
+
+    name: str = "genai_perf"
+    cmd: str = "genai-perf profile"
+    script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
+
+
+class AIPerfArgs(Args):
+    """Arguments for AIPerf profiling - alternative to GenAI-Perf."""
+
+    concurrency: int | None = Field(default=None)
+    request_rate: float | None = Field(
+        default=None,
+        serialization_alias="request-rate",
+        validation_alias=AliasChoices("request-rate", "request_rate"),
+    )
+    synthetic_input_tokens_mean: int | None = Field(
+        default=None,
+        serialization_alias="synthetic-input-tokens-mean",
+        validation_alias=AliasChoices("synthetic-input-tokens-mean", "synthetic_input_tokens_mean"),
+    )
+    synthetic_input_tokens_stddev: int = Field(
+        default=0,
+        serialization_alias="synthetic-input-tokens-stddev",
+        validation_alias=AliasChoices("synthetic-input-tokens-stddev", "synthetic_input_tokens_stddev"),
+    )
+    output_tokens_mean: int | None = Field(
+        default=None,
+        serialization_alias="output-tokens-mean",
+        validation_alias=AliasChoices("output-tokens-mean", "output_tokens_mean"),
+    )
+    output_tokens_stddev: int = Field(
+        default=0,
+        serialization_alias="output-tokens-stddev",
+        validation_alias=AliasChoices("output-tokens-stddev", "output_tokens_stddev"),
+    )
+    request_count: int | None = Field(
+        default=None,
+        serialization_alias="request-count",
+        validation_alias=AliasChoices("request-count", "request_count"),
+    )
+    benchmark_duration: int | None = Field(
+        default=None,
+        serialization_alias="benchmark-duration",
+        validation_alias=AliasChoices("benchmark-duration", "benchmark_duration"),
+    )
+    streaming: bool = Field(default=True)
+    warmup_request_count: int = Field(
+        default=10,
+        serialization_alias="warmup-request-count",
+        validation_alias=AliasChoices("warmup-request-count", "warmup_request_count"),
+    )
+    endpoint_type: str = Field(
+        default="chat",
+        serialization_alias="endpoint-type",
+        validation_alias=AliasChoices("endpoint-type", "endpoint_type"),
+    )
+    ui_type: str = Field(
+        default="simple",
+        serialization_alias="ui-type",
+        validation_alias=AliasChoices("ui-type", "ui_type"),
+    )
+    export_level: Literal["summary", "records", "raw"] = Field(
+        default="records",
+        serialization_alias="export-level",
+        validation_alias=AliasChoices("export-level", "export_level"),
+        description=(
+            "Controls output detail: summary (aggregate only),"
+            " records (per-request metrics), raw (full request/response data)"
+        ),
+    )
+    slice_duration: float | None = Field(
+        default=5.0,
+        serialization_alias="slice-duration",
+        validation_alias=AliasChoices("slice-duration", "slice_duration"),
+        description="Duration in seconds for time-sliced metric analysis. Enables bar chart visualizations.",
+    )
+
+    # Multi-turn / Agentic mode parameters
+    conversation_num: int | None = Field(
+        default=None,
+        serialization_alias="conversation-num",
+        validation_alias=AliasChoices("conversation-num", "conversation_num"),
+        description="Total number of conversation sessions for multi-turn benchmarks.",
+    )
+    conversation_turn_mean: int | None = Field(
+        default=None,
+        serialization_alias="conversation-turn-mean",
+        validation_alias=AliasChoices("conversation-turn-mean", "conversation_turn_mean"),
+        description="Average number of turns (steps) per conversation session.",
+    )
+    conversation_turn_stddev: int | None = Field(
+        default=None,
+        serialization_alias="conversation-turn-stddev",
+        validation_alias=AliasChoices("conversation-turn-stddev", "conversation_turn_stddev"),
+        description="Standard deviation for turn counts per session.",
+    )
+    conversation_turn_delay_mean: int | None = Field(
+        default=None,
+        serialization_alias="conversation-turn-delay-mean",
+        validation_alias=AliasChoices("conversation-turn-delay-mean", "conversation_turn_delay_mean"),
+        description="Mean delay between turns in milliseconds (simulates user think time).",
+    )
+    conversation_turn_delay_stddev: int | None = Field(
+        default=None,
+        serialization_alias="conversation-turn-delay-stddev",
+        validation_alias=AliasChoices("conversation-turn-delay-stddev", "conversation_turn_delay_stddev"),
+        description="Standard deviation for turn delays in milliseconds.",
+    )
+    turn_sequence: str | None = Field(
+        default=None,
+        serialization_alias="turn-sequence",
+        validation_alias=AliasChoices("turn-sequence", "turn_sequence"),
+        description=(
+            "Explicit ISL/OSL pairs for each turn. Format: 'ISL,OSL;ISL,OSL;...' "
+            "Example: '1024,100;2048,100;3072,200' means turn 1=ISL 1024/OSL 100, "
+            "turn 2=ISL 2048/OSL 100, etc. Cycles if more turns than defined pairs."
+        ),
+    )
+
+
+class AIPerf(Workload):
+    """Workload configuration for AIPerf."""
+
+    model_config = ConfigDict(extra="allow")
+
+    name: str = "aiperf"
+    cmd: str = "aiperf profile"
+    args: Optional[Args] = Field(default_factory=AIPerfArgs)
+    script: File = File(Path(__file__).parent.parent / "ai_dynamo/aiperf.sh")
+
     extra_args: str | None = Field(
         default=None,
         serialization_alias="extra-args",
@@ -113,14 +353,57 @@ class GenAIPerfArgs(BaseModel):
     )
 
 
+class LMBench(Workload):
+    """Workload configuration for LMBench."""
+
+    model_config = ConfigDict(extra="allow")
+
+    name: str = "lmbench"
+    script: File = File(Path(__file__).parent.parent / "ai_dynamo/lmbench.sh")
+    cmd: str = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
+    qps: str | list[str] | None = "0.25,0.5,0.75,1.0,1.25,1.5,1.75,2.0"
+    repo: Optional[GitRepo] = GitRepo(
+        url="git@github.com:LMCache/LMBenchmark.git",
+        commit="e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f",
+        mount_as="/git/LMBenchmark",
+    )
+
+
+class KVStorage(Workload):
+    """KV storage workload script."""
+
+    model_config = ConfigDict(extra="allow")
+
+    name: str = "kvstorage"
+    cmd: str = "hostname"
+    script: File = File(Path(__file__).parent.parent / "ai_dynamo/kvstorage.sh")
+
+
+class Constraints(BaseModel):
+    """Constraints for validation of AI Dynamo configurations when using DSE."""
+
+    model_config = ConfigDict(extra="allow")
+
+    prefill_tp_le_decode_tp: bool = True
+    tp_times_pp_le_gpus_per_node: bool = True
+    prefill_decode_nodes_le_total_nodes: bool = True
+
+
 class AIDynamoCmdArgs(CmdArgs):
     """Arguments for AI Dynamo."""
 
     docker_image_url: str
-    huggingface_home_container_path: Path = Path("/root/.cache/huggingface")
+    hf_home_path: Optional[str] = Field(default=None, serialization_alias="hf_home_path")
+    storage_cache_dir: Optional[str | list[str]] = Field(default=None, serialization_alias="storage_cache_dir")
+    num_nodes: int = 1
+    gpus_per_node: int = 8
     dynamo: AIDynamoArgs
-    genai_perf: GenAIPerfArgs
-    run_script: str = ""
+    lmcache: LMCache = Field(default_factory=LMCache)
+    genai_perf: GenAIPerf = Field(default_factory=GenAIPerf)
+    aiperf: AIPerf = Field(default_factory=AIPerf)
+    lmbench: LMBench = Field(default_factory=LMBench)
+    kvstorage: KVStorage = Field(default_factory=KVStorage)
+    workloads: str = "genai_perf.sh,aiperf.sh,lmbench.sh,kvstorage.sh"
 
 
 class AIDynamoTestDefinition(TestDefinition):
@@ -129,10 +412,56 @@ class AIDynamoTestDefinition(TestDefinition):
     cmd_args: AIDynamoCmdArgs
     _docker_image: Optional[DockerImage] = None
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/ai_dynamo.sh")
+    genai_perf_script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
+    aiperf_script: File = File(Path(__file__).parent.parent / "ai_dynamo/aiperf.sh")
+    calc_percentile_csv: File = File(Path(__file__).parent.parent / "ai_dynamo/calc_percentile_csv.py")
     dynamo_repo: GitRepo = GitRepo(
-        url="https://github.com/ai-dynamo/dynamo.git", commit="f7e468c7e8ff0d1426db987564e60572167e8464"
+        url="https://github.com/ai-dynamo/dynamo.git",
+        commit="f7e468c7e8ff0d1426db987564e60572167e8464",
+        mount_as="/git/dynamo",
     )
     _hf_model: HFModel | None = None
+    constraints: Constraints = Constraints()
+
+    def success_marker(self) -> str:
+        return "success-marker.txt"
+
+    def failure_marker(self) -> str:
+        return "failure-marker.txt"
+
+    def get_workload_map(self) -> dict[str, Workload]:
+        """Get a map of workload scripts to workload objects."""
+        return {
+            self.cmd_args.genai_perf.script.src.name: self.cmd_args.genai_perf,
+            self.cmd_args.aiperf.script.src.name: self.cmd_args.aiperf,
+            self.cmd_args.lmbench.script.src.name: self.cmd_args.lmbench,
+            self.cmd_args.kvstorage.script.src.name: self.cmd_args.kvstorage,
+        }
+
+    @model_validator(mode="after")
+    def validate_test_definition(self) -> "AIDynamoTestDefinition":
+        """Validate test definition."""
+        # Populate git_repos list with all git repositories used by this test definition.
+        self.git_repos = [self.dynamo_repo]
+        if self.cmd_args.lmcache.repo:
+            self.git_repos.append(self.cmd_args.lmcache.repo)
+        if self.cmd_args.lmbench.repo:
+            self.git_repos.append(self.cmd_args.lmbench.repo)
+        if self.cmd_args.kvstorage.repo:
+            self.git_repos.append(self.cmd_args.kvstorage.repo)
+
+        # Validate benchmark names
+        workloads = self.cmd_args.workloads.split(",")
+        for workload in workloads:
+            if workload not in [
+                self.cmd_args.genai_perf.script.src.name,
+                self.cmd_args.aiperf.script.src.name,
+                self.cmd_args.lmbench.script.src.name,
+                self.cmd_args.kvstorage.script.src.name,
+            ]:
+                raise ValueError(f"Invalid workload script: {workload}")
+
+        return self
 
     @property
     def docker_image(self) -> DockerImage:
@@ -143,19 +472,86 @@ def docker_image(self) -> DockerImage:
     @property
     def hf_model(self) -> HFModel:
         if not self._hf_model:
+            logging.info(f"Creating HFModel for: {self.cmd_args.dynamo.model}")
             self._hf_model = HFModel(model_name=self.cmd_args.dynamo.model)
         return self._hf_model
 
     @property
     def installables(self) -> list[Installable]:
-        return [self.docker_image, self.script, self.dynamo_repo, self.hf_model]
+        """Get all installables for this test definition."""
+        result = [
+            self.docker_image,
+            self.script,
+            # self.hf_model,
+            self.genai_perf_script,
+            self.aiperf_script,
+            self.calc_percentile_csv,
+            self.cmd_args.lmbench.script,
+            self.cmd_args.kvstorage.script,
+            File(Path(__file__).parent.parent / "ai_dynamo/kvstorage.py"),
+            *self.git_repos,
+        ]
+
+        return result
 
     def was_run_successful(self, tr: TestRun) -> JobStatusResult:
         output_path = tr.output_path
-        csv_files = list(output_path.rglob(CSV_FILES_PATTERN))
-        json_files = list(output_path.rglob(JSON_FILES_PATTERN))
-        logging.debug(f"Found CSV files in {output_path.absolute()}: {csv_files}, JSON files: {json_files}")
-        has_results = len(csv_files) > 0 and len(json_files) > 0
-        if not has_results:
-            return JobStatusResult(False, "No result files found in the output directory.")
-        return JobStatusResult(True)
+        result = True
+        workload_map = self.get_workload_map()
+        failure_marker = output_path / self.failure_marker()
+        success_marker = output_path / self.success_marker()
+
+        if failure_marker.exists():
+            return JobStatusResult(False, error_message=f"Failure marker file found with contents: \n{failure_marker.read_text()}")
+
+        if not success_marker.exists():
+            return JobStatusResult(False, error_message=f"Success marker file not found: {success_marker.absolute()}")
+
+        for workload in self.cmd_args.workloads.split(","):
+            if not workload_map.get(workload):
+                logging.info(f"Workload {workload} not found in workload map")
+                result = False
+                continue
+            report_name = workload_map[workload].report_name
+            assert report_name is not None
+            workload_csv_file = output_path / report_name
+            if not workload_csv_file.exists():
+                logging.info(f"Result file ({workload_csv_file.absolute()}) not found for workload: {workload}")
+                result = False
+            else:
+                logging.info(f"Result file ({workload_csv_file.absolute()}) exists for {workload}")
+
+        return JobStatusResult(result)
+
+    def constraint_check(self, tr: TestRun) -> bool:
+        prefill_worker = tr.test.cmd_args.dynamo.prefill_worker
+        decode_worker = tr.test.cmd_args.dynamo.decode_worker
+
+        prefill_tp = prefill_worker.args.tensor_parallel_size if prefill_worker else 1
+        decode_tp = decode_worker.args.tensor_parallel_size if decode_worker else 1
+        prefill_pp = prefill_worker.args.pipeline_parallel_size if prefill_worker else 1
+        decode_pp = decode_worker.args.pipeline_parallel_size if decode_worker else 1
+        prefill_nodes = prefill_worker.num_nodes if prefill_worker else 0
+        decode_nodes = decode_worker.num_nodes if decode_worker else 1
+
+        if self.constraints.prefill_tp_le_decode_tp and prefill_tp > decode_tp:
+            logging.info("constraint_check failed for: prefill_tp_le_decode_tp")
+            return False
+        logging.info("constraint_check passed for: prefill_tp_le_decode_tp")
+
+        gpus_per_node = tr.test.cmd_args.gpus_per_node
+        if self.constraints.tp_times_pp_le_gpus_per_node and (
+            prefill_tp * prefill_pp > gpus_per_node or decode_tp * decode_pp > gpus_per_node
+        ):
+            logging.info("constraint_check failed for: tp_times_pp_le_gpus_per_node")
+            return False
+        logging.info("constraint_check passed for: tp_times_pp_le_gpus_per_node")
+
+        num_nodes = tr.test.cmd_args.num_nodes
+        nodes_check = self.constraints.prefill_decode_nodes_le_total_nodes
+        if nodes_check and prefill_nodes + decode_nodes > num_nodes:
+            logging.info("constraint_check failed for: prefill_decode_nodes_le_total_nodes")
+            return False
+        logging.info("constraint_check passed for: prefill_decode_nodes_le_total_nodes")
+
+        return True
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
old mode 100755
new mode 100644
index 51e0c8e84..50e389267
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
@@ -2,68 +2,75 @@
 
 # CloudAI params
 RESULTS_DIR="/cloudai_run_results"
+INSTALL_DIR="/cloudai_install"
+STORAGE_CACHE_DIR="/cloudai_install/storage_cache"
 HUGGINGFACE_HOME="/root/.cache/huggingface"
-DONE_MARKER="frontend_done.marker"
-FATAL_ERROR_MARKER="fatal_error.marker"
-: "${DYNAMO_WORKER_ERROR_PATTERN:=zmq\.error\.ZMQError:.*Address already in use|UCX.*ERROR|ERROR core\.run_engine_core:.*EngineCore failed to start|ERROR multiproc_executor\.worker_busy_loop:.*WorkerProc hit an exception|EngineDeadError|EngineCore encountered an issue}"
+DONE_MARKER="./success-marker.txt"
+FATAL_ERROR_MARKER="./failure-marker.txt"
 NODE_ROLES_FILE="node_roles.log"
+TEST_USER="$USER"
 
 export DYN_SDK_DISABLE_ANSI_LOGGING=1
 export VLLM_DISABLE_COLORED_OUTPUT=1
 export VLLM_NO_COLOR=1
+export VLLM_LOGGING_COLOR=0
+#export VLLM_LOGGING_CONFIG_PATH="/cloudai_install/vllm_logging_config.json"
+
 export ABSL_LOGGING_USE_COLOR=0
 export DYN_LOGGING_DISABLE_ANSI_COLORS=1
 
 export TERM=dumb
 export NO_COLOR=1
+export TQDM_DISABLE=1  # Disables tqdm progress bars globally
+export TQDM_MININTERVAL=999999  # Makes tqdm update very rarely
 
 export DEBIAN_FRONTEND=noninteractive
 export APT_KEY_DONT_WARN_ON_DANGEROUS_USAGE=1
 
+declare -A prefill_config
 declare -A prefill_args
+declare -A decode_config
 declare -A decode_args
+declare -A lmcache_args
+declare -A lmcache_config
 declare -A genai_perf_args
+declare -A genai_perf_config
+declare -A aiperf_args
+declare -A aiperf_config
+declare -A lmbench_args
+declare -A lmbench_config
+declare -A kvstorage_args
+declare -A kvstorage_config
 
 declare -A dynamo_args
 dynamo_args["backend"]="vllm"
 dynamo_args["node-setup-cmd"]=""
-dynamo_args["prefill-cmd"]="python3 -m dynamo.vllm --is-prefill-worker"
-dynamo_args["decode-cmd"]="python3 -m dynamo.vllm"
 dynamo_args["ingress-cmd"]="python -m dynamo.frontend --router-mode kv"
 dynamo_args["port"]=$((8080 + SLURM_JOBID % 100))
 dynamo_args["endpoint"]="v1/chat/completions"
-dynamo_args["model"]="deepseek-ai/DeepSeek-R1-Distill-Llama-8B"
+dynamo_args["model"]="Qwen/Qwen3-0.6B"
 dynamo_args["etcd-port"]=2379
 dynamo_args["nats-port"]=4222
 dynamo_args["workspace-path"]="/workspace"
 dynamo_args["frontend-node"]=""
-dynamo_args["num-prefill-nodes"]=1
-dynamo_args["num-decode-nodes"]=1
-dynamo_args["prefill-nodes"]=""
-dynamo_args["decode-nodes"]=""
-dynamo_args["tp-arg-name"]="tensor-parallel-size"
-dynamo_args["pp-arg-name"]="pipeline-parallel-size"
-dynamo_args["multiple-prefill-workers-per-node"]="true"
-dynamo_args["multiple-decode-workers-per-node"]="true"
-dynamo_args["prefill-initialized-regex"]="Worker.*has.been.initialized"
-dynamo_args["decode-initialized-regex"]="Worker.*has.been.initialized"
 
 dynamo_args["etcd-cmd"]="etcd --log-level debug"
 dynamo_args["nats-cmd"]="nats-server -js"
-dynamo_args["genai-perf-cmd"]="genai-perf profile"
+dynamo_args["worker-error-pattern"]="zmq.error.ZMQError:.Address.already.in.use|UCX.*ERROR|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|EngineDeadError|EngineCore.encountered.an.issue"
 
 # sglang-specific optional ports. Ignored by vllm.
 dynamo_args["sgl-http-port"]=9001
 dynamo_args["prefill-port"]=30011
 dynamo_args["decode-port"]=30021
 
-# GenAI Perf params
-GENAI_PERF_PROFILE_EXPORT_FILE="profile.json"
-GENAI_PERF_ARTIFACT_DIR="genai_perf_artifacts"
-
 function log()
 {
-  echo "[$(date --iso-8601=ns) $(hostname)]: $@"
+  echo -e "[$(date +%F\ %T) $(hostname)]: $*"
+}
+
+function min()
+{
+  echo "$(( $1 < $2 ? $1 : $2 ))"
 }
 
 _is_vllm() { [[ "${dynamo_args["backend"]}" == "vllm" ]]; }
@@ -78,36 +85,13 @@ _csv_index_of() {
   local IFS=',' arr i
   read -ra arr <<< "$list"
   for i in "${!arr[@]}"; do
-    if [[ "${arr[$i]}" == "$name" || "${arr[$i]}" == *"$name"* || "$name" == *"${arr[$i]}"* ]]; then
+    if [[ "${arr[$i]}" == "$name" ]]; then
       echo "$i"; return 0
     fi
   done
   echo "-1"
 }
 
-_validate_or_build_nodelists() {
-  local dl_len=$(_csv_len "${dynamo_args["decode-nodes"]}")
-  local pl_len=$(_csv_len "${dynamo_args["prefill-nodes"]}")
-  if (( dl_len > 0 )); then dynamo_args["num-decode-nodes"]="$dl_len"; fi
-  if (( pl_len > 0 )); then dynamo_args["num-prefill-nodes"]="$pl_len"; fi
-
-  if [[ -z "${dynamo_args["decode-nodes"]}" || -z "${dynamo_args["prefill-nodes"]}" ]]; then
-    if [[ -z "${DYNAMO_NODELIST:-}" ]]; then
-      log "ERROR: Provide --dynamo-decode-nodes/--dynamo-prefill-nodes or set DYNAMO_NODELIST"; exit 1
-    fi
-    local d="${dynamo_args["num-decode-nodes"]}"
-    local p="${dynamo_args["num-prefill-nodes"]}"
-    local total=$(_csv_len "${DYNAMO_NODELIST}")
-    if (( total < d + p )); then
-      log "ERROR: DYNAMO_NODELIST has ${total} entries; need decode(${d})+prefill(${p})"; exit 1
-    fi
-    [[ -z "${dynamo_args["decode-nodes"]}" ]] && \
-      dynamo_args["decode-nodes"]=$(echo "$DYNAMO_NODELIST" | cut -d',' -f1-"$d")
-    [[ -z "${dynamo_args["prefill-nodes"]}" ]] && \
-      dynamo_args["prefill-nodes"]=$(echo "$DYNAMO_NODELIST" | cut -d',' -f$(( d + 1 ))-)
-  fi
-}
-
 _gpus_per_node() {
   local n=$(echo "${CUDA_VISIBLE_DEVICES:-}" | tr ',' '\n' | grep -c . || true)
   [[ "$n" -gt 0 ]] && echo "$n" || echo "1"
@@ -125,35 +109,28 @@ _resolve_host_ip() {
 }
 
 _apply_sglang_section_args() {
-  prefill_args["--port"]=${dynamo_args["prefill-port"]}
-  decode_args["--port"]=${dynamo_args["decode-port"]}
-  prefill_args["--served-model-name"]=${dynamo_args["model"]}
-  decode_args["--served-model-name"]=${dynamo_args["model"]}
-
-  # model-path must point to HF cache for sglang
-  prefill_args["--model-path"]="${HUGGINGFACE_HOME}"
-  decode_args["--model-path"]="${HUGGINGFACE_HOME}"
-
   local self="$(_current_node_name)"
   local gpn="$(_gpus_per_node)"
 
   # prefill group
-  local prefill_nodes="${dynamo_args["num-prefill-nodes"]}"
-  local prefill_master_host="$(_first_in_csv "${dynamo_args["prefill-nodes"]}")"
-  local prefill_master_ip="$(_resolve_host_ip "${prefill_master_host}")"
-  local prefill_rank="$(_csv_index_of "${dynamo_args["prefill-nodes"]}" "$self")"
-  local prefill_total_gpus=$(( gpn * prefill_nodes ))
-  prefill_args["--dist-init-addr"]="${prefill_master_ip}:${dynamo_args["prefill-port"]}"
-  prefill_args["--nnodes"]="${prefill_nodes}"
-  prefill_args["--node-rank"]="$([[ "$prefill_rank" -ge 0 ]] && echo "$prefill_rank" || echo 0)"
-  prefill_args["--tp-size"]="${prefill_args["--tp-size"]:-${prefill_total_gpus}}"
-  prefill_args["--dp-size"]="${prefill_args["--dp-size"]:-${prefill_total_gpus}}"
+  local prefill_nodes="${prefill_config["num-nodes"]}"
+  if [[ "$prefill_nodes" -gt 0 ]]; then
+    local prefill_master_host="$(_first_in_csv "${prefill_config["node-list"]}")"
+    local prefill_master_ip="$(_resolve_host_ip "${prefill_master_host}")"
+    local prefill_rank="$(_csv_index_of "${prefill_config["node-list"]}" "$self")"
+    local prefill_total_gpus=$(( gpn * prefill_nodes ))
+    prefill_args["--dist-init-addr"]="${prefill_master_ip}:${dynamo_args["prefill-port"]}"
+    prefill_args["--nnodes"]="${prefill_nodes}"
+    prefill_args["--node-rank"]="$([[ "$prefill_rank" -ge 0 ]] && echo "$prefill_rank" || echo 0)"
+    prefill_args["--tp-size"]="${prefill_args["--tp-size"]:-${prefill_total_gpus}}"
+    prefill_args["--dp-size"]="${prefill_args["--dp-size"]:-${prefill_total_gpus}}"
+  fi
 
   # decode group
-  local decode_nodes="${dynamo_args["num-decode-nodes"]}"
-  local decode_master_host="$(_first_in_csv "${dynamo_args["decode-nodes"]}")"
+  local decode_nodes="${decode_config["num-nodes"]}"
+  local decode_master_host="$(_first_in_csv "${decode_config["node-list"]}")"
   local decode_master_ip="$(_resolve_host_ip "${decode_master_host}")"
-  local decode_rank="$(_csv_index_of "${dynamo_args["decode-nodes"]}" "$self")"
+  local decode_rank="$(_csv_index_of "${decode_config["node-list"]}" "$self")"
   local decode_total_gpus=$(( gpn * decode_nodes ))
   decode_args["--dist-init-addr"]="${decode_master_ip}:${dynamo_args["decode-port"]}"
   decode_args["--nnodes"]="${decode_nodes}"
@@ -171,37 +148,125 @@ _apply_sglang_section_args() {
   unset 'decode_args["--model"]'
 }
 
-_apply_genai_perf_section_args() {
-  genai_perf_args["--model"]="${dynamo_args["model"]}"
-  genai_perf_args["--url"]="${dynamo_args["url"]}"
-  genai_perf_args["--endpoint"]="${dynamo_args["endpoint"]}"
-  genai_perf_args["--artifact-dir"]="${RESULTS_DIR}/${GENAI_PERF_ARTIFACT_DIR}/"
-  genai_perf_args["--profile-export-file"]="${GENAI_PERF_PROFILE_EXPORT_FILE}"
-}
-
 _parse_cli_pairs() {
   log "Parsing args:"
   while [[ $# -ge 2 ]]; do
     echo "  $1 $2"
     key="$1"
     case $key in
+      --workloads)
+        dynamo_args["workloads"]="$2" ;;
       --dynamo-*)
         dynamo_args["${key#--dynamo-}"]="$2" ;;
+      --workloads)
+        dynamo_args["workloads"]="$2" ;;
+      --prefill-args-*)
+        prefill_args["--${key#--prefill-args-}"]="$2" ;;
       --prefill-*)
-        prefill_args["--${key#--prefill-}"]="$2" ;;
+        prefill_config["${key#--prefill-}"]="$2" ;;
+      --decode-args-*)
+        decode_args["--${key#--decode-args-}"]="$2" ;;
       --decode-*)
-        decode_args["--${key#--decode-}"]="$2" ;;
-      --genai-perf-*)
-        genai_perf_args["--${key#--genai-perf-}"]="$2" ;;
-      --huggingface-home)
+        decode_config["${key#--decode-}"]="$2" ;;
+      --lmcache-args-*)
+        lmcache_args["${key#--lmcache-args-}"]="$2" ;;
+      --lmcache-*)
+        lmcache_config["${key#--lmcache-}"]="$2" ;;
+      --lmbench-args-*)
+        lmbench_args["--${key#--lmbench-args-}"]="$2" ;;
+      --lmbench-*)
+        lmbench_config["--${key#--lmbench-}"]="$2" ;;
+      --genai_perf-args-*)
+        genai_perf_args["--${key#--genai_perf-args-}"]="$2" ;;
+      --genai_perf-*)
+        genai_perf_config["--${key#--genai_perf-}"]="$2" ;;
+      --aiperf-args-*)
+        aiperf_args["--${key#--aiperf-args-}"]="$2" ;;
+      --aiperf-*)
+        aiperf_config["--${key#--aiperf-}"]="$2" ;;
+      --kvstorage-args-*)
+        kvstorage_args["--${key#--kvstorage-args-}"]="$2" ;;
+      --kvstorage-*)
+        kvstorage_config["--${key#--kvstorage-}"]="$2" ;;
+      --hf-home)
         HUGGINGFACE_HOME="$2" ;;
+      --storage-cache-dir)
+        STORAGE_CACHE_DIR="$2" ;;
       --results-dir)
         RESULTS_DIR="$2" ;;
+      --install-dir)
+        INSTALL_DIR="$2" ;;
+      --user)
+        TEST_USER="$2" ;;
+      --failure-marker)
+        FATAL_ERROR_MARKER="$2" ;;
+      --success-marker)
+        DONE_MARKER="$2" ;;
     esac
     shift; shift;
   done
 }
 
+_populate_nodelist() {
+  local num_nodes="$1"
+  local exclude_nodelist="$2" 
+
+  # Handle zero nodes case
+  if [[ -z "$num_nodes" || "$num_nodes" -eq 0 ]]; then
+    echo ""
+    return
+  fi
+
+  local count=0
+  local nodelist=""
+  for node in $(echo "$DYNAMO_NODELIST" | tr ',' ' '); do
+    if [[ -z "$node" ]]; then continue; fi
+    if ! echo ",${exclude_nodelist}," | grep -q ",$node,"; then
+      nodelist+="$node,"
+      count=$(( count + 1 ))
+      if [[ "$count" -eq "${num_nodes}" ]]; then
+        break
+      fi
+    fi
+  done
+
+  # Terminate trailing comma
+  nodelist=${nodelist%,}
+  echo "$nodelist"
+}
+
+_set_nodelists()
+{
+  if [[ -z "${DYNAMO_NODELIST:-}" ]]; then
+    log "ERROR: DYNAMO_NODELIST is not set"
+    exit 1
+  fi
+
+  if [[ -z "${decode_config["node-list"]}" ]]; then
+    decode_config["node-list"]=$(_populate_nodelist "${decode_config["num-nodes"]}" "")
+  fi
+
+  if [[ -z "${prefill_config["node-list"]}" ]]; then
+    prefill_config["node-list"]=$(_populate_nodelist "${prefill_config["num-nodes"]}" "${decode_config["node-list"]}")
+  fi
+
+  # Prefill nodelist should match prefill node count (skip validation if num-nodes is 0)
+  local prefill_num_nodes="${prefill_config["num-nodes"]:-0}"
+  if [[ "$prefill_num_nodes" -gt 0 ]]; then
+    local prefill_nodelist_count=$(_csv_len "${prefill_config["node-list"]}")
+    if [[ "${prefill_nodelist_count}" -ne "${prefill_num_nodes}" ]]; then
+      log "ERROR: number of nodes in prefill nodelist (${prefill_nodelist_count}) does not match prefill node count (${prefill_num_nodes})"
+      exit 1
+    fi
+  fi
+
+  local decode_nodelist_count=$(_csv_len "${decode_config["node-list"]}")
+  if [[ "${decode_nodelist_count}" -ne "${decode_config["num-nodes"]}" ]]; then
+    log "ERROR: number of nodes in decode nodelist (${decode_nodelist_count}) does not match decode node count (${decode_config["num-nodes"]})"
+    exit 1
+  fi
+}
+
 _set_backend_defaults() {
   case "${dynamo_args["backend"]}" in
     vllm)
@@ -219,50 +284,38 @@ _set_backend_defaults() {
   esac
 }
 
-_sync_num_nodes_from_section_args() {
-  if [[ -n "${prefill_args["--num-nodes"]:-}" ]]; then
-    dynamo_args["num-prefill-nodes"]="${prefill_args["--num-nodes"]}"
-  fi
-  if [[ -n "${decode_args["--num-nodes"]:-}" ]]; then
-    dynamo_args["num-decode-nodes"]="${decode_args["--num-nodes"]}"
-  fi
+_has_connector() {
+  # Check if a specific connector is in the comma-separated connector list.
+  local needle="$1"
+  local prefill_connectors="${prefill_args["--connector"]:-}"
+  local decode_connectors="${decode_args["--connector"]:-}"
+  [[ ",$prefill_connectors," == *",$needle,"* ]] || [[ ",$decode_connectors," == *",$needle,"* ]]
 }
 
-_patch_dynamo_args() {
-  if [[ -z "${dynamo_args["decode-nodes"]}" ]]; then
-    if [[ -n "${decode_args["--node-list"]}" ]]; then
-      dynamo_args["decode-nodes"]="${decode_args["--node-list"]}"
-    else
-      dynamo_args["decode-nodes"]=$(echo $DYNAMO_NODELIST | cut -d',' -f1-${dynamo_args["num-decode-nodes"]})
-    fi
+_apply_connector_settings() {
+  if _has_connector "lmcache"; then
+    ENABLE_LMCACHE=1
   fi
-
-  if [[ -z "${dynamo_args["prefill-nodes"]}" ]]; then
-    if [[ -n "${prefill_args["--node-list"]}" ]]; then
-      dynamo_args["prefill-nodes"]="${prefill_args["--node-list"]}"
-    else
-      dynamo_args["prefill-nodes"]=$(echo $DYNAMO_NODELIST | cut -d',' -f$(( ${dynamo_args["num-decode-nodes"]} + 1 ))-)
-    fi
+  if _has_connector "kvbm"; then
+    ENABLE_KVBM=1
+  fi
+  if _has_connector "nixl"; then
+    log "INFO: NIXL specified in the connector list"
   fi
+}
 
+_patch_dynamo_args() {
   if [[ -z "${dynamo_args["frontend-node"]}" ]]; then
-    dynamo_args["frontend-node"]=$(echo ${dynamo_args["decode-nodes"]} | cut -d',' -f1)
+    dynamo_args["frontend-node"]=$(echo "${decode_config["node-list"]}" | cut -d',' -f1)
   fi
 
   dynamo_args["url"]="http://${dynamo_args["frontend-node"]}:${dynamo_args["port"]}"
-
-  _validate_or_build_nodelists
 }
 
 _patch_section_args() {
-  prefill_args["--model"]="${dynamo_args["model"]}"
-  decode_args["--model"]="${dynamo_args["model"]}"
-
   if _is_sglang; then
     _apply_sglang_section_args
   fi
-
-  _apply_genai_perf_section_args
 }
 
 _compute_worker_allocation_sglang() {
@@ -273,22 +326,13 @@ _compute_worker_allocation_sglang() {
   fi
 
   # sglang: one worker per node using all GPUs
-  dynamo_args["prefill-gpus-per-worker"]=$num_gpus
-  dynamo_args["decode-gpus-per-worker"]=$num_gpus
-  dynamo_args["prefill-workers-per-node"]=1
-  dynamo_args["decode-workers-per-node"]=1
-
-  if [[ -n "${prefill_args["--num-nodes"]}" ]]; then
-    dynamo_args["num-prefill-nodes"]=${prefill_args["--num-nodes"]}
-  fi
-  if [[ -n "${decode_args["--num-nodes"]}" ]]; then
-    dynamo_args["num-decode-nodes"]=${decode_args["--num-nodes"]}
-  fi
+  prefill_config["gpus-per-worker"]=$num_gpus
+  decode_config["gpus-per-worker"]=$num_gpus
+  prefill_config["workers-per-node"]=1
+  decode_config["workers-per-node"]=1
 }
 
 _compute_worker_allocation_vllm() {
-  local tp_arg_name="--${dynamo_args["tp-arg-name"]}"
-  local pp_arg_name="--${dynamo_args["pp-arg-name"]}"
   local num_gpus="$(_gpus_per_node)"
 
   if [[ $num_gpus -eq 0 ]]; then
@@ -296,37 +340,31 @@ _compute_worker_allocation_vllm() {
     exit 1
   fi
 
-  dynamo_args["prefill-gpus-per-worker"]=$(( prefill_args[$tp_arg_name] * prefill_args[$pp_arg_name] ))
-  dynamo_args["decode-gpus-per-worker"]=$(( decode_args[$tp_arg_name] * decode_args[$pp_arg_name] ))
+  prefill_config["gpus-per-worker"]=$(( prefill_args["--tensor-parallel-size"] * prefill_args["--pipeline-parallel-size"] ))
+  decode_config["gpus-per-worker"]=$(( decode_args["--tensor-parallel-size"] * decode_args["--pipeline-parallel-size"] ))
 
-  if [[ ${dynamo_args["prefill-gpus-per-worker"]} -eq 0 ]] || [[ ${dynamo_args["decode-gpus-per-worker"]} -eq 0 ]]; then
+  if [[ ${prefill_config["gpus-per-worker"]} -eq 0 ]] || [[ ${decode_config["gpus-per-worker"]} -eq 0 ]]; then
     log "ERROR: Invalid TP/PP configuration"
     exit 1
   fi
 
-  if [[ "${dynamo_args["multiple-prefill-workers-per-node"]}" != "true" ]]; then
-    dynamo_args["prefill-gpus-per-worker"]=$num_gpus
+  if [[ "${prefill_config["multiple-workers-per-node"]}" != "true" ]]; then
+    prefill_config["gpus-per-worker"]=$num_gpus
   fi
 
-  if [[ "${dynamo_args["multiple-decode-workers-per-node"]}" != "true" ]]; then
-    dynamo_args["decode-gpus-per-worker"]=$num_gpus
+  if [[ "${decode_config["multiple-workers-per-node"]}" != "true" ]]; then
+    decode_config["gpus-per-worker"]=$num_gpus
   fi
 
-  log "DECODE: num GPUs: $num_gpus, GPUs per worker: ${dynamo_args["decode-gpus-per-worker"]}"
-  log "PREFILL: num GPUs: $num_gpus, GPUs per worker: ${dynamo_args["prefill-gpus-per-worker"]}"
-  dynamo_args["prefill-workers-per-node"]=$(( num_gpus / dynamo_args["prefill-gpus-per-worker"] ))
-  dynamo_args["decode-workers-per-node"]=$(( num_gpus / dynamo_args["decode-gpus-per-worker"] ))
-  log "DECODE: workers per node: ${dynamo_args["decode-workers-per-node"]}"
-  log "PREFILL: workers per node: ${dynamo_args["prefill-workers-per-node"]}"
+  log "DECODE: num GPUs: $num_gpus, GPUs per worker: ${decode_config["gpus-per-worker"]}"
+  log "PREFILL: num GPUs: $num_gpus, GPUs per worker: ${prefill_config["gpus-per-worker"]}"
+  prefill_config["workers-per-node"]=$(( num_gpus / prefill_config["gpus-per-worker"] ))
+  decode_config["workers-per-node"]=$(( num_gpus / decode_config["gpus-per-worker"] ))
+  log "DECODE: workers per node: ${decode_config["workers-per-node"]}"
+  log "PREFILL: workers per node: ${prefill_config["workers-per-node"]}"
 
-  if [[ -n "${prefill_args["--num-nodes"]}" ]]; then
-    dynamo_args["num-prefill-nodes"]=${prefill_args["--num-nodes"]}
-  fi
-  if [[ -n "${decode_args["--num-nodes"]}" ]]; then
-    dynamo_args["num-decode-nodes"]=${decode_args["--num-nodes"]}
-  fi
-  log "NUM PREFILL NODES: ${dynamo_args["num-prefill-nodes"]}"
-  log "NUM DECODE NODES: ${dynamo_args["num-decode-nodes"]}"
+  log "NUM PREFILL NODES: ${prefill_config["num-nodes"]}"
+  log "NUM DECODE NODES: ${decode_config["num-nodes"]}"
 }
 
 _compute_worker_allocation() {
@@ -337,35 +375,73 @@ _compute_worker_allocation() {
   fi
 }
 
+arg_array_to_string()
+{
+  local -n arr=$1
+  local result=""
+  for key in "${!arr[@]}"; do
+    result+="    ${key} ${arr[$key]}\n"
+  done
+  echo -e "$result"
+}
+
 _dump_args() {
-  log "Dynamo args: $(for key in "${!dynamo_args[@]}"; do echo -n "$key: ${dynamo_args[$key]}; "; done)"
-  log "Prefill args: $(for key in "${!prefill_args[@]}"; do echo -n "$key: ${prefill_args[$key]}; "; done)"
-  log "Decode args: $(for key in "${!decode_args[@]}"; do echo -n "$key: ${decode_args[$key]}; " ; done)"
-  log "GenAI perf args: $(for key in "${!genai_perf_args[@]}"; do echo -n "$key: ${genai_perf_args[$key]}; "; done)"
+  log "Dynamo args:\n$(arg_array_to_string dynamo_args)"
+  log "Prefill config params:\n$(arg_array_to_string prefill_config)"
+  log "Prefill args:\n$(arg_array_to_string prefill_args)"
+  log "Decode config params:\n$(arg_array_to_string decode_config)"
+  log "Decode args:\n$(arg_array_to_string decode_args)"
+  log "LMCache config params:\n$(arg_array_to_string lmcache_config)"
+  log "LMCache args:\n$(arg_array_to_string lmcache_args)"
+  log "GenAI config params:\n$(arg_array_to_string genai_perf_config)"
+  log "GenAI-Perf args:\n$(arg_array_to_string genai_perf_args)"
+  log "AIPerf config params:\n$(arg_array_to_string aiperf_config)"
+  log "AIPerf args:\n$(arg_array_to_string aiperf_args)"
+  log "LMBench config params:\n$(arg_array_to_string lmbench_config)"
+  log "LMBench args:\n$(arg_array_to_string lmbench_args)"
+  log "KV storage config params:\n$(arg_array_to_string kvstorage_config)"
+  log "KV storage args:\n$(arg_array_to_string kvstorage_args)"
+  log "--------------------------------"
 }
 
 function parse_args()
 {
   _parse_cli_pairs "$@"
+  _set_nodelists
   _set_backend_defaults
-  _sync_num_nodes_from_section_args
   _patch_dynamo_args
+
   _patch_section_args
+  _apply_connector_settings
   _compute_worker_allocation
   _dump_args
 }
 
+function replace_placeholders() {
+  local val="$1"
+  val=${val//%MODEL%/${dynamo_args["model"]}}
+  val=${val//%PORT%/${dynamo_args["port"]}}
+  val=${val//%URL%/${dynamo_args["url"]}}
+  val=${val//%ENDPOINT%/${dynamo_args["endpoint"]}}
+  val=${val//%RESULTS_DIR%/${RESULTS_DIR}}
+  val=${val//%INSTALL_DIR%/${INSTALL_DIR}}
+  val=${val//%HUGGINGFACE_HOME%/${HUGGINGFACE_HOME}}
+  echo "$val"
+}
+
 function array_to_args()
 {
   local -n arr=$1
   local result=""
   for key in "${!arr[@]}"; do
-    if [[ "$key" == "--extra-args" ]] || \
-       [[ "$key" == "--num-nodes" ]] || \
-       [[ "$key" == "--nodes" ]]; then
-      continue
+    shopt -s nocasematch
+    val=$(replace_placeholders "${arr[$key]}")
+    # Quote values that contain spaces
+    if [[ "$val" == *" "* ]]; then
+      val="${val//\"/\\\"}"  # Escape existing quotes
+      result+="${key} \"${val}\" "
     else
-      result+="${key} ${arr[$key]} "
+      result+="${key} ${val} "
     fi
   done
   echo "$result"
@@ -376,37 +452,55 @@ _detect_fatal_once() {
   _is_vllm || return 0
   local n=0
   # Worker logs and UCX logs
-  n=$(( n + $(grep -E "${DYNAMO_WORKER_ERROR_PATTERN}" "${RESULTS_DIR}"/dynamo_*.log 2>/dev/null | wc -l || true) ))
+  n=$(( n + $(grep -E "${dynamo_args["worker-error-pattern"]}" "${RESULTS_DIR}"/dynamo_*.log 2>/dev/null | wc -l || true) ))
   n=$(( n + $(grep -E "UCX.*ERROR" "${RESULTS_DIR}"/ucx_log_*.log 2>/dev/null | wc -l || true) ))
   echo "${n}"
 }
 
+function perform_exit()
+{
+  local exit_code=$1
+  local sleep_before_exit="${dynamo_args["sleep-before-exit"]}"
+  if [[ -n "${sleep_before_exit}" ]]; then
+    log "Sleeping for ${sleep_before_exit} seconds before exit"
+    sleep "${sleep_before_exit}"
+  fi
+  exit "${exit_code}"
+}
+
 exit_on_error() {
   local fatal=$(_detect_fatal_once)
+  if [ -f "${DONE_MARKER}" ]; then
+    log "DONE_MARKER found. Skipping error check."
+    return
+  fi
   if [[ "${fatal}" -gt 0 ]]; then
     log "FATAL: detected ${fatal} fatal error line(s). Writing ${FATAL_ERROR_MARKER} and terminating."
+    sleep 1
+
     touch "${FATAL_ERROR_MARKER}"
+    grep -E "${dynamo_args["worker-error-pattern"]}|UCX.*ERROR" "${RESULTS_DIR}"/*.log 2>/dev/null > "${FATAL_ERROR_MARKER}"
     # Try to stop background jobs for a cleaner exit, but do not loop
     kill $(jobs -p) 2>/dev/null || true
     # Exit non-zero so srun can retry
-    exit 1
+    perform_exit 1
   fi
 }
 
 _total_workers_prefill() {
-  echo $(( dynamo_args["num-prefill-nodes"] * dynamo_args["prefill-workers-per-node"] ))
+  echo $(( prefill_config["num-nodes"] * prefill_config["workers-per-node"] ))
 }
 
 _total_workers_decode() {
-  echo $(( dynamo_args["num-decode-nodes"] * dynamo_args["decode-workers-per-node"] ))
+  echo $(( decode_config["num-nodes"] * decode_config["workers-per-node"] ))
 }
 
 _count_initialized_prefill() {
-  grep -i -l -E "${dynamo_args["prefill-initialized-regex"]}" "${RESULTS_DIR}"/dynamo_*prefill* 2>/dev/null | wc -l
+  grep -i -l -E "${prefill_config["worker-initialized-regex"]}" "${RESULTS_DIR}"/dynamo_*prefill* 2>/dev/null | wc -l
 }
 
 _count_initialized_decode() {
-  grep -i -l -E "${dynamo_args["decode-initialized-regex"]}" "${RESULTS_DIR}"/dynamo_*decode* 2>/dev/null | wc -l
+  grep -i -l -E "${decode_config["worker-initialized-regex"]}" "${RESULTS_DIR}"/dynamo_*decode* 2>/dev/null | wc -l
 }
 
 _expected_ready_prefill() {
@@ -452,38 +546,64 @@ _current_node_name() {
 
 _is_frontend_node() {
   local name="$(_current_node_name)"
-  [[ "${dynamo_args["frontend-node"]}" == *"$name"* ]]
+  [[ ",${dynamo_args["frontend-node"]}," == *",$name,"* ]]
 }
 
 _is_decode_node() {
   local name="$(_current_node_name)"
-  [[ "${dynamo_args["decode-nodes"]}" == *"$name"* ]]
+  [[ ",${decode_config["node-list"]}," == *",$name,"* ]]
 }
 
 _is_prefill_node() {
   local name="$(_current_node_name)"
-  [[ "${dynamo_args["prefill-nodes"]}" == *"$name"* ]]
+  [[ ",${prefill_config["node-list"]}," == *",$name,"* ]]
+}
+
+_is_genai_perf_workload() {
+  [[ "${dynamo_args["workloads"]}" == *"genai_perf.sh"* ]]
+}
+
+_is_aiperf_workload() {
+  [[ "${dynamo_args["workloads"]}" == *"aiperf.sh"* ]]
+}
+
+_is_lmbench_workload() {
+  [[ "${dynamo_args["workloads"]}" == *"lmbench.sh"* ]]
+}
+
+_is_kvstorage_workload() {
+  [[ "${dynamo_args["workloads"]}" == *"kvstorage.sh"* ]]
 }
 
 _init_runtime_env() {
   if _is_vllm; then
     export HF_HOME="${HUGGINGFACE_HOME}"
+    hf cache scan
   fi
   export NATS_SERVER="nats://${dynamo_args["frontend-node"]}:${dynamo_args["nats-port"]}"
   export ETCD_ENDPOINTS="http://${dynamo_args["frontend-node"]}:${dynamo_args["etcd-port"]}"
   export UCX_LOG_FILE="${RESULTS_DIR}/ucx_log_%h.log"
-  DONE_MARKER="${RESULTS_DIR}/${DONE_MARKER}"
-  FATAL_ERROR_MARKER="${RESULTS_DIR}/${FATAL_ERROR_MARKER}"
-  rm -f "${FATAL_ERROR_MARKER}" 2>/dev/null || true
+
+  # If KVBM is enabled and leader ports are not explicitly provided, derive a
+  # deterministic per-job base pair to avoid cross-job port collisions.
+  if _has_connector "kvbm"; then
+    local job_entropy=$(( (${SLURM_JOBID:-0} + ${SLURM_STEP_ID:-0}) % 10000 ))
+    export DYN_KVBM_LEADER_ZMQ_PUB_PORT="${DYN_KVBM_LEADER_ZMQ_PUB_PORT:-$((30000 + (job_entropy * 2)))}"
+    export DYN_KVBM_LEADER_ZMQ_ACK_PORT="${DYN_KVBM_LEADER_ZMQ_ACK_PORT:-$((DYN_KVBM_LEADER_ZMQ_PUB_PORT + 1))}"
+    log "KVBM leader base ports: pub=${DYN_KVBM_LEADER_ZMQ_PUB_PORT}, ack=${DYN_KVBM_LEADER_ZMQ_ACK_PORT}"
+  fi
 }
 
 function launch_node_setup_cmd()
 {
+  logfile="${RESULTS_DIR}/node_setup_$(_current_node_name).log"
   if [[ -n "${dynamo_args["node-setup-cmd"]}" ]]; then
     log "Launching node setup command: ${dynamo_args["node-setup-cmd"]}"
-    bash -c "${dynamo_args["node-setup-cmd"]}"
+    bash -c "${dynamo_args["node-setup-cmd"]}" >> "$logfile" 2>&1
     log "Node setup complete"
   fi
+
+  log "Node environment:\n$(env)" >> "$logfile" 2>&1
 }
 
 _require_cmd() {
@@ -528,6 +648,7 @@ _port_in_use() {
 
 _check_free_port_or_die() {
   local name="$1" port="$2"
+  log "Checking if port $port for $name is free on $(hostname)"
   if _port_in_use "$port"; then
     log "ERROR: Port $port for $name is already in use on $(hostname)"
     exit 1
@@ -555,14 +676,6 @@ validate_environment() {
     exit 1
   fi
 
-  # If both nodelists are empty, DYNAMO_NODELIST must be provided
-  if [[ -z "${dynamo_args["decode-nodes"]}" && -z "${dynamo_args["prefill-nodes"]}" ]]; then
-    if [[ -z "${DYNAMO_NODELIST:-}" ]]; then
-      log "ERROR: When neither --dynamo-decode-nodes nor --dynamo-prefill-nodes is provided, DYNAMO_NODELIST must be set"
-      exit 1
-    fi
-  fi
-
   # Directories
   _ensure_dir_writable "$RESULTS_DIR"
   if _is_vllm; then
@@ -593,6 +706,21 @@ validate_environment() {
     _check_free_port_or_die "ingress http" "${dynamo_args["port"]}"
   fi
 
+  # Decode-node checks for KVBM leader ports (one pub/ack pair per worker).
+  if _is_decode_node && _has_connector "kvbm"; then
+    local workers_per_node=${decode_config["workers-per-node"]}
+    local base_kvbm_pub_port=${DYN_KVBM_LEADER_ZMQ_PUB_PORT:-56001}
+    local base_kvbm_ack_port=${DYN_KVBM_LEADER_ZMQ_ACK_PORT:-56002}
+    local kvbm_port_stride=2
+    local i
+    for i in $(seq 0 $(( workers_per_node - 1 ))); do
+      local kvbm_pub_port=$((base_kvbm_pub_port + (i * kvbm_port_stride)))
+      local kvbm_ack_port=$((base_kvbm_ack_port + (i * kvbm_port_stride)))
+      _check_free_port_or_die "kvbm leader pub (worker $i)" "$kvbm_pub_port"
+      _check_free_port_or_die "kvbm leader ack (worker $i)" "$kvbm_ack_port"
+    done
+  fi
+
   # GPU count sanity
   local num_gpus="$(_gpus_per_node)"
   if [[ "$num_gpus" -le 0 ]]; then
@@ -603,6 +731,22 @@ validate_environment() {
   log "Environment validation complete"
 }
 
+function wait_for_frontend_marker()
+{
+  while [ ! -f "$DONE_MARKER" ]; do
+    exit_on_error
+    log "Waiting for frontend completion marker by polling $DONE_MARKER"
+    sleep 30
+  done
+
+  log "Done marker found."
+}
+
+function mark_done()
+{
+  touch "$DONE_MARKER"
+}
+
 function launch_etcd()
 {
   log "Launching etcd with cmd: ${dynamo_args["etcd-cmd"]} --listen-client-urls http://0.0.0.0:${dynamo_args["etcd-port"]} --advertise-client-urls http://0.0.0.0:${dynamo_args["etcd-port"]}"
@@ -640,34 +784,51 @@ function launch_decode()
 {
   wait_for_etcd
 
-  local workers_per_node=${dynamo_args["decode-workers-per-node"]}
-  local tp_size=${decode_args["--${dynamo_args["tp-arg-name"]}"]}
+  local workers_per_node=${decode_config["workers-per-node"]}
+  local tp_size=${decode_args["--tensor-parallel-size"]}
   local base_nixl_port=${VLLM_NIXL_SIDE_CHANNEL_PORT:-5557}
   local base_kv_event_port=${DYN_VLLM_KV_EVENT_PORT:-20080}
+  local base_kvbm_pub_port=${DYN_KVBM_LEADER_ZMQ_PUB_PORT:-56001}
+  local base_kvbm_ack_port=${DYN_KVBM_LEADER_ZMQ_ACK_PORT:-56002}
+  local kvbm_port_stride=2
   log "Launching $workers_per_node decode worker(s) with unique port ranges"
 
   for i in $(seq 0 $(( $workers_per_node - 1 ))); do
-    local gpu_list=$(_gpu_list_for_worker "${dynamo_args["decode-gpus-per-worker"]}" "$i")
+    local gpu_list=$(_gpu_list_for_worker "${decode_config["gpus-per-worker"]}" "$i")
     local log_file=$(_log_file_for_worker "decode" "$i")
     # Each worker needs unique port ranges to avoid ZMQ conflicts:
     # - NIXL side channel: base_port + (worker_index * tp_size) for TP ranks
     # - KV event port: one per worker
+    # - KVBM leader pub/ack: one pair per worker
     local nixl_port=$((base_nixl_port + (i * tp_size)))
     local kv_event_port=$((base_kv_event_port + i))
-
-    log "Launching decode worker $i on GPUs $gpu_list (NIXL port: $nixl_port, KV event port: $kv_event_port)"
-    log "Decode cmd: ${dynamo_args["decode-cmd"]} $(array_to_args decode_args) ${decode_args["--extra-args"]}"
+    local kvbm_pub_port=$((base_kvbm_pub_port + (i * kvbm_port_stride)))
+    local kvbm_ack_port=$((base_kvbm_ack_port + (i * kvbm_port_stride)))
+
+    # Build decode args as proper bash arrays to preserve
+    # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+    local -a args_arr=()
+    for key in "${!decode_args[@]}"; do
+      args_arr+=($key $(replace_placeholders "${decode_args[$key]}"))
+    done
+
+    log "Launching decode worker $i on GPUs $gpu_list (NIXL port: $nixl_port, KV event port: $kv_event_port, KVBM pub/ack: $kvbm_pub_port/$kvbm_ack_port)"
+    log "Decode cmd: ${decode_config["cmd"]} ${args_arr[*]} ${decode_config["extra-args"]}"
     CUDA_VISIBLE_DEVICES=$gpu_list \
+      VLLM_NIXL_SIDE_CHANNEL_HOST=$(hostname -I | awk '{print $1}') \
       VLLM_NIXL_SIDE_CHANNEL_PORT=$nixl_port \
       DYN_VLLM_KV_EVENT_PORT=$kv_event_port \
-      ${dynamo_args["decode-cmd"]} \
-      $(array_to_args decode_args) ${decode_args["--extra-args"]} > $log_file 2>&1 &
+      DYN_KVBM_LEADER_ZMQ_PUB_PORT=$kvbm_pub_port \
+      DYN_KVBM_LEADER_ZMQ_ACK_PORT=$kvbm_ack_port \
+      ${decode_config["cmd"]} \
+      ${args_arr[@]} \
+      ${decode_config["extra-args"]} > $log_file 2>&1 &
   done
 }
 
 function wait_for_etcd()
 {
-  while [ "`curl -ks ${ETCD_ENDPOINTS}/readyz`" != "ok" ]; do
+  while [ "$(curl -ks ${ETCD_ENDPOINTS}/readyz)" != "ok" ]; do
     log "Waiting for etcd to be ready by polling ${ETCD_ENDPOINTS}/readyz";
     sleep 10;
   done
@@ -678,31 +839,58 @@ function launch_prefill()
 {
   wait_for_etcd
 
-  local workers_per_node=${dynamo_args["prefill-workers-per-node"]}
-  local tp_size=${prefill_args["--${dynamo_args["tp-arg-name"]}"]}
+  local workers_per_node=${prefill_config["workers-per-node"]}
+  local tp_size=${prefill_args["--tensor-parallel-size"]}
   local base_nixl_port=${VLLM_NIXL_SIDE_CHANNEL_PORT:-5557}
   local base_kv_event_port=${DYN_VLLM_KV_EVENT_PORT:-20080}
+  local base_kvbm_pub_port=${DYN_KVBM_LEADER_ZMQ_PUB_PORT:-56001}
+  local base_kvbm_ack_port=${DYN_KVBM_LEADER_ZMQ_ACK_PORT:-56002}
+  local kvbm_port_stride=2
   log "Launching $workers_per_node prefill worker(s) with unique port ranges"
 
   for i in $(seq 0 $(( $workers_per_node - 1 ))); do
-    local gpu_list=$(_gpu_list_for_worker "${dynamo_args["prefill-gpus-per-worker"]}" "$i")
+    local gpu_list=$(_gpu_list_for_worker "${prefill_config["gpus-per-worker"]}" "$i")
     local log_file=$(_log_file_for_worker "prefill" "$i")
     # Each worker needs unique port ranges to avoid ZMQ conflicts:
     # - NIXL side channel: base_port + (worker_index * tp_size) for TP ranks
     # - KV event port: one per worker
+    # - KVBM leader pub/ack: one pair per worker
     local nixl_port=$((base_nixl_port + (i * tp_size)))
     local kv_event_port=$((base_kv_event_port + i))
-
-    log "Launching prefill worker $i on GPUs $gpu_list (NIXL port: $nixl_port, KV event port: $kv_event_port)"
-    log "Prefill cmd: ${dynamo_args["prefill-cmd"]} $(array_to_args prefill_args) ${prefill_args["--extra-args"]}"
+    local kvbm_pub_port=$((base_kvbm_pub_port + (i * kvbm_port_stride)))
+    local kvbm_ack_port=$((base_kvbm_ack_port + (i * kvbm_port_stride)))
+
+    # Build prefill args as proper bash arrays to preserve
+    # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+    local -a args_arr=()
+    for key in "${!prefill_args[@]}"; do
+      args_arr+=($key $(replace_placeholders "${prefill_args[$key]}"))
+    done
+
+    log "Launching prefill worker $i on GPUs $gpu_list (NIXL port: $nixl_port, KV event port: $kv_event_port, KVBM pub/ack: $kvbm_pub_port/$kvbm_ack_port)"
+    log "Prefill cmd: ${prefill_config["cmd"]} ${args_arr[*]} ${prefill_config["extra-args"]}"
     CUDA_VISIBLE_DEVICES=$gpu_list \
+      VLLM_NIXL_SIDE_CHANNEL_HOST=$(hostname -I | awk '{print $1}') \
       VLLM_NIXL_SIDE_CHANNEL_PORT=$nixl_port \
       DYN_VLLM_KV_EVENT_PORT=$kv_event_port \
-      ${dynamo_args["prefill-cmd"]} \
-      $(array_to_args prefill_args) ${prefill_args["--extra-args"]} > $log_file 2>&1 &
+      DYN_KVBM_LEADER_ZMQ_PUB_PORT=$kvbm_pub_port \
+      DYN_KVBM_LEADER_ZMQ_ACK_PORT=$kvbm_ack_port \
+      ${prefill_config["cmd"]} \
+      ${args_arr[@]} \
+      ${prefill_config["extra-args"]} > $log_file 2>&1 &
   done
 }
 
+function launch_lmcache_controller()
+{
+  if ! _has_connector "lmcache"; then
+    return
+  fi
+
+  log "Launching LMCache controller with cmd: ${lmcache_config["controller_cmd"]}"
+  ${lmcache_config["controller_cmd"]} > ${RESULTS_DIR}/lmcache_controller.log 2>&1
+}
+
 function wait_for_dynamo_frontend()
 {
   local want_prefill=$(_expected_ready_prefill)
@@ -725,44 +913,205 @@ function wait_for_dynamo_frontend()
   log "Dynamo frontend is ready"
 }
 
-_probe_frontend_once() {
+_query_frontend() {
+  local content="${1:-The color of sky is}"
+  content=$(echo "$content" | sed 's/"/\\"/g' | sed 's/\n/\\n/g')
+  local max_tokens="${2:-10}"
+
   local json='{
     "model": "'${dynamo_args["model"]}'",
-    "messages": [{"role": "user", "content": "The color of sky is"}],
+    "messages": [{"role": "user", "content": "'"$content"'"}],
     "stream": false,
-    "max_tokens": 10
+    "max_tokens": '$max_tokens',
+    "temperature": 0,
+    "top_p": 0.0001
   }'
-  curl -s -X POST "${dynamo_args["url"]}/v1/chat/completions" -H "Content-Type: application/json" -d "$json"
+
+  echo "$json" > "$RESULTS_DIR/curl_cmd.json"
+  curl -s -X POST "${dynamo_args["url"]}/v1/chat/completions" -H "Content-Type: application/json" -d @$RESULTS_DIR/curl_cmd.json
 }
 
-function launch_genai_perf()
+function setup_cufile()
 {
-  wait_for_dynamo_frontend
+  export CUFILE_ENV_PATH_JSON="$RESULTS_DIR/cufile.json"
+  cat <<EOF > $CUFILE_ENV_PATH_JSON
+{
+    // NOTE : Application can override custom configuration via export CUFILE_ENV_PATH_JSON=<filepath>
+    // e.g : export CUFILE_ENV_PATH_JSON="/home/<xxx>/cufile.json"
+            "properties": {
+                            // allow compat mode, this will enable use of cuFile posix read/writes
+                            "allow_compat_mode": true,
+                            // max IO chunk size (parameter should be multiples of 64K) used by cuFileRead/Write internally per IO request
+                            "max_direct_io_size_kb" : 16384,
+                            // device memory size (parameter should be 4K aligned) for reserving bounce buffers for the entire GPU
+                            "max_device_cache_size_kb" : 2097152,
+                            // Note: ensure (max_device_cache_size_kb / per_buffer_cache_size_kb) >= io_batchsize
+                            // per-io bounce-buffer size (parameter should be multiples of 64K) ranging from 1024kb to 16384kb
+                            "per_buffer_cache_size_kb": 16384,
+                            // limit on maximum device memory size (parameter should be 4K aligned) that can be pinned for a given process
+                            "max_device_pinned_mem_size_kb" : 33554432,
+                            // posix bounce buffer pool size allocations
+                            "posix_pool_slab_size_kb" : [ 4, 1024, 16384],
+                            // posix bounce buffer pool max counts
+                            "posix_pool_slab_count": [512, 512, 512]
+            },
+  "logging": {
+    "dir": "$RESULTS_DIR",
+    "level": "${CUFILE_LOG_LEVEL:-INFO}"
+  }
+}
+EOF
+}
+
+function setup_storage_cache_dir()
+{
+  local connector="$1"
+  # Use a global variable that can be exported
+  STORAGE_CACHE_DIR="$STORAGE_CACHE_DIR/${TEST_USER}/${dynamo_args["frontend-node"]}/${connector}/cache"
+  rm -rf "${STORAGE_CACHE_DIR}"
+  mkdir -p "${STORAGE_CACHE_DIR}"
+  chmod 755 "${STORAGE_CACHE_DIR}"
+}
+
+function setup_kvbm()
+{
+  if ! _has_connector "kvbm"; then
+    log "Connector list does not include kvbm. Skipping setup_kvbm"
+    return
+  fi
+
+  log "Setting up KVBM storage cache directory: ${STORAGE_CACHE_DIR}"
+  setup_storage_cache_dir "kvbm"
+  export DYN_KVBM_DISK_CACHE_DIR=${STORAGE_CACHE_DIR}
+  setup_cufile
+}
+
+function setup_lmcache()
+{
+  if ! _has_connector "lmcache"; then
+    log "Connector list does not include lmcache. Skipping setup_lmcache"
+    return
+  fi
 
-  local resp=$(_probe_frontend_once)
-  echo "Response: $resp"
+  _require_cmd uv
+  log "Setting up LMCache; installing LMCache using: uv pip install $lmcache_path"
+  local lmcache_path="${lmcache_config["repo"]}"
+  uv pip install -e $lmcache_path
 
-  local genai_perf_arguments=$(array_to_args genai_perf_args)
-  log "Launching genai-perf with cmd: ${dynamo_args["genai-perf-cmd"]} $genai_perf_arguments ${genai_perf_args["--extra-args"]}"
+  setup_storage_cache_dir "lmcache"
 
-  ${dynamo_args["genai-perf-cmd"]} ${genai_perf_arguments} ${genai_perf_args["--extra-args"]} > ${RESULTS_DIR}/genai_perf.log 2>&1
+  export LMCACHE_CONFIG_FILE=$RESULTS_DIR/lmcache-nixl-config.yaml
+  rm -f $LMCACHE_CONFIG_FILE
 
-  log "Done with genai-perf run"
+  for key in "${!lmcache_args[@]}"; do
+    shopt -s nocasematch
+    if [[ "$key" == "extra_config"* ]]; then
+      continue
+    fi
+
+    val="${lmcache_args[$key]}"
+    echo "$key: $val" >> $LMCACHE_CONFIG_FILE
+  done
+
+  echo "extra_config:" >> $LMCACHE_CONFIG_FILE
+  for key in "${!lmcache_args[@]}"; do
+    shopt -s nocasematch
+    if [[ "$key" == "extra_config"* ]]; then
+      nkey="${key#extra_config_}"
+      val="${lmcache_args[$key]}"
+      val=${val//%CACHEDIR%/${STORAGE_CACHE_DIR}}
+      echo "    $nkey: $val" >> $LMCACHE_CONFIG_FILE
+    fi
+  done
+  setup_cufile
 }
 
-function wait_for_frontend_marker()
+function log_gpu_utilization()
 {
-  while [ ! -f "$DONE_MARKER" ]; do
-    exit_on_error
-    log "Waiting for frontend completion marker by polling $DONE_MARKER"
-    sleep 30
+  # Check if nvidia-smi is available
+  if ! command -v nvidia-smi &> /dev/null; then
+    log "Error: nvidia-smi not found"
+    return
+  fi
+
+  wait_for_dynamo_frontend
+  log "Starting GPU utilization monitoring"
+
+  nvidia-smi \
+    --query-gpu=timestamp,name,pci.bus_id,pstate,pcie.link.gen.max,pcie.link.gen.current,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used \
+    --format=csv \
+    -l 5 \
+    -f ${RESULTS_DIR}/gpu_utilization-${SLURM_NODEID}.csv
+}
+
+function launch_workload()
+{
+  local workload_config_name="$1"
+  local workload_args_name="$2"
+
+  # Create nameref to the associative arrays
+  local -n workload_config_ref="$workload_config_name"
+  local -n workload_args_ref="$workload_args_name"
+
+  local workload_name="${workload_config_ref["--name"]}"
+  local script="${workload_config_ref["--script"]}"
+
+  # Build config and workload args as proper bash arrays to preserve
+  # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+  local -a config_arr=()
+  for key in "${!workload_config_ref[@]}"; do
+    config_arr+=("$key" "$(replace_placeholders "${workload_config_ref[$key]}")")
   done
 
-  log "Done marker found."
+  local -a args_arr=()
+  for key in "${!workload_args_ref[@]}"; do
+    args_arr+=("$key" "$(replace_placeholders "${workload_args_ref[$key]}")")
+  done
+
+  log "Launching $workload_name with cmd: ${INSTALL_DIR}/$script ${config_arr[*]} -- ${args_arr[*]}"
+
+  bash "${INSTALL_DIR}/$script" \
+    --install_dir "$INSTALL_DIR" \
+    --result_dir "$RESULTS_DIR" \
+    --model "${dynamo_args["model"]}" \
+    --url "http://${dynamo_args["frontend-node"]}" \
+    --port "${dynamo_args["port"]}" \
+    --endpoint "${dynamo_args["endpoint"]}" \
+    --gpus_per_node "$(_gpus_per_node)" \
+    --decode-connector "${decode_args["--connector"]}" \
+    --prefill-connector "${prefill_args["--connector"]}" \
+    --kvbm_metrics_port "${DYN_KVBM_METRICS_PORT:-6880}" \
+    --decode-nodes "${decode_config["node-list"]}" \
+    "${config_arr[@]}" \
+    -- "${args_arr[@]}" > "${RESULTS_DIR}/$workload_name.log" 2>&1
+
+  log "Done with $workload_name run"
+}
+
+function launch_workloads()
+{
+  wait_for_dynamo_frontend
+
+  if _is_genai_perf_workload; then
+    launch_workload genai_perf_config genai_perf_args
+  fi
+  if _is_aiperf_workload; then
+    launch_workload aiperf_config aiperf_args
+  fi
+  if _is_lmbench_workload; then
+    launch_workload lmbench_config lmbench_args
+  fi
+  if _is_kvstorage_workload; then
+    launch_workload kvstorage_config kvstorage_args
+  fi
+
+  mark_done
 }
 
 function main()
 {
+  parse_args "$@"
+
   _init_runtime_env
 
   launch_node_setup_cmd
@@ -773,9 +1122,15 @@ function main()
     cd ${dynamo_args["workspace-path"]}
   fi
 
+  cd $RESULTS_DIR
+
+  log_gpu_utilization &
+
   if _is_frontend_node; then
     log "Node ID: $SLURM_NODEID, Role: frontend"
     log_node_role "$(_current_node_name)" "frontend"
+    setup_lmcache
+    setup_kvbm
     launch_etcd &
     launch_nats &
     wait_for_etcd
@@ -798,17 +1153,18 @@ function main()
   fi
 
   if _is_frontend_node; then
-    launch_genai_perf
-    touch "$DONE_MARKER"
+    launch_lmcache_controller &
+
+    sleep 10
+
+    launch_workloads &
   fi
 
   wait_for_frontend_marker
 }
 
-parse_args "$@"
-
-log "env: $(env)"
-
 log "Starting main"
-main
+main "$@"
 log "Done with main"
+
+perform_exit 0
diff --git a/src/cloudai/workloads/ai_dynamo/aiperf.sh b/src/cloudai/workloads/ai_dynamo/aiperf.sh
new file mode 100644
index 000000000..1e5e190bf
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/aiperf.sh
@@ -0,0 +1,237 @@
+#! /bin/bash
+
+# Called as:
+    #   ./aiperf.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <aiperf-cmdline-args>
+
+# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
+result_dir=""
+report_name="aiperf_report.csv"
+gpus_per_node=1
+port=""
+cmd=""
+extra_args=""
+declare -A aiperf_args
+decode_nodes=""
+aiperf_profile_csv="profile_export_aiperf.csv"
+metrics_urls=""
+version=""
+
+# Simple log function
+log() {
+  echo "[$(date +%F\ %T) $(hostname)]: $*"
+}
+
+function parse_aiperf_args()
+{
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+    --*)
+      aiperf_args["${1}"]="$2"
+      shift 2
+      ;;
+    *)
+      shift
+      ;;
+    esac
+  done
+}
+
+function process_args()
+{
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+      --model)
+        model="$2"
+        shift 2
+        ;;
+      --url)
+        url="$2"
+        shift 2
+        ;;
+      --port)
+        port="$2"
+        shift 2
+        ;;
+      --endpoint)
+        endpoint="$2"
+        shift 2
+        ;;
+      --result_dir)
+        result_dir="$2"
+        shift 2
+        ;;
+      --install_dir)
+        install_dir="$2"
+        shift 2
+        ;;
+      --gpus_per_node)
+        gpus_per_node="$2"
+        shift 2
+        ;;
+      --report_name)
+        report_name="$2"
+        shift 2
+        ;;
+      --cmd)
+        cmd="$2"
+        shift 2
+        ;;
+      --version)
+        version="$2"
+        shift 2
+        ;;
+      --decode-nodes)
+        decode_nodes="$2"
+        shift 2
+        ;;
+      --extra-args|--extra_args)
+        extra_args="$2"
+        shift 2
+        ;;
+      --)
+        shift
+        parse_aiperf_args "$@"
+        break
+        ;;
+      --*)
+        shift 2
+        ;;
+      *)
+        shift
+        ;;
+    esac
+  done
+
+  log """Parsed args:
+    model: $model
+    url: $url
+    port: $port
+    result_dir: $result_dir
+    install_dir: $install_dir
+    report_name: $report_name
+    cmd: $cmd
+    version: $version
+    extra_args: $extra_args
+    decode_nodes: $decode_nodes
+    aiperf_args:
+        $(for key in "${!aiperf_args[@]}"; do echo "$key ${aiperf_args[$key]} "; done)
+  """
+}
+
+function update_aiperf_version()
+{
+  if [[ -n "$version" ]]; then
+    log "Updating aiperf version from $(aiperf --version) to $version"
+    pip install --upgrade $version
+    log "Updated aiperf version to $(aiperf --version)"
+  fi
+}
+
+function _resolve_server_metrics_auto()
+{
+  # Auto-discover Prometheus metrics endpoints for Dynamo deployments
+  # Returns space-separated list of URLs for --server-metrics
+  
+  # Frontend metrics (port from dynamo config)
+  local frontend_url="http://${url}:${port}/metrics"
+  metrics_urls="$frontend_url"
+  
+  local IFS_SAVE="$IFS"
+  IFS=','
+  for node in $decode_nodes; do
+    local decode_url="http://${node}:9090/metrics"
+    metrics_urls="$metrics_urls $decode_url"
+  done
+  IFS="$IFS_SAVE"
+  
+  log "Auto-discovered server-metrics URLs: $metrics_urls"
+}
+
+function process_result()
+{
+  local profile_path
+  profile_path=$(find "$result_dir" -type f -name "$aiperf_profile_csv" -print -quit)
+  if [[ ! -f "$profile_path" ]]; then
+    log "WARNING: aiperf profile CSV not found: $aiperf_profile_csv"
+    return
+  fi
+
+  local num_sections=1
+  local has_content=0
+  local output_prefix="${result_dir}/aiperf_section"
+
+  while IFS= read -r line; do
+    # Strip carriage returns
+    line="${line//$'\r'/}"
+    if [[ -z "$line" ]]; then
+      # Only advance section if the current one had content
+      if [[ "$has_content" -eq 1 ]]; then
+        num_sections=$(( num_sections + 1 ))
+        has_content=0
+      fi
+    else
+      echo "$line" >> "${output_prefix}.${num_sections}.csv"
+      has_content=1
+    fi
+  done < "$profile_path"
+
+  log "Split aiperf CSV into $num_sections section(s)"
+
+  # Section 1: per-request percentile metrics → main report
+  if [[ -f "${output_prefix}.1.csv" ]]; then
+    mv "${output_prefix}.1.csv" "$report_file"
+  fi
+
+  # Section 2: summary metrics
+  if [[ -f "${output_prefix}.2.csv" ]]; then
+    mv "${output_prefix}.2.csv" "${result_dir}/aiperf_summary.csv"
+  fi
+
+  # Section 3: server/GPU metrics
+  if [[ -f "${output_prefix}.3.csv" ]]; then
+    mv "${output_prefix}.3.csv" "${result_dir}/aiperf_server_metrics.csv"
+  fi
+}
+
+function main()
+{
+  process_args "$@"
+
+  report_file=$result_dir/$report_name
+
+  update_aiperf_version
+
+  # Handle server-metrics = "auto" - auto-discover endpoints
+  if [[ "${aiperf_args["--server-metrics"]}" == "auto" ]]; then
+    _resolve_server_metrics_auto
+    aiperf_args["--server-metrics"]="$metrics_urls"
+  fi
+  
+  # Combine aiperf_args (key-value pairs) and extra_args
+  cmdline_args=""
+  for key in "${!aiperf_args[@]}"; do
+    local val="${aiperf_args[$key]}"
+    # Quote values that contain spaces so eval doesn't split them
+    if [[ "$val" == *" "* ]]; then
+      val="${val//\"/\\\"}"  # Escape existing quotes
+      cmdline_args+="$key \"${val}\" "
+    else
+      cmdline_args+="$key ${val} "
+    fi
+  done
+  cmdline_args+="$extra_args"
+  
+  # Build the full command with model and url
+  full_cmd="$cmd $cmdline_args"
+  
+  # launch aiperf
+  log "Launching aiperf with args: $full_cmd"
+  
+  eval "$full_cmd"
+  
+  log "Done with aiperf run"
+  
+  process_result
+}
+
+main "$@"
\ No newline at end of file
diff --git a/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py b/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
new file mode 100644
index 000000000..465b6983c
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
@@ -0,0 +1,139 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import argparse
+import csv
+import math
+import os
+from typing import Any, Dict, List
+
+
+def compute_percentile(sorted_values: List[float], percentile: float) -> float:
+    if not sorted_values:
+        return float("nan")
+    if percentile <= 0:
+        return float(sorted_values[0])
+    if percentile >= 100:
+        return float(sorted_values[-1])
+    # Nearest-rank linear interpolation (common in data tools)
+    k = (len(sorted_values) - 1) * (percentile / 100.0)
+    f = math.floor(k)
+    c = math.ceil(k)
+    if f == c:
+        return float(sorted_values[int(k)])
+    d0 = sorted_values[f] * (c - k)
+    d1 = sorted_values[c] * (k - f)
+    return float(d0 + d1)
+
+
+def summarize(values: List[float]) -> Dict[str, float]:
+    if not values:
+        return {
+            "avg": float("nan"),
+            "min": float("nan"),
+            "max": float("nan"),
+            "p99": float("nan"),
+            "p95": float("nan"),
+            "p90": float("nan"),
+            "p75": float("nan"),
+            "p50": float("nan"),
+            "p25": float("nan"),
+            "p10": float("nan"),
+            "p5": float("nan"),
+            "p1": float("nan"),
+        }
+    sorted_vals = sorted(values)
+    avg_val = sum(sorted_vals) / len(sorted_vals)
+    return {
+        "avg": round(avg_val, 2),
+        "min": round(sorted_vals[0], 2),
+        "max": round(sorted_vals[-1], 2),
+        "p99": round(compute_percentile(sorted_vals, 99), 2),
+        "p95": round(compute_percentile(sorted_vals, 95), 2),
+        "p90": round(compute_percentile(sorted_vals, 90), 2),
+        "p75": round(compute_percentile(sorted_vals, 75), 2),
+        "p50": round(compute_percentile(sorted_vals, 50), 2),
+        "p25": round(compute_percentile(sorted_vals, 25), 2),
+        "p10": round(compute_percentile(sorted_vals, 10), 2),
+        "p5": round(compute_percentile(sorted_vals, 5), 2),
+        "p1": round(compute_percentile(sorted_vals, 1), 2),
+    }
+
+
+def parse_float_safe(value: Any) -> float:
+    try:
+        return float(value)
+    except Exception:
+        return float("nan")
+
+
+def main() -> None:
+    parser = argparse.ArgumentParser(description="Summarize LMCACHE bench CSV metrics")
+    parser.add_argument("--input", "-i", help="Path to input CSV (e.g., lmcache_bench_output_0.1.csv)")
+    parser.add_argument("--output", "-o", help="Path to write summary CSV. Defaults to <input>_summary.csv")
+    args = parser.parse_args()
+
+    input_path = args.input
+    output_path = args.output or f"{input_path}_summary.csv"
+
+    rows: List[Dict[str, Any]] = []
+    with open(input_path, newline="") as f:
+        reader = csv.DictReader(f)
+        for r in reader:
+            rows.append(r)
+
+    # Build summaries
+    summaries: List[Dict[str, Any]] = []
+
+    def append_summary(metric_name: str, values: List[float]) -> None:
+        clean_values = [v for v in values if v is not None and not math.isnan(v)]
+        stats = summarize(clean_values)
+        summaries.append({"Metric": metric_name, **stats})
+
+    # Summarize all numeric columns present in the CSV
+    all_columns: List[str] = list(rows[0].keys()) if rows else []
+    for col in all_columns:
+        col_values = [parse_float_safe(r.get(col)) for r in rows]
+        append_summary(col, col_values)
+
+    fieldnames = [
+        "Metric",
+        "avg",
+        "min",
+        "max",
+        "p99",
+        "p95",
+        "p90",
+        "p75",
+        "p50",
+        "p25",
+        "p10",
+        "p5",
+        "p1",
+    ]
+
+    os.makedirs(os.path.dirname(output_path) or ".", exist_ok=True)
+    with open(output_path, "w", newline="") as f:
+        writer = csv.DictWriter(f, fieldnames=fieldnames)
+        writer.writeheader()
+        for row in summaries:
+            writer.writerow(row)
+
+    print(f"Wrote summary to: {output_path}")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/cloudai/workloads/ai_dynamo/genai_perf.sh b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
new file mode 100644
index 000000000..c475d5cc8
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
@@ -0,0 +1,161 @@
+#! /bin/bash
+
+# Called as:
+    #   ./genai_perf.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <genai-perf-cmdline-args>
+
+# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
+result_dir=""
+report_name="genai_perf_report.csv"
+calc_percentile_csv_script=""
+gpus_per_node=1
+port=""
+repo=""
+cmd=""
+extra_args=""
+declare -A genai_perf_args
+
+# Simple log function
+log() {
+  echo "[$(date +%F\ %T) $(hostname)]: $*"
+}
+
+function parse_genai_perf_args()
+{
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+    --*)
+      genai_perf_args["${1}"]="$2"
+      shift 2
+      ;;
+    *)
+      shift
+      ;;
+    esac
+  done
+}
+
+function process_args()
+{
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+      --model)
+        model="$2"
+        shift 2
+        ;;
+      --url)
+        url="$2"
+        shift 2
+        ;;
+      --port)
+        port="$2"
+        shift 2
+        ;;
+      --endpoint)
+        endpoint="$2"
+        shift 2
+        ;;
+      --result_dir)
+        result_dir="$2"
+        shift 2
+        ;;
+      --install_dir)
+        install_dir="$2"
+        shift 2
+        ;;
+      --gpus_per_node)
+        gpus_per_node="$2"
+        shift 2
+        ;;
+      --report_name)
+        report_name="$2"
+        shift 2
+        ;;
+      --cmd)
+        cmd="$2"
+        shift 2
+        ;;
+      --extra-args|--extra_args)
+        extra_args="$2"
+        shift 2
+        ;;
+      --)
+        shift
+        parse_genai_perf_args "$@"
+        break
+        ;;
+      --*)
+        shift 2
+        ;;
+      *)
+        shift
+        ;;
+    esac
+  done
+
+  log """Parsed args:
+    model: $model
+    url: $url
+    port: $port
+    result_dir: $result_dir
+    install_dir: $install_dir
+    report_name: $report_name
+    cmd: $cmd
+    extra_args: $extra_args
+    genai_perf_args: $(for key in "${!genai_perf_args[@]}"; do echo "        $key ${genai_perf_args[$key]} "; done)
+  """
+}
+
+function process_results()
+{
+  # Calculate total GPUs - use SLURM_JOB_NUM_NODES if available, otherwise default to 1 node
+  local num_nodes=${SLURM_JOB_NUM_NODES:-1}
+  local total_gpus=$(( $gpus_per_node * $num_nodes ))
+
+  local profile_path=$(find "$result_dir" -type f -name "profile_genai_perf.csv" -print -quit)
+  if [[ -f "$profile_path" ]]; then
+    sed -i 's/\r//g' "$profile_path"
+    local output_tokens_per_second=$(grep "Output Token Throughput (tokens/sec)" "$profile_path" | cut -d ',' -f 2)
+    local output_tokens_per_second_per_gpu=$(awk "BEGIN {printf \"%.2f\", $output_tokens_per_second / $total_gpus}")
+    local request_throughput=$(grep "Request Throughput (per sec)" "$profile_path" | cut -d ',' -f 2)
+    local request_count=$(grep "Request Count (count)" "$profile_path" | cut -d ',' -f 2)
+    grep ".*,.*,.*,.*" "$profile_path" > "$result_dir/$report_name"
+    echo "Output tokens per second per gpu,$output_tokens_per_second_per_gpu,0,0,0,0,0,0,0,0,0,0,0" >> "$result_dir/$report_name"
+    echo "Request throughput per second,$request_throughput,0,0,0,0,0,0,0,0,0,0,0" >> "$result_dir/$report_name"
+    echo "Request count,$request_count,0,0,0,0,0,0,0,0,0,0,0" >> "$result_dir/$report_name"
+  fi
+}
+
+function main()
+{
+  process_args "$@"
+
+  report_file=$result_dir/$report_name
+
+  # Combine genai_perf_args (key-value pairs) and extra_args
+  cmdline_args=""
+  for key in "${!genai_perf_args[@]}"; do
+    local val="${genai_perf_args[$key]}"
+    # Quote values that contain spaces so eval doesn't split them
+    if [[ "$val" == *" "* ]]; then
+      val="${val//\"/\\\"}"  # Escape existing quotes
+      cmdline_args+="$key \"${val}\" "
+    else
+      cmdline_args+="$key ${val} "
+    fi
+  done
+  cmdline_args+="$extra_args"
+
+  # Build the full command with model and url
+  full_cmd="$cmd $cmdline_args"
+
+  # launch genai-perf
+  log "Launching genai-perf with args: $full_cmd"
+
+  eval "$full_cmd"
+
+  log "Done with genai-perf run"
+
+  process_results
+}
+
+main "$@"
diff --git a/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py b/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
index 8882a8069..bd7f49cbe 100644
--- a/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
@@ -21,7 +21,7 @@
 from cloudai.core import JsonGenStrategy
 from cloudai.systems.kubernetes import KubernetesSystem
 
-from .ai_dynamo import AIDynamoTestDefinition, WorkerBaseArgs
+from .ai_dynamo import AIDynamoTestDefinition, WorkerBaseArgs, WorkerConfig
 
 
 class AIDynamoKubernetesJsonGenStrategy(JsonGenStrategy):
@@ -126,14 +126,14 @@ def _to_dynamo_arg(self, arg_name: str) -> str:
     def _dynamo_args_dict(self, model: WorkerBaseArgs) -> dict:
         return model.model_dump(exclude={"num_nodes", "extra_args", "nodes"}, exclude_none=True)
 
-    def _args_from_worker_config(self, worker: WorkerBaseArgs) -> list[str]:
+    def _args_from_worker_config(self, worker: WorkerConfig) -> list[str]:
         args = []
-        for arg, value in self._dynamo_args_dict(worker).items():
+        for arg, value in self._dynamo_args_dict(worker.args).items():
             args.extend([self._to_dynamo_arg(arg), str(value)])
         if worker.extra_args:
             args.append(f"{worker.extra_args}")
         return args
 
-    def _set_multinode_if_needed(self, cfg: dict[str, Any], worker: WorkerBaseArgs) -> None:
+    def _set_multinode_if_needed(self, cfg: dict[str, Any], worker: WorkerConfig) -> None:
         if cast(int, worker.num_nodes) > 1:
             cfg["multinode"] = {"nodeCount": worker.num_nodes}
diff --git a/src/cloudai/workloads/ai_dynamo/kvstorage.py b/src/cloudai/workloads/ai_dynamo/kvstorage.py
new file mode 100644
index 000000000..d2f7b13d3
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/kvstorage.py
@@ -0,0 +1,299 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""Single-shot chat completion client for TTFT benchmark."""
+
+# Future
+from __future__ import annotations
+
+# Standard
+import argparse
+import json
+import os
+import random
+import string
+import sys
+import time
+from pathlib import Path
+
+# Third Party
+from openai import OpenAI  # type: ignore[import-untyped]
+from transformers import AutoTokenizer  # type: ignore[import-untyped]
+
+# ----------------------------------------------------------------------
+NUM_FILLER_TOKENS = 10_000  # ≈ length of each cache-filler prompt
+NUM_FILLER_PROMPTS = 100  # how many fillers to send for eviction
+# ----------------------------------------------------------------------
+
+
+# ---------------- helper utilities ------------------------------------
+
+
+def log(message: str) -> None:
+    print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')} {os.getenv('HOSTNAME') or ''}]: [kvstorage] {message}")
+    sys.stdout.flush()
+    sys.stderr.flush()
+
+
+class TtftStats:
+    """Holds TTFT benchmark results including timing and token counts."""
+
+    def __init__(self, ttft_seconds: float, prompt_tokens: int, cached_tokens: int):
+        self.ttft_seconds = ttft_seconds
+        self.prompt_tokens = prompt_tokens
+        self.cached_tokens = cached_tokens
+
+
+class Chat:
+    """Represents a chat context with a document for TTFT benchmarking."""
+
+    def __init__(self, model: str, isl: int):
+        self.isl = isl
+        self.model = model
+        self.tok = AutoTokenizer.from_pretrained(self.model, use_fast=True)
+
+        raw_doc = "".join(random.choices(string.ascii_letters + string.digits, k=self.isl * 4))
+
+        num_tokens = self.isl - 37
+        ids = self.tok.encode(raw_doc, add_special_tokens=False, truncation=True, max_length=num_tokens)
+        assert len(ids) == num_tokens, f"Expected {num_tokens} tokens, got {len(ids)}"
+        doc = self.tok.decode(ids, skip_special_tokens=True)
+
+        self.messages = [
+            {"role": "user", "content": f"I've got a document:\n```\n{doc}\n```"},
+            {"role": "assistant", "content": "I've got your document."},
+            {"role": "user", "content": "summarize"},
+        ]
+
+    def stream(self, client: OpenAI, max_tokens: int) -> TtftStats:
+        stats = TtftStats(0, 0, 0)
+
+        start = time.perf_counter()
+        try:
+            stream = client.chat.completions.create(
+                model=self.model,
+                messages=self.messages,
+                temperature=0.0,
+                stream=True,
+                stream_options={"include_usage": True},
+                max_tokens=max_tokens,
+            )
+
+            first_tok_t: float | None = None
+            for chunk in stream:
+                if first_tok_t is None and chunk.choices and chunk.choices[0].delta and chunk.choices[0].delta.content:
+                    first_tok_t = time.perf_counter()
+                # Capture prompt_tokens from usage if available
+                if chunk.usage and chunk.usage.prompt_tokens:
+                    stats.prompt_tokens = chunk.usage.prompt_tokens
+                # Capture cached_tokens from prompt_tokens_details if available
+                usage_details = chunk.usage and chunk.usage.prompt_tokens_details
+                if usage_details and usage_details.cached_tokens is not None:
+                    stats.cached_tokens = usage_details.cached_tokens
+
+            if first_tok_t is None:
+                raise RuntimeError("no tokens returned")
+
+            stats.ttft_seconds = round(first_tok_t - start, 3)
+            return stats
+        except json.JSONDecodeError as e:
+            log(f"Error: JSON decode error during streaming: {e}")
+            log("This may indicate empty SSE events from the server - likely a server-side bug")
+            # Return partial stats with error indication
+            stats.ttft_seconds = -1  # Indicate error
+            return stats
+        except Exception as e:
+            log(f"Error during streaming: {type(e).__name__}: {e}")
+            stats.ttft_seconds = -1  # Indicate error
+            return stats
+
+
+class KVCacheFlusher:
+    """Flushes the KV cache by streaming filler chat completions."""
+
+    def __init__(self, args: argparse.Namespace, client: OpenAI):
+        self.client = client
+        self.args = args
+        self.filler_chats = [Chat(args.model, args.num_filler_tokens) for _ in range(args.num_filler_prompts)]
+
+    def flush(self) -> None:
+        log(f"Stream {self.args.num_filler_prompts} filler chats with {self.args.num_filler_tokens} tokens each...")
+        for _n, chat in enumerate(self.filler_chats):
+            chat.stream(self.client, 1)
+
+
+# ---------------- command-line parsing --------------------------------
+def parse_args() -> argparse.Namespace:
+    ap = argparse.ArgumentParser(
+        prog=Path(sys.argv[0]).name,
+        description="Single-shot chat completion client for TTFT benchmark.",
+    )
+    ap.add_argument("--dump_csv_header", action="store_true", help="Only dump CSV header and exit.")
+    ap.add_argument("--url", help="URL of the API endpoint.")
+    ap.add_argument("--model", help="Model name/ID.")
+    ap.add_argument("--isl", type=int, help="Input tokens.")
+    ap.add_argument("--osl", type=int, help="Output tokens.")
+    ap.add_argument("--out", help="JSONL file for results.")
+    ap.add_argument(
+        "--max_filler_prompts",
+        type=int,
+        default=200,
+        help="Max number of filler prompts (used to compute the KV cache token size) to send for cache flush.",
+    )
+    ap.add_argument(
+        "--min_filler_prompts",
+        type=int,
+        default=1,
+        help="Min number of filler prompts (used to compute the KV cache token size) to send for cache flush.",
+    )
+    ap.add_argument(
+        "--num_filler_prompts",
+        type=int,
+        default=NUM_FILLER_PROMPTS,
+        help="Number of filler prompts to send for cache flush.",
+    )
+    ap.add_argument(
+        "--num_filler_tokens",
+        type=int,
+        default=NUM_FILLER_TOKENS,
+        help="Number of filler tokens.",
+    )
+    ap.add_argument("--compute_kv_cache_token_size", action="store_true", help="Compute KV cache token size and exit.")
+    return ap.parse_args()
+
+
+def SendFillerQueries(args: argparse.Namespace, client: OpenAI, num: int):
+    for n in range(num):
+        log(f"Sending filler query {n + 1} of {num}...")
+        _ = Chat(args.model, args.isl).stream(client, 1)
+
+
+def compute_kv_cache_token_size(args: argparse.Namespace, client: OpenAI) -> int:
+    # We want to compute the number of tokens required to flush the KV cache. To
+    # do this, we start by sending a canary query with 1000 tokens.
+    # Next we send a filler queries with 10000 tokens and after each query we
+    # send the original query again aand measure the cached_tokens. If
+    # cached_tokens is not zero, we increase the number of filler queries and
+    # repeat.  At some point, the cached_tokens for the original query will be
+    # zero and we have the number of filler queries required to flush the KV
+    # cache.
+
+    # Do a binary search for the number of filler prompts required to flush the KV cache.
+    maxFillerPrompts = args.max_filler_prompts
+    minFillerPrompts = min(1, args.min_filler_prompts)
+    log(
+        f"Doing binary search for the number of filler prompts required to flush the KV cache"
+        f" between {minFillerPrompts} and {maxFillerPrompts}..."
+    )
+
+    log("Sending an initial canary query with 1000 tokens...")
+    canary_chat = Chat(args.model, args.isl)
+    canary_stats = canary_chat.stream(client, 1)
+    log(f"Initial Canary query: {canary_stats.ttft_seconds:.3f}s with {canary_stats.cached_tokens} cached tokens")
+
+    while minFillerPrompts < maxFillerPrompts:
+        numFillerPrompts = (maxFillerPrompts + minFillerPrompts) // 2
+        log(f"Trying {numFillerPrompts} filler prompts with {args.num_filler_tokens} tokens each...")
+        SendFillerQueries(args, client, numFillerPrompts)
+        log(f"Sending canary query after {numFillerPrompts} filler prompts...")
+        canary_stats = canary_chat.stream(client, 1)
+        log(f"Canary query: {canary_stats.ttft_seconds:.3f}s with {canary_stats.cached_tokens} cached tokens")
+        if canary_stats.cached_tokens < 500:
+            maxFillerPrompts = numFillerPrompts
+        else:
+            minFillerPrompts = numFillerPrompts + 1
+        log(f"Min filler prompts: {minFillerPrompts}, Max filler prompts: {maxFillerPrompts}")
+    return minFillerPrompts * args.num_filler_tokens
+
+
+# ---------------- main routine ----------------------------------------
+def main() -> None:
+    args = parse_args()
+
+    result = {
+        "isl": args.isl,
+        "baseline_cached_tokens": 0,
+        "baseline_ttft_seconds": 0,
+        "no_flush_cached_tokens": 0,
+        "no_flush_ttft_seconds": 0,
+        "post_flush_cached_tokens": 0,
+        "post_flush_ttft_seconds": 0,
+    }
+
+    client = OpenAI(base_url=args.url, api_key="dummy-key-for-local-server")
+
+    if args.compute_kv_cache_token_size:
+        log("Computing KV cache token size...")
+        kv_cache_token_size = compute_kv_cache_token_size(args, client)
+        log(f"KV cache token size: {kv_cache_token_size}")
+        with Path(args.out).open("a", encoding="utf-8") as f:
+            f.write(f"KV cache token size: {kv_cache_token_size}\n")
+        return
+
+    if args.dump_csv_header:
+        with Path(args.out).open("a", encoding="utf-8") as f:
+            f.write(",".join(result.keys()))
+            f.write("\n")
+        return
+
+    chat = Chat(args.model, args.isl)
+
+    log("=== Run 1: warmup ===")
+    warmup = Chat(args.model, args.isl).stream(client, 1)
+    log(f"Run 1: warmup: TTFT = {warmup.ttft_seconds:.3f}s with {warmup.cached_tokens} cached tokens")
+
+    # ---------------- RUN 1 ----------------
+    log("=== Run 1: baseline TTFT ===")
+    baseline = chat.stream(client, args.osl)
+    log(f"Run 1: TTFT = {baseline.ttft_seconds:.3f}s with {baseline.cached_tokens} cached tokens")
+
+    # Run 2 with same doc without cache flush
+    log("=== Run 2: TTFT without cache flush ===")
+    no_flush = chat.stream(client, args.osl)
+    log(f"Run 2: TTFT = {no_flush.ttft_seconds:.3f}s with {no_flush.cached_tokens} cached tokens")
+
+    # Flush cache
+    log(f"Flushing KV-cache with {args.num_filler_prompts} prompts …")
+    KVCacheFlusher(args, client).flush()
+
+    # Run 3 with same doc with cache flush
+    log("=== Run 3: warmup ===")
+    warmup = Chat(args.model, args.isl).stream(client, 1)
+    log(f"Run 3: warmup: TTFT = {warmup.ttft_seconds:.3f}s with {warmup.cached_tokens} cached tokens")
+
+    log("=== Run 3: TTFT with cache flush ===")
+    post_flush = chat.stream(client, args.osl)
+    log(f"Run 3: TTFT = {post_flush.ttft_seconds:.3f}s with {post_flush.cached_tokens} cached tokens")
+
+    result["baseline_cached_tokens"] = baseline.cached_tokens
+    result["baseline_ttft_seconds"] = baseline.ttft_seconds
+    result["no_flush_cached_tokens"] = no_flush.cached_tokens
+    result["no_flush_ttft_seconds"] = no_flush.ttft_seconds
+    result["post_flush_cached_tokens"] = post_flush.cached_tokens
+    result["post_flush_ttft_seconds"] = post_flush.ttft_seconds
+
+    out_path = Path(args.out)
+    with out_path.open("a", encoding="utf-8") as f:
+        if out_path.suffix == ".csv":
+            line = ",".join(str(v) for v in result.values())
+            f.write(line + "\n")
+        else:
+            json.dump(result, f, indent=2)
+            f.write("\n")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/cloudai/workloads/ai_dynamo/kvstorage.sh b/src/cloudai/workloads/ai_dynamo/kvstorage.sh
new file mode 100644
index 000000000..3940d0714
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/kvstorage.sh
@@ -0,0 +1,359 @@
+#! /bin/bash
+
+# Called as:
+    #   bash ./kvstorage.sh --result_dir <result_dir> --report_name <report_name> -- <kvstorage-cmdline-args>
+
+# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
+result_dir=""
+report_name="kvstorage_report.csv"
+model=""
+url=""
+port=""
+endpoint=""
+connector=""
+kvbm_metrics_port=""
+all_isl=""
+declare -A workload_args
+kv_cache_token_size=0
+num_filler_tokens=32000
+g1_token_size=0
+g2_token_size=0
+g3_token_size=0
+bytes_per_token=0
+dyn_system_port="${DYN_SYSTEM_PORT:-8081}"
+client_script="./kvstorage.py"
+
+
+# Simple log function
+log() {
+  echo "[$(date +%F\ %T) $(hostname)]: $*"
+}
+
+function parse_kvstorage_args()
+{
+  local args="$@"
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+    --*)
+      workload_args["${1}"]="$2"
+      shift 2
+      ;;
+    *)
+      shift
+      ;;
+    esac
+  done
+}
+
+function process_args()
+{
+  while [[ $# -gt 0 ]]; do
+    case "$1" in
+    --model)
+      model="$2"
+      shift 2
+      ;;
+    --url)
+      url="$2"
+      shift 2
+      ;;
+    --port)
+      port="$2"
+      shift 2
+      ;;
+    --endpoint)
+      endpoint="$2"
+      shift 2
+      ;;
+    --decode-connector)
+      decode_connector="$2"
+      shift 2
+      ;;
+    --prefill-connector)
+      prefill_connector="$2"
+      shift 2
+      ;;
+    --kvbm_metrics_port)
+      kvbm_metrics_port="$2"
+      shift 2
+      ;;
+    --dyn_system_port)
+      dyn_system_port="$2"
+      shift 2
+      ;;
+    --result_dir)
+      result_dir="$2"
+      shift 2
+      ;;
+    --install_dir)
+      install_dir="$2"
+      shift 2
+      ;;
+    --report_name)
+      report_name="$2"
+      shift 2
+      ;;
+    --isl)
+      all_isl="$2"
+      shift 2
+      ;;
+    --kv_cache_token_size)
+      kv_cache_token_size="$2"
+      shift 2
+      ;;
+    --num_filler_tokens)
+      num_filler_tokens="$2"
+      shift 2
+      ;;
+    --)
+      shift
+      parse_kvstorage_args "$@"
+      break
+      ;;
+    --*)
+      shift 2
+      ;;
+    *)
+      shift
+      ;;
+    esac
+  done
+
+  client_script="${install_dir}/kvstorage.py"
+
+  log """Parsed args:
+    model: $model
+    url: $url
+    port: $port
+    endpoint: $endpoint
+    decode-connector: $decode_connector
+    prefill-connector: $prefill_connector
+    kvbm_metrics_port: $kvbm_metrics_port
+    result_dir: $result_dir
+    install_dir: $install_dir
+    report_name: $report_name
+    kv_cache_token_size: $kv_cache_token_size
+    num_filler_tokens: $num_filler_tokens
+    isl: $all_isl
+    workload_args: $(for key in "${!workload_args[@]}"; do echo -n "$key: ${workload_args[$key]} "; done)
+  """
+}
+
+#function clear_lmcache()
+#{
+#  log "Clearing LMCache"
+#
+#  response=$(curl -X POST http://${lmcache_config["controller_url"]}/clear \
+#  -H "Content-Type: application/json" \
+#  -d '{
+#    "instance_id": "lmcache_default_instance",
+#    "location": "LocalCPUBackend"
+#  }')
+#
+#  log "LMCache cleared. Response: $response"
+#}
+
+function print_metrics()
+{
+  local frontend_metrics_endpoint="${url}:${port}/metrics"
+  local component_metrics_endpoint="${url}:${dyn_system_port}/metrics"
+  local kvbm_metrics_endpoint="${url}:${kvbm_metrics_port}/metrics"
+
+  #status=$(curl -s ${frontend_metrics_endpoint} 2>/dev/null | grep -E "cache.*model=") # | grep -E "kvstats_active_blocks|kvstats_total_blocks" || echo "metrics unavailable")
+  #log "Frontend metrics: $status"
+
+  #status=$(curl -s ${component_metrics_endpoint} 2>/dev/null | grep -E "cache.*model=") # | grep -E "kvstats_active_blocks|kvstats_total_blocks" || echo "metrics unavailable")
+  #log "Component metrics: $status"
+
+  status=$(curl -s ${kvbm_metrics_endpoint} 2>/dev/null ) # | grep -E "host_cache_hit_rate|disk_cache_hit_rate" || echo "kvbm metrics unavailable")
+  log "KVBM metrics: $status"
+}
+
+function clear_kv_cache()
+{
+  if [[ -z "$port" ]]; then
+    log "ERROR: API port not specified, skipping KV cache clear"
+    return 1
+  fi
+
+  log "Metrics before clear:"
+  print_metrics
+
+  # Clear KV blocks via the dynamo HTTP endpoint
+  # This internally calls reset_prefix_cache() on all workers
+  response=$(curl -s -X POST ${url}:${dyn_system_port}/engine/clear_kv_blocks 2>/dev/null || echo "endpoint unavailable")
+  log "KV blocks cleared. Response: $response"
+
+  log "Metrics after clear:"
+  print_metrics
+
+  # TODO: Add LMCache clearing when connector is lmcache
+  # if [[ "$connector" == "lmcache" ]]; then
+  #   clear_lmcache
+  # fi
+}
+
+function compute_kv_cache_token_size_from_log()
+{
+  # Parse the decode worker log to extract G1 (GPU) KV cache information
+  # Log format examples:
+  #   INFO gpu_worker.determine_available_memory: Available KV cache memory: 54.90 GiB  (per GPU!)
+  #   INFO kv_cache_utils._report_kv_cache_config: GPU KV cache size: 3,198,272 tokens  (total for worker)
+  #
+  # IMPORTANT: "Available KV cache memory" is PER GPU, while "GPU KV cache size" is for the entire
+  # worker (total tokens across all GPUs). We need to multiply memory by tensor_parallel_size.
+
+  log "Computing KV cache token sizes from worker log files..."
+
+  # Find decode worker log file(s) in result_dir
+  local decode_log=$(find "$result_dir" -name "dynamo_decode_0_0.log" 2>/dev/null | head -1)
+  if [[ -z "$decode_log" ]]; then
+    log "WARNING: No decode worker log found in $result_dir, falling back to query-based method"
+    return 1
+  fi
+
+  log "Using decode worker log: $decode_log"
+
+  # Extract tensor_parallel_size from log: "tensor_parallel_size=8"
+  local tp_size=1
+  local tp_line=$(grep -o "tensor_parallel_size=[0-9]*" "$decode_log" | head -1)
+  if [[ -n "$tp_line" ]]; then
+    tp_size=$(echo "$tp_line" | cut -d'=' -f2)
+    log "Tensor parallel size from log: $tp_size GPUs"
+  else
+    log "WARNING: Could not find tensor_parallel_size in log, assuming 1 GPU"
+  fi
+
+  # Extract G1 token count: "GPU KV cache size: 3,198,272 tokens"
+  # This is the TOTAL token capacity for the entire worker (across all GPUs)
+  local g1_tokens_line=$(grep "GPU KV cache size:" "$decode_log" | tail -1)
+  if [[ -z "$g1_tokens_line" ]]; then
+    log "WARNING: Could not find 'GPU KV cache size' in log, falling back to query-based method"
+    return 1
+  fi
+
+  # Parse: extract number, remove commas
+  g1_token_size=$(echo "$g1_tokens_line" | sed -E 's/.*GPU KV cache size: ([0-9,]+) tokens.*/\1/' | tr -d ',')
+  log "G1 (GPU) token size from log: $g1_token_size tokens (total for worker)"
+
+  # Extract G1 memory size per GPU: "Available KV cache memory: 54.90 GiB"
+  # This is PER GPU, so we need to multiply by tensor_parallel_size
+  local g1_memory_line=$(grep "Available KV cache memory:" "$decode_log" | tail -1)
+  if [[ -z "$g1_memory_line" ]]; then
+    log "WARNING: Could not find 'Available KV cache memory' in log, falling back to query-based method"
+    return 1
+  fi
+
+  # Parse: extract the GiB value (this is per GPU)
+  local g1_memory_per_gpu_gib=$(echo "$g1_memory_line" | sed -E 's/.*Available KV cache memory: ([0-9.]+) GiB.*/\1/')
+  log "G1 (GPU) memory per GPU from log: $g1_memory_per_gpu_gib GiB"
+
+  # Calculate total G1 memory across all GPUs
+  local g1_memory_total_gib=$(awk "BEGIN {printf \"%.2f\", $g1_memory_per_gpu_gib * $tp_size}")
+  log "G1 (GPU) total memory across $tp_size GPUs: $g1_memory_total_gib GiB"
+
+  # Calculate bytes per token = (total_G1_GiB * 1024^3) / G1_tokens
+  # Using awk to handle the initial float-to-int conversion from g1_memory_per_gpu_gib
+  bytes_per_token=$(awk "BEGIN {printf \"%d\", ($g1_memory_total_gib * 1024 * 1024 * 1024) / $g1_token_size}")
+  log "Calculated bytes per token: $bytes_per_token"
+
+  # Calculate G2 (CPU) token size from DYN_KVBM_CPU_CACHE_GB environment variable
+  local g2_cache_gb=${DYN_KVBM_CPU_CACHE_GB:-0}
+  if [[ "$g2_cache_gb" != "0" && -n "$g2_cache_gb" ]]; then
+    # G2_tokens = (G2_GB * 1024^3) / bytes_per_token
+    g2_token_size=$(( (g2_cache_gb * 1024 * 1024 * 1024) / bytes_per_token ))
+    log "G2 (CPU) cache: $g2_cache_gb GB = $g2_token_size tokens"
+  else
+    log "G2 (CPU) cache not configured (DYN_KVBM_CPU_CACHE_GB not set)"
+  fi
+
+  # Calculate G3 (Disk) token size from DYN_KVBM_DISK_CACHE_GB environment variable
+  local g3_cache_gb=${DYN_KVBM_DISK_CACHE_GB:-0}
+  if [[ "$g3_cache_gb" != "0" && -n "$g3_cache_gb" ]]; then
+    # G3_tokens = (G3_GB * 1024^3) / bytes_per_token
+    g3_token_size=$(( (g3_cache_gb * 1024 * 1024 * 1024) / bytes_per_token ))
+    log "G3 (Disk) cache: $g3_cache_gb GB = $g3_token_size tokens"
+  else
+    log "G3 (Disk) cache not configured (DYN_KVBM_DISK_CACHE_GB not set)"
+  fi
+
+  kv_cache_token_size=$(( g1_token_size + g2_token_size ))
+
+  log "KV cache summary:"
+  log "  G1 (GPU):  $g1_token_size tokens (${g1_memory_per_gpu_gib} GiB/GPU x $tp_size GPUs = ${g1_memory_total_gib} GiB total)"
+  log "  G2 (CPU):  $g2_token_size tokens (${g2_cache_gb} GB)"
+  log "  G3 (Disk): $g3_token_size tokens (${g3_cache_gb} GB)"
+  log "  Total:     $kv_cache_token_size tokens"
+  log "  Bytes per token: $bytes_per_token"
+  return 0
+}
+
+function compute_kv_cache_token_size_from_query()
+{
+  # Fallback: compute by sending queries (original method)
+  local kv_cache_token_size_file=$result_dir/kv_cache_token_size.out
+  log "Computing KV cache token size via queries..."
+  python3 $client_script \
+      --model $model \
+      --url $url:$port/v1 \
+      --osl 10 \
+      --out $kv_cache_token_size_file \
+      --compute_kv_cache_token_size \
+      --num_filler_tokens $num_filler_tokens \
+      --max_filler_prompts 200 \
+      --min_filler_prompts 10
+
+  kv_cache_token_size=$(grep cache $kv_cache_token_size_file | cut -d':' -f 2 | tr -d ' ')
+  log "KV cache token size from queries: $kv_cache_token_size"
+}
+
+function compute_kv_cache_token_size()
+{
+  if [[ $kv_cache_token_size -gt 0 ]]; then
+    log "KV cache token size already provided: $kv_cache_token_size"
+    return
+  fi
+
+  # Try to get from log files first (faster, no queries needed)
+  if compute_kv_cache_token_size_from_log; then
+    log "Successfully computed KV cache token size from log files"
+  else
+    # Fallback to query-based method
+    log "Falling back to query-based KV cache token size computation"
+    compute_kv_cache_token_size_from_query
+  fi
+}
+
+function main()
+{
+  process_args "$@"
+
+  report_file=$result_dir/$report_name
+
+  compute_kv_cache_token_size
+  local num_filler_prompts=$(( 1 + (kv_cache_token_size / num_filler_tokens) ))
+
+  log "Dumping CSV header"
+  python3 $client_script --dump_csv_header --out $report_file
+
+  log "Launching KV storage workload with ISLs: $all_isl"
+  for isl in $(echo $all_isl | tr ',' '\n'); do
+    log "Launching KV storage workload with ISL: $isl"
+    python3 $client_script \
+      --model $model \
+      --url $url:$port/v1 \
+      --isl $isl \
+      --osl 1 \
+      --out $report_file \
+      --num_filler_prompts $num_filler_prompts \
+      --num_filler_tokens $num_filler_tokens
+
+    log "Sleeping for 5 seconds before clearing KV cache"
+    sleep 5
+    clear_kv_cache
+  done
+
+  log "Done with KV storage workload run"
+}
+
+main "$@"
diff --git a/src/cloudai/workloads/ai_dynamo/lmbench.sh b/src/cloudai/workloads/ai_dynamo/lmbench.sh
new file mode 100644
index 000000000..e37249b8b
--- /dev/null
+++ b/src/cloudai/workloads/ai_dynamo/lmbench.sh
@@ -0,0 +1,119 @@
+#! /bin/bash
+
+# Called as:
+    #   bash ./lmbench.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <lmbench-cmdline-args>
+
+# Simple log function
+log() {
+  echo "[$(date +%F\ %T) $(hostname)]: $*"
+}
+
+# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
+result_dir=""
+report_name="lmbench_report.csv"
+calc_percentile_csv_script="calc_percentile_csv.py"
+gpus_per_node=1
+lmbench_dir="/git/LMBenchmark"
+install_dir=""
+port=""
+cmd=""
+all_qps=""
+cmdline_args=()
+
+while [[ $# -gt 0 ]]; do
+  case "$1" in
+    --model)
+      model="$2"
+      shift 2
+      ;;
+    --url)
+      url="$2"
+      shift 2
+      ;;
+    --port)
+      port="$2"
+      shift 2
+      ;;
+    --install_dir)
+      install_dir="$2"
+      shift 2
+      ;;
+    --endpoint)
+      endpoint="$2"
+      shift 2
+      ;;
+    --result_dir)
+      result_dir="$2"
+      shift 2
+      ;;
+    --report_name)
+      report_name="$2"
+      shift 2
+      ;;
+    --extra_args)
+      extra_args="$2"
+      shift 2
+      ;;
+    --repo)
+      lmbench_dir="$2"
+      shift 2
+      ;;
+    --gpus_per_node)
+      gpus_per_node="$2"
+      shift 2
+      ;;
+    --cmd)
+      cmd="$2"
+      shift 2
+      ;;
+    --qps)
+      all_qps="$2"
+      shift 2
+      ;;
+    --)
+      shift
+      cmdline_args="$@"
+      break
+      ;;
+    --*)
+      shift 2
+      ;;
+    *)
+      shift
+      ;;
+  esac
+done
+
+pushd "$lmbench_dir" || { log "ERROR: Cannot cd to $lmbench_dir"; exit 1; }
+
+cmdline_args="${cmdline_args} ${extra_args}"
+# launch lmbench
+
+
+# run LMBenchmark, adjust the model name if you are using a different model
+# for detail how to config and run LMBenchmark: https://github.com/LMCache/LMBenchmark/tree/main/synthetic-multi-round-qa
+
+#export NUM_USERS_WARMUP="20"
+#export NUM_USERS="15"
+#export NUM_ROUNDS="20"
+#export SYSTEM_PROMPT="1000" # Shared system prompt length
+#export CHAT_HISTORY="7000" # User specific chat history length
+#export ANSWER_LEN="100" # Generation length per round
+#export INIT_USER_ID="1"
+#export TEST_DURATION="600" # Duration of the test in seconds
+
+log "Launching lmbench with args: $cmd $cmdline_args"
+
+artifacts_dir="${result_dir}/lmbench_artifacts"
+mkdir -p "$artifacts_dir"
+
+for qps in ${all_qps//,/ }; do
+    log "Launching lmbench with args: $cmd $cmdline_args --qps $qps --output $output_file"
+    output_file="${artifacts_dir}/lmbench_bench_output_${qps}.csv"
+    report_file="${result_dir}/${report_name//.csv/_${qps}.csv}"
+    eval "$cmd $cmdline_args --qps $qps --output $output_file" > "${artifacts_dir}/lmbench_bench_output_${qps}.log" 2>&1
+    python3 ${install_dir}/${calc_percentile_csv_script} --input $output_file --output ${report_file}
+done
+
+log "Done with lmbench run"
+popd
diff --git a/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py b/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
index d42582132..c9bef344b 100644
--- a/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -16,183 +16,52 @@
 
 from __future__ import annotations
 
-import csv
 import logging
-import shutil
 from pathlib import Path
-from typing import TYPE_CHECKING, ClassVar, cast
+from typing import TYPE_CHECKING
+
+import pandas as pd
 
 from cloudai.core import METRIC_ERROR, ReportGenerationStrategy
-from cloudai.systems.kubernetes.kubernetes_system import KubernetesSystem
-from cloudai.systems.slurm.slurm_system import SlurmSystem
 
 if TYPE_CHECKING:
-    from .ai_dynamo import AIDynamoTestDefinition
-
-CSV_FILES_PATTERN = "profile*_genai_perf.csv"
-JSON_FILES_PATTERN = "profile*_genai_perf.json"
+    pass
 
 
 class AIDynamoReportGenerationStrategy(ReportGenerationStrategy):
     """Strategy for generating reports from AI Dynamo run directories."""
 
-    metrics: ClassVar[list[str]] = [
-        "default",
-        "output-token-throughput",
-        "request-throughput",
-        "time-to-first-token",
-        "time-to-second-token",
-        "request-latency",
-        "inter-token-latency",
-    ]
-
-    def can_handle_directory(self) -> bool:
-        output_path = self.test_run.output_path
-        csv_files = list(output_path.rglob(CSV_FILES_PATTERN))
-        json_files = list(output_path.rglob(JSON_FILES_PATTERN))
-        logging.debug(f"Found CSV files: {csv_files}, JSON files: {json_files}")
-        return len(csv_files) > 0 and len(json_files) > 0
-
-    def _find_csv_file(self) -> Path | None:
-        output_path = self.test_run.output_path
-        if not output_path.exists() or not output_path.is_dir():
-            return None
-
-        csv_files = list(output_path.rglob(CSV_FILES_PATTERN))
-        if not csv_files or csv_files[0].stat().st_size == 0:
-            return None
-
-        return csv_files[0]
-
-    def _extract_metric_value(self, header: list[str], row: list[str], metric_idx: int) -> float | None:
-        if "Value" in header:
-            value_idx = header.index("Value")
-            return float(row[value_idx].replace(",", ""))
-        elif "avg" in header:
-            avg_idx = header.index("avg")
-            return float(row[avg_idx].replace(",", ""))
-        return None
-
-    def _find_metric_in_section(self, section: list[list[str]], metric_name: str) -> float | None:
-        if not section:
-            return None
-
-        header = section[0]
-        if "Metric" not in header:
-            return None
-
-        metric_idx = header.index("Metric")
-        for row in section[1:]:
-            if row[metric_idx] == metric_name:
-                return self._extract_metric_value(header, row, metric_idx)
-        return None
-
-    def _read_metric_from_csv(self, metric_name: str) -> float:
-        source_csv = self._find_csv_file()
-        if not source_csv:
+    def extract_metric_from_csv(self, csv_file: Path, metric_name: str, metric_type: str) -> float:
+        df = pd.read_csv(csv_file)
+        if metric_type not in df.columns:
+            logging.info(f"Metric type: {metric_type} not in CSV file: {df.columns}")
             return METRIC_ERROR
 
-        sections = self._read_csv_sections(source_csv)
-        for section in sections:
-            value = self._find_metric_in_section(section, metric_name)
-            if value is not None:
-                return value
+        if metric_name not in df["Metric"].values:
+            logging.info(f"Metric name: {metric_name} not in CSV file: {df['Metric'].values}")
+            return METRIC_ERROR
 
-        return METRIC_ERROR
+        return float(df[df["Metric"] == metric_name][metric_type].values[0])
 
     def get_metric(self, metric: str) -> float:
-        if metric not in self.metrics:
+        logging.info(f"Getting metric: {metric}")
+        benchmark_name = "genai_perf"
+        metric_name = metric
+        metric_type = "avg"
+
+        if ":" in metric:
+            benchmark_name, metric_name, metric_type = metric.split(":")
+
+        source_csv = self.test_run.output_path / f"{benchmark_name}_report.csv"
+        logging.info(f"CSV file: {source_csv}")
+        if not source_csv.exists() or source_csv.stat().st_size == 0:
+            logging.info(f"CSV file: {source_csv} does not exist or is empty")
             return METRIC_ERROR
 
-        metric_mapping = {
-            "default": "Output Token Throughput (tokens/sec)",
-            "output-token-throughput": "Output Token Throughput (tokens/sec)",
-            "request-throughput": "Request Throughput (per sec)",
-            "time-to-first-token": "Time To First Token (ms)",
-            "time-to-second-token": "Time To Second Token (ms)",
-            "request-latency": "Request Latency (ms)",
-            "inter-token-latency": "Inter Token Latency (ms)",
-        }
-
-        mapped_metric = metric_mapping.get(metric)
-        if not mapped_metric:
-            return METRIC_ERROR
+        return self.extract_metric_from_csv(source_csv, metric_name, metric_type)
 
-        return self._read_metric_from_csv(mapped_metric)
-
-    def _calculate_total_gpus(self) -> int | None:
-        gpus_per_node = None
-        if isinstance(self.system, (SlurmSystem, KubernetesSystem)):
-            gpus_per_node = self.system.gpus_per_node
-
-        if gpus_per_node is None:
-            return None
-
-        tdef = cast("AIDynamoTestDefinition", self.test_run.test)
-
-        num_frontend_nodes = 1
-        num_prefill_nodes = (
-            cast(int, tdef.cmd_args.dynamo.prefill_worker.num_nodes) if tdef.cmd_args.dynamo.prefill_worker else 0
-        )
-        num_decode_nodes = cast(int, tdef.cmd_args.dynamo.decode_worker.num_nodes)
-        return (num_frontend_nodes + num_prefill_nodes + num_decode_nodes) * gpus_per_node
-
-    def _read_csv_sections(self, source_csv: Path) -> list[list[list[str]]]:
-        sections = []
-        current_section = []
-
-        with open(source_csv, "r") as f:
-            csv_reader = csv.reader(f)
-            for row in csv_reader:
-                if not any(row):  # Empty row indicates section break
-                    if current_section:
-                        sections.append(current_section)
-                        current_section = []
-                else:
-                    current_section.append(row)
-            if current_section:
-                sections.append(current_section)
-
-        return sections
-
-    def _write_sections_with_metric(
-        self, target_csv: Path, sections: list[list[list[str]]], total_gpus: int | None
-    ) -> None:
-        with open(target_csv, "w", newline="") as f:
-            writer = csv.writer(f)
-
-            # Write first section (statistical metrics)
-            if sections:
-                for row in sections[0]:
-                    writer.writerow(row)
-                writer.writerow([])  # Empty row for section break
-
-            # Write second section with additional metric if total_gpus is available
-            if len(sections) > 1:
-                for row in sections[1]:
-                    writer.writerow(row)
-                    if total_gpus and row and row[0] == "Output Token Throughput (tokens/sec)":
-                        throughput = float(row[1].replace(",", ""))
-                        per_gpu_throughput = throughput / total_gpus
-                        writer.writerow(["Overall Output Tokens per Second per GPU", per_gpu_throughput])
-                writer.writerow([])  # Empty row for section break
-
-            # Write remaining sections
-            for section in sections[2:]:
-                for row in section:
-                    writer.writerow(row)
-                writer.writerow([])  # Empty row for section break
+    def can_handle_directory(self) -> bool:
+        return True
 
     def generate_report(self) -> None:
-        output_path = self.test_run.output_path
-        source_csv = next(output_path.rglob(CSV_FILES_PATTERN))
-        target_csv = output_path / "report.csv"
-
-        total_gpus = self._calculate_total_gpus()
-        if total_gpus is None:
-            logging.warning("gpus_per_node is None, skipping Overall Output Tokens per Second per GPU calculation.")
-            shutil.copy2(source_csv, target_csv)
-            return
-
-        sections = self._read_csv_sections(source_csv)
-        self._write_sections_with_metric(target_csv, sections, total_gpus)
+        pass
diff --git a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
index a0f21f331..16329ba66 100644
--- a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -14,7 +14,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from pathlib import Path
+import logging
+from pathlib import Path, PosixPath
 from typing import List, cast
 
 from cloudai.systems.slurm import SlurmCommandGenStrategy
@@ -28,31 +29,17 @@ class AIDynamoSlurmCommandGenStrategy(SlurmCommandGenStrategy):
     def _container_mounts(self) -> list[str]:
         td = cast(AIDynamoTestDefinition, self.test_run.test)
 
-        dynamo_repo_path = td.dynamo_repo.installed_path
-        if dynamo_repo_path is None:
-            raise ValueError("dynamo_repo_path is not set - repo may not be installed")
-        dynamo_repo_path = dynamo_repo_path.absolute()
+        result = list[str]()
 
-        mounts = [
-            f"{dynamo_repo_path}:{dynamo_repo_path}",
-            f"{self.system.hf_home_path.absolute()}:{td.cmd_args.huggingface_home_container_path}",
-            f"{td.script.installed_path.absolute()!s}:{td.script.installed_path.absolute()!s}",
-        ]
+        logging.info(f"hf_home_path: {td.cmd_args.hf_home_path}")
+        logging.info(f"storage_cache_dir: {td.cmd_args.storage_cache_dir}")
+        if td.cmd_args.hf_home_path:
+            result.append(f"{td.cmd_args.hf_home_path}:{td.cmd_args.hf_home_path}")
 
-        if td.cmd_args.dynamo.backend == "sglang":
-            deepep_path = (
-                dynamo_repo_path / "components/backends/sglang/configs/deepseek_r1/wideep/deepep.json"
-            ).absolute()
-            sgl_http_server_path = (
-                dynamo_repo_path / "components/backends/sglang/src/dynamo/sglang/utils/sgl_http_server.py"
-            ).absolute()
-            mounts.extend(
-                [
-                    f"{deepep_path!s}:{deepep_path!s}",
-                    f"{sgl_http_server_path!s}:{sgl_http_server_path!s}",
-                ]
-            )
-        return mounts
+        if td.cmd_args.storage_cache_dir:
+            result.append(f"{td.cmd_args.storage_cache_dir}:{td.cmd_args.storage_cache_dir}")
+
+        return result
 
     def image_path(self) -> str | None:
         tdef: AIDynamoTestDefinition = cast(AIDynamoTestDefinition, self.test_run.test)
@@ -64,15 +51,41 @@ def _get_toml_args(self, base_model: BaseModel, prefix: str, exclude: List[str]
         args = []
         exclude = exclude or []
         toml_args = base_model.model_dump(by_alias=True, exclude=set(exclude), exclude_none=True)
-        args = [f'{prefix}{k} "{v}"' for k, v in toml_args.items()]
+        for k, v in toml_args.items():
+            if isinstance(v, dict):
+                if "url" in v and "commit" in v and "mount_as" in v:
+                    args.extend([f'{prefix}{k} "{v["mount_as"]}"'])
+                elif "src" in v and isinstance(v["src"], PosixPath):
+                    args.extend([f'{prefix}{k} "{v["src"].name}"'])
+                else:
+                    args.append(f'{prefix}{k} "{v}"')
+            else:
+                args.append(f'{prefix}{k} "{v}"')
 
         return args
 
+    def _get_nested_toml_args(self, base_model: BaseModel, prefix: str) -> List[str]:
+        result = self._get_toml_args(base_model, prefix, exclude=["args"])
+
+        if hasattr(base_model, "args") and (nested_args := getattr(base_model, "args", None)) is not None:
+            result.extend(self._get_toml_args(nested_args, prefix + "args-"))
+
+        return result
+
     def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
         args = [
-            f"--huggingface-home {td.cmd_args.huggingface_home_container_path}",
-            "--results-dir /cloudai_run_results",
+            "--user $USER",
+            f"--install-dir {self.container_install_path}",
+            f"--results-dir {self.container_results_path}",
+            f"--dynamo-repo {td.dynamo_repo.container_mount}",
+            f"--workloads {td.cmd_args.workloads}",
+            f"--failure-marker {self.container_results_path}/{td.failure_marker()}",
+            f"--success-marker {self.container_results_path}/{td.success_marker()}",
         ]
+        if td.cmd_args.hf_home_path:
+            args.append(f"--hf-home {td.cmd_args.hf_home_path}")
+        if td.cmd_args.storage_cache_dir:
+            args.append(f"--storage-cache-dir {td.cmd_args.storage_cache_dir}")
         args.extend(
             self._get_toml_args(
                 td.cmd_args.dynamo,
@@ -80,31 +93,17 @@ def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
                 exclude=[
                     "prefill_worker",
                     "decode_worker",
-                    "genai_perf",
-                    "workspace_path",
-                    "decode_cmd",
-                    "prefill_cmd",
                 ],
             )
         )
 
         # Add backend-specific args
         if td.cmd_args.dynamo.backend == "sglang":
-            dynamo_repo_path = td.dynamo_repo.installed_path
-            if dynamo_repo_path is None:
-                raise ValueError("dynamo_repo_path is not set - repo may not be installed")
-
-            deepep_path = getattr(td.cmd_args.dynamo, "deepep_path", None)
-            if not deepep_path:
-                deepep_path = (
-                    dynamo_repo_path / "components/backends/sglang/configs/deepseek_r1/wideep/deepep.json"
-                ).absolute()
-            else:
-                deepep_path = Path(deepep_path).absolute()
-
+            dynamo_repo_path = td.dynamo_repo.container_mount
+            deepep_path = f"{dynamo_repo_path}/components/backends/sglang/configs/deepseek_r1/wideep/deepep.json"
             sgl_http_server_path = (
-                dynamo_repo_path / "components/backends/sglang/src/dynamo/sglang/utils/sgl_http_server.py"
-            ).absolute()
+                f"{dynamo_repo_path}/components/backends/sglang/src/dynamo/sglang/utils/sgl_http_server.py"
+            )
 
             args.extend(
                 [
@@ -114,9 +113,14 @@ def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
             )
 
         if td.cmd_args.dynamo.prefill_worker:
-            args.extend(self._get_toml_args(td.cmd_args.dynamo.prefill_worker, "--prefill-"))
-        args.extend(self._get_toml_args(td.cmd_args.dynamo.decode_worker, "--decode-"))
-        args.extend(self._get_toml_args(td.cmd_args.genai_perf, "--genai-perf-"))
+            args.extend(self._get_nested_toml_args(td.cmd_args.dynamo.prefill_worker, "--prefill-"))
+        args.extend(self._get_nested_toml_args(td.cmd_args.dynamo.decode_worker, "--decode-"))
+
+        args.extend(self._get_nested_toml_args(td.cmd_args.lmcache, "--lmcache-"))
+        args.extend(self._get_nested_toml_args(td.cmd_args.genai_perf, "--genai_perf-"))
+        args.extend(self._get_nested_toml_args(td.cmd_args.aiperf, "--aiperf-"))
+        args.extend(self._get_nested_toml_args(td.cmd_args.lmbench, "--lmbench-"))
+        args.extend(self._get_nested_toml_args(td.cmd_args.kvstorage, "--kvstorage-"))
 
         return args
 
@@ -124,9 +128,7 @@ def _gen_srun_command(self) -> str:
         td = cast(AIDynamoTestDefinition, self.test_run.test)
         num_nodes, node_list = self.get_cached_nodes_spec()
 
-        fatal_file_name = "fatal_error.marker"
         out_dir = self.test_run.output_path.absolute()
-        fatal_path = f"{out_dir}/{fatal_file_name}"
 
         srun_cmd = self.gen_srun_prefix()
         srun_cmd.extend(
@@ -135,35 +137,15 @@ def _gen_srun_command(self) -> str:
                 *([] if not node_list else [f"--nodelist={','.join(node_list)}"]),
                 f"--ntasks={num_nodes}",
                 "--ntasks-per-node=1",
-                f"--export=ALL,DYNAMO_FATAL_ERROR_FILE={fatal_file_name}",
+                "--export=ALL",
                 f"--output={out_dir / 'node-%n-stdout.txt'}",
                 f"--error={out_dir / 'node-%n-stderr.txt'}",
                 "bash",
-                f"{td.script.installed_path.absolute()!s}",
+                f"{self.container_install_path}/{td.script.src.name}",
             ]
         )
         srun_cmd.extend(self._gen_script_args(td))
-        srun_line = " \\\n  ".join(srun_cmd)
-
-        wrapper = [
-            "num_retries=${DYNAMO_NUM_RETRY_ON_FAILURE:-0}",
-            "for try in $(seq 0 $num_retries); do",
-            '  echo "Try $try of $num_retries"',
-            f"  rm -f {fatal_path} 2>/dev/null || true",
-            f"  {srun_line}",
-            f"  if [ $try -eq $num_retries ] || [ ! -f {fatal_path} ]; then",
-            "    break",
-            "  fi",
-            '  echo "Fatal error detected. Archiving logs then retrying..."',
-            f"  mkdir -p {out_dir}/error.$try",
-            f"  mv {out_dir}/*.log {out_dir}/error.$try/ 2>/dev/null || true",
-            f"  mv {out_dir}/node-*-stdout.txt {out_dir}/error.$try/ 2>/dev/null || true",
-            f"  mv {out_dir}/node-*-stderr.txt {out_dir}/error.$try/ 2>/dev/null || true",
-            f"  mv {fatal_path} {out_dir}/error.$try/ 2>/dev/null || true",
-            "  sleep ${DYNAMO_RETRY_BACKOFF_SEC:-10}",
-            "done",
-        ]
-        return "\n".join(wrapper)
+        return " \\\n  ".join(srun_cmd) + "\n"
 
     def _validate_worker_nodes(
         self, node_list: list[str], worker_nodes: str | None, num_nodes: int, worker_type: str
@@ -209,8 +191,8 @@ def get_cached_nodes_spec(self) -> tuple[int, list[str]]:
         decode_n = td.cmd_args.dynamo.decode_worker.num_nodes
         decode_nodes = td.cmd_args.dynamo.decode_worker.nodes
 
-        assert isinstance(prefill_n, int), "prefill_worker.num_nodes must be an integer"
-        assert isinstance(decode_n, int), "decode_worker.num_nodes must be an integer"
+        assert isinstance(prefill_n, int), "dynamo.num_prefill_nodes must be an integer"
+        assert isinstance(decode_n, int), "dynamo.num_decode_nodes must be an integer"
 
         if prefill_nodes and decode_nodes:
             self.test_run.nodes = prefill_nodes.split(",") + decode_nodes.split(",") + self.test_run.nodes
@@ -222,6 +204,10 @@ def get_cached_nodes_spec(self) -> tuple[int, list[str]]:
 
         total_nodes = prefill_n + decode_n
 
+        logging.info("Setting num_nodes from %d to %d", self.test_run.num_nodes, total_nodes)
+
+        self.test_run.num_nodes = total_nodes
+
         requested_nodes, node_list = self.system.get_nodes_by_spec(self.test_run.nnodes, self.test_run.nodes)
 
         if prefill_nodes or decode_nodes:
diff --git a/tests/ref_data/ai-dynamo.sbatch b/tests/ref_data/ai-dynamo.sbatch
index 61a6e1df3..332a0b0ac 100644
--- a/tests/ref_data/ai-dynamo.sbatch
+++ b/tests/ref_data/ai-dynamo.sbatch
@@ -10,51 +10,74 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:__INSTALL_DIR__,__INSTALL_DIR__/huggingface:/root/.cache/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh:__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:__INSTALL_DIR__,__INSTALL_DIR__/huggingface:/root/.cache/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh:__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
 
-num_retries=${DYNAMO_NUM_RETRY_ON_FAILURE:-0}
-for try in $(seq 0 $num_retries); do
-  echo "Try $try of $num_retries"
-  rm -f __OUTPUT_DIR__/output/fatal_error.marker 2>/dev/null || true
-  srun \
+srun \
   --export=ALL \
   --mpi=pmix \
   -N2 \
   --container-image=nvcr.io/nvidia/ai-dynamo:24.09 \
-  --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:__INSTALL_DIR__,__INSTALL_DIR__/huggingface:/root/.cache/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh:__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh \
+  --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home \
   --nodes=2 \
   --ntasks=2 \
   --ntasks-per-node=1 \
-  --export=ALL,DYNAMO_FATAL_ERROR_FILE=fatal_error.marker \
+  --export=ALL \
   --output=__OUTPUT_DIR__/output/node-%n-stdout.txt \
   --error=__OUTPUT_DIR__/output/node-%n-stderr.txt \
   bash \
-  __CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh \
-  --huggingface-home /root/.cache/huggingface \
+  /cloudai_install/ai_dynamo.sh \
+  --user $USER \
+  --install-dir /cloudai_install \
+  --huggingface-home /workspace/hf_home \
   --results-dir /cloudai_run_results \
+  --dynamo-repo /git/dynamo \
   --dynamo-model "model" \
   --dynamo-backend "vllm" \
+  --dynamo-workspace-path "/workspace" \
+  --dynamo-port "8000" \
+  --dynamo-etcd-port "2379" \
+  --dynamo-nats-port "4222" \
+  --dynamo-decode-cmd "python3 -m dynamo.vllm" \
+  --dynamo-prefill-cmd "python3 -m dynamo.vllm --is-prefill-worker" \
   --prefill-num-nodes "1" \
   --prefill-ServiceArgs "{'workers': 1, 'resources': {'gpu': '8'}}" \
   --decode-num-nodes "1" \
   --decode-ServiceArgs "{'workers': 1, 'resources': {'gpu': '8'}}" \
-  --genai-perf-streaming "True" \
-  --genai-perf-extra-inputs "{"temperature": 0.7, "max_tokens": 128}" \
-  --genai-perf-output-tokens-mean "128" \
-  --genai-perf-random-seed "42" \
-  --genai-perf-request-count "100" \
-  --genai-perf-synthetic-input-tokens-mean "550" \
-  --genai-perf-warmup-request-count "10"
-  if [ $try -eq $num_retries ] || [ ! -f __OUTPUT_DIR__/output/fatal_error.marker ]; then
-    break
-  fi
-  echo "Fatal error detected. Archiving logs then retrying..."
-  mkdir -p __OUTPUT_DIR__/output/error.$try
-  mv __OUTPUT_DIR__/output/*.log __OUTPUT_DIR__/output/error.$try/ 2>/dev/null || true
-  mv __OUTPUT_DIR__/output/node-*-stdout.txt __OUTPUT_DIR__/output/error.$try/ 2>/dev/null || true
-  mv __OUTPUT_DIR__/output/node-*-stderr.txt __OUTPUT_DIR__/output/error.$try/ 2>/dev/null || true
-  mv __OUTPUT_DIR__/output/fatal_error.marker __OUTPUT_DIR__/output/error.$try/ 2>/dev/null || true
-  sleep ${DYNAMO_RETRY_BACKOFF_SEC:-10}
-done
\ No newline at end of file
+  --lmcache-controller_cmd "lmcache_controller --host localhost --port 9000 --monitor-port 9001" \
+  --lmcache-repo "/git/LMCache" \
+  --lmcache-args-chunk_size "256" \
+  --lmcache-args-local_cpu "False" \
+  --lmcache-args-nixl_buffer_size "10737418240" \
+  --lmcache-args-nixl_buffer_device "cuda" \
+  --lmcache-args-extra_config_enable_nixl_storage "True" \
+  --lmcache-args-extra_config_nixl_backend "GDS_MT" \
+  --lmcache-args-extra_config_nixl_file_pool_size "64" \
+  --lmcache-args-extra_config_nixl_path "%CACHEDIR%" \
+  --lmcache-args-enable_controller "True" \
+  --lmcache-args-lmcache_instance_id "lmcache_default_instance" \
+  --lmcache-args-controller_url "localhost:9001" \
+  --lmcache-args-lmcache_worker_port "8788" \
+  --lmcache-args-distributed_url "localhost:8789" \
+  --genai_perf-name "genai_perf" \
+  --genai_perf-cmd "genai-perf profile" \
+  --genai_perf-script "genai_perf.sh" \
+  --genai_perf-report-name "genai_perf_report.csv" \
+  --genai_perf-streaming "True" \
+  --genai_perf-extra-inputs "{"temperature": 0.7, "max_tokens": 128}" \
+  --genai_perf-output-tokens-mean "128" \
+  --genai_perf-random-seed "42" \
+  --genai_perf-request-count "100" \
+  --genai_perf-synthetic-input-tokens-mean "550" \
+  --genai_perf-warmup-request-count "10" \
+  --lmbench-name "lmbench" \
+  --lmbench-cmd "python3 ./synthetic-multi-round-qa/multi-round-qa.py" \
+  --lmbench-script "lmbench.sh" \
+  --lmbench-report-name "lmbench_report.csv" \
+  --lmbench-repo "/git/LMBenchmark" \
+  --lmbench-qps "0.25,0.5,0.75,1.0,1.25,1.5,1.75,2.0" \
+  --custom_workload-name "custom_workload" \
+  --custom_workload-cmd "hostname" \
+  --custom_workload-script "custom_workload.sh" \
+  --custom_workload-report-name "custom_workload_report.csv"
\ No newline at end of file
diff --git a/tests/test_acceptance.py b/tests/test_acceptance.py
index 360918555..387a83220 100644
--- a/tests/test_acceptance.py
+++ b/tests/test_acceptance.py
@@ -33,9 +33,12 @@
     AIDynamoArgs,
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
-    DecodeWorkerArgs,
-    GenAIPerfArgs,
-    PrefillWorkerArgs,
+    GenAIPerf,
+    LMBench,
+    LMCache,
+    LMCacheArgs,
+    WorkerBaseArgs,
+    WorkerConfig,
 )
 from cloudai.workloads.ddlb import DDLBCmdArgs, DDLBTestDefinition
 from cloudai.workloads.deepep import (
@@ -449,6 +452,7 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                     url="https://github.com/ai-dynamo/dynamo.git",
                     commit="f7e468c7e8ff0d1426db987564e60572167e8464",
                     installed_path=slurm_system.install_path,
+                    mount_as="/git/dynamo",
                 ),
                 cmd_args=AIDynamoCmdArgs(
                     docker_image_url="nvcr.io/nvidia/ai-dynamo:24.09",
@@ -456,20 +460,22 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                         model="model",
                         backend="vllm",
                         workspace_path="/workspace",
-                        prefill_worker=PrefillWorkerArgs(
+                        prefill_worker=WorkerConfig(
                             **{
                                 "num-nodes": 1,
+                                "args": WorkerBaseArgs(),
                                 "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                             }
                         ),
-                        decode_worker=DecodeWorkerArgs(
+                        decode_worker=WorkerConfig(
                             **{
                                 "num-nodes": 1,
+                                "args": WorkerBaseArgs(),
                                 "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                             }
                         ),
                     ),
-                    genai_perf=GenAIPerfArgs(
+                    genai_perf=GenAIPerf(
                         **{
                             "streaming": True,
                             "extra-inputs": '{"temperature": 0.7, "max_tokens": 128}',
@@ -480,6 +486,8 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                             "warmup-request-count": 10,
                         }
                     ),
+                    lmcache=LMCache(args=LMCacheArgs()),
+                    lmbench=LMBench(),
                 ),
             ),
         ),
diff --git a/tests/test_calc_percentile_csv.py b/tests/test_calc_percentile_csv.py
new file mode 100644
index 000000000..f67b2f798
--- /dev/null
+++ b/tests/test_calc_percentile_csv.py
@@ -0,0 +1,92 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import math
+
+import pytest
+
+from cloudai.workloads.ai_dynamo.calc_percentile_csv import compute_percentile, parse_float_safe, summarize
+
+
+def test_compute_percentile_empty():
+    assert math.isnan(compute_percentile([], 50))
+
+
+def test_compute_percentile_single_value():
+    assert compute_percentile([5.0], 50) == 5.0
+    assert compute_percentile([5.0], 0) == 5.0
+    assert compute_percentile([5.0], 100) == 5.0
+
+
+def test_compute_percentile_multiple_values():
+    values = [1.0, 2.0, 3.0, 4.0, 5.0]
+    assert compute_percentile(values, 0) == 1.0
+    assert compute_percentile(values, 50) == 3.0
+    assert compute_percentile(values, 100) == 5.0
+
+
+def test_compute_percentile_interpolation():
+    values = [1.0, 2.0, 3.0, 4.0]
+    # Should interpolate between values
+    result = compute_percentile(values, 50)
+    assert 2.0 <= result <= 3.0
+
+
+def test_parse_float_safe_valid():
+    assert parse_float_safe("3.14") == 3.14
+    assert parse_float_safe(42) == 42.0
+    assert parse_float_safe(3.14) == 3.14
+
+
+def test_parse_float_safe_invalid():
+    assert math.isnan(parse_float_safe("invalid"))
+    assert math.isnan(parse_float_safe(None))
+    assert math.isnan(parse_float_safe(""))
+
+
+def test_summarize_empty():
+    result = summarize([])
+    assert math.isnan(result["avg"])
+    assert math.isnan(result["min"])
+    assert math.isnan(result["max"])
+    assert math.isnan(result["p50"])
+
+
+def test_summarize_single_value():
+    result = summarize([10.0])
+    assert result["avg"] == 10.0
+    assert result["min"] == 10.0
+    assert result["max"] == 10.0
+    assert result["p50"] == 10.0
+
+
+def test_summarize_multiple_values():
+    values = [1.0, 2.0, 3.0, 4.0, 5.0]
+    result = summarize(values)
+    assert result["avg"] == 3.0
+    assert result["min"] == 1.0
+    assert result["max"] == 5.0
+    assert result["p50"] == 3.0
+    assert result["p25"] == 2.0
+    assert result["p75"] == 4.0
+
+
+def test_summarize_percentiles():
+    values = [float(x) for x in range(1, 101)]  # 1 to 100
+    result = summarize(values)
+    assert result["p1"] == pytest.approx(1.99, abs=0.1)
+    assert result["p99"] == pytest.approx(99.01, abs=0.1)
+    assert result["p50"] == pytest.approx(50.5, abs=0.1)
diff --git a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
index 0ef72477d..35c5a90f6 100644
--- a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
+++ b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
@@ -26,9 +26,12 @@
     AIDynamoCmdArgs,
     AIDynamoSlurmCommandGenStrategy,
     AIDynamoTestDefinition,
-    DecodeWorkerArgs,
-    GenAIPerfArgs,
-    PrefillWorkerArgs,
+    GenAIPerf,
+    LMBench,
+    LMCache,
+    LMCacheArgs,
+    WorkerBaseArgs,
+    WorkerConfig,
 )
 
 
@@ -36,28 +39,35 @@
 def cmd_args() -> AIDynamoCmdArgs:
     return AIDynamoCmdArgs(
         docker_image_url="url",
-        huggingface_home_container_path=Path("/root/.cache/huggingface"),
         dynamo=AIDynamoArgs(
             model="model",
             workspace_path="/workspace",
-            prefill_worker=PrefillWorkerArgs(
+            prefill_worker=WorkerConfig(
                 **{
                     "num-nodes": 1,
-                    "gpu-memory-utilization": 0.95,
-                    "tensor-parallel-size": 8,
+                    "args": WorkerBaseArgs(
+                        **{
+                            "gpu-memory-utilization": 0.95,
+                            "tensor-parallel-size": 8,
+                        }
+                    ),
                     "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                 }
             ),
-            decode_worker=DecodeWorkerArgs(
+            decode_worker=WorkerConfig(
                 **{
                     "num-nodes": 1,
-                    "gpu-memory-utilization": 0.95,
-                    "tensor-parallel-size": 8,
+                    "args": WorkerBaseArgs(
+                        **{
+                            "gpu-memory-utilization": 0.95,
+                            "tensor-parallel-size": 8,
+                        }
+                    ),
                     "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                 }
             ),
         ),
-        genai_perf=GenAIPerfArgs(
+        genai_perf=GenAIPerf(
             **{
                 "endpoint-type": "chat",
                 "streaming": True,
@@ -72,6 +82,8 @@ def cmd_args() -> AIDynamoCmdArgs:
                 "request-count": 10,
             }
         ),
+        lmcache=LMCache(args=LMCacheArgs()),
+        lmbench=LMBench(),
     )
 
 
@@ -99,13 +111,10 @@ def strategy(slurm_system: SlurmSystem, test_run: TestRun) -> AIDynamoSlurmComma
 def test_container_mounts(strategy: AIDynamoSlurmCommandGenStrategy, test_run: TestRun) -> None:
     mounts = strategy._container_mounts()
     td = cast(AIDynamoTestDefinition, test_run.test)
-    dynamo_repo_path = td.dynamo_repo.installed_path
-    assert dynamo_repo_path is not None, "dynamo_repo_path should be set in the test fixture"
 
+    # _container_mounts returns custom mounts including scripts and HF home (git repos are handled by base class)
     assert mounts == [
-        f"{dynamo_repo_path!s}:{dynamo_repo_path!s}",
-        f"{strategy.system.hf_home_path.absolute()!s}:{td.cmd_args.huggingface_home_container_path!s}",
-        f"{td.script.installed_path.absolute()!s}:{td.script.installed_path.absolute()!s}",
+        f"{strategy.system.hf_home_path.absolute()!s}:{td.cmd_args.dynamo.workspace_path}/hf_home",
     ]
 
 
diff --git a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
index 1f947fce9..135d773b2 100644
--- a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
+++ b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
@@ -27,9 +27,12 @@
     AIDynamoCmdArgs,
     AIDynamoKubernetesJsonGenStrategy,
     AIDynamoTestDefinition,
-    DecodeWorkerArgs,
-    GenAIPerfArgs,
-    PrefillWorkerArgs,
+    GenAIPerf,
+    LMBench,
+    LMCache,
+    LMCacheArgs,
+    WorkerBaseArgs,
+    WorkerConfig,
 )
 
 
@@ -42,16 +45,20 @@ def dynamo(request: Any) -> AIDynamoTestDefinition:
         cmd_args=AIDynamoCmdArgs(
             docker_image_url="nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.6.1.post1",
             dynamo=AIDynamoArgs(
-                decode_worker=DecodeWorkerArgs(
-                    num_nodes=2, data_parallel_size=1, tensor_parallel_size=1, extra_args="--extra-decode-arg v"
+                decode_worker=WorkerConfig(
+                    num_nodes=2,
+                    args=WorkerBaseArgs(data_parallel_size=1, tensor_parallel_size=1),
+                    extra_args="--extra-decode-arg v",
                 )
             ),
-            genai_perf=GenAIPerfArgs(),
+            genai_perf=GenAIPerf(),
+            lmcache=LMCache(args=LMCacheArgs()),
+            lmbench=LMBench(),
         ),
     )
     if request.param == "disagg":
-        dynamo.cmd_args.dynamo.prefill_worker = PrefillWorkerArgs(
-            num_nodes=3, tensor_parallel_size=1, extra_args="--extra-prefill-arg v"
+        dynamo.cmd_args.dynamo.prefill_worker = WorkerConfig(
+            num_nodes=3, args=WorkerBaseArgs(tensor_parallel_size=1), extra_args="--extra-prefill-arg v"
         )
 
     return dynamo
@@ -94,7 +101,7 @@ def test_gen_decode(json_gen: AIDynamoKubernetesJsonGenStrategy) -> None:
         assert decode.get("subComponentType") == "decode-worker"
         args.append("--is-decode-worker")
 
-    for arg, value in dynamo_args_dict(tdef.cmd_args.dynamo.decode_worker).items():
+    for arg, value in dynamo_args_dict(tdef.cmd_args.dynamo.decode_worker.args).items():
         args.extend([json_gen._to_dynamo_arg(arg), str(value)])
     if tdef.cmd_args.dynamo.decode_worker.extra_args:
         args.append(f"{tdef.cmd_args.dynamo.decode_worker.extra_args}")
@@ -139,7 +146,7 @@ def test_gen_prefill(json_gen: AIDynamoKubernetesJsonGenStrategy) -> None:
     assert prefill.get("subComponentType") == "prefill"
 
     args = ["--model", tdef.cmd_args.dynamo.model, "--is-prefill-worker"]
-    for arg, value in dynamo_args_dict(tdef.cmd_args.dynamo.prefill_worker).items():
+    for arg, value in dynamo_args_dict(tdef.cmd_args.dynamo.prefill_worker.args).items():
         args.extend([json_gen._to_dynamo_arg(arg), str(value)])
     if tdef.cmd_args.dynamo.prefill_worker.extra_args:
         args.append(f"{tdef.cmd_args.dynamo.prefill_worker.extra_args}")
diff --git a/tests/workloads/ai_dynamo/test_report_gen_strategy.py b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
index a3d71923f..28b08020d 100644
--- a/tests/workloads/ai_dynamo/test_report_gen_strategy.py
+++ b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
@@ -25,8 +25,12 @@
     AIDynamoArgs,
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
-    GenAIPerfArgs,
-    PrefillWorkerArgs,
+    GenAIPerf,
+    LMBench,
+    LMCache,
+    LMCacheArgs,
+    WorkerBaseArgs,
+    WorkerConfig,
 )
 from cloudai.workloads.ai_dynamo.report_generation_strategy import AIDynamoReportGenerationStrategy
 
@@ -41,17 +45,6 @@ def get_csv_content() -> str:
         "Inter Token Latency (ms),12.34,23.45,34.56,45.67,56.78,67.89,78.90,89.01,90.12\n"
         "Output Sequence Length (tokens),101.01,202.02,303.03,404.04,505.05,606.06,707.07,808.08,909.09\n"
         "Input Sequence Length (tokens),123.45,234.56,345.67,456.78,567.89,678.90,789.01,890.12,901.23\n"
-        "\n"
-        "Metric,Value\n"
-        "Output Token Throughput (tokens/sec),24\n"
-        "Request Throughput (per sec),1.23\n"
-        "Request Count (count),40.00\n"
-        "\n"
-        "Metric,GPU,avg,min,max,p99,p95,p90,p75,p50,p25\n"
-        "GPU Power Usage (W),0,119.93,117.61,120.81,120.81,120.81,120.81,120.81,120.60,119.85\n"
-        "GPU Power Usage (W),1,120.50,120.49,120.52,120.52,120.52,120.52,120.52,120.50,120.49\n"
-        "GPU Memory Used (GB),0,84.11,82.41,84.68,84.68,84.68,84.68,84.68,84.67,84.11\n"
-        "GPU Memory Used (GB),1,82.44,82.44,82.44,82.44,82.44,82.44,82.44,82.44,82.44\n"
     )
 
 
@@ -63,13 +56,18 @@ def ai_dynamo_tr(tmp_path: Path) -> TestRun:
         test_template_name="t",
         cmd_args=AIDynamoCmdArgs(
             docker_image_url="http://url",
-            dynamo=AIDynamoArgs(prefill_worker=PrefillWorkerArgs()),
-            genai_perf=GenAIPerfArgs(),
+            dynamo=AIDynamoArgs(prefill_worker=WorkerConfig(args=WorkerBaseArgs())),
+            genai_perf=GenAIPerf(),
+            lmcache=LMCache(args=LMCacheArgs()),
+            lmbench=LMBench(),
         ),
     )
     tr = TestRun(name="ai_dynamo", test=test, num_nodes=1, nodes=[], output_path=tmp_path)
 
     csv_content = get_csv_content()
+    # Create CSV file with the name expected by the new implementation
+    (tr.output_path / "genai_perf_report.csv").write_text(csv_content)
+    # Also create the file pattern expected by was_run_successful
     (tr.output_path / "profile_genai_perf.csv").write_text(csv_content)
     (tr.output_path / "profile_genai_perf.json").write_text("mock json content")
 
@@ -88,54 +86,28 @@ def test_ai_dynamo_can_handle_directory(slurm_system: SlurmSystem, ai_dynamo_tr:
 
 def test_ai_dynamo_generate_report(slurm_system: SlurmSystem, ai_dynamo_tr: TestRun, csv_content: str) -> None:
     strategy = AIDynamoReportGenerationStrategy(slurm_system, ai_dynamo_tr)
+    # The new implementation does not generate a report file
     strategy.generate_report()
-
-    report_file = ai_dynamo_tr.output_path / "report.csv"
-    assert report_file.is_file(), "Report CSV was not generated."
-
-    report_content = report_file.read_text()
-
-    def split_into_sections(content: str) -> list[str]:
-        sections = content.split("\n\n")
-        return [s.strip() for s in sections if s.strip()]
-
-    def normalize_csv_section(section: str) -> str:
-        return section.replace('"', "").strip()
-
-    actual_sections = [normalize_csv_section(s) for s in split_into_sections(report_content)]
-    expected_sections = [normalize_csv_section(s) for s in split_into_sections(csv_content)]
-
-    # First section should match after normalization
-    assert actual_sections[0] == expected_sections[0], "First section (metrics) does not match"
-
-    # Second section should have our additional metric
-    second_section_lines = actual_sections[1].split("\n")
-    assert second_section_lines[0] == "Metric,Value", "Second section header does not match"
-    assert second_section_lines[1] == "Output Token Throughput (tokens/sec),24", "Throughput line does not match"
-    assert second_section_lines[2] == "Overall Output Tokens per Second per GPU,1.0", "Added metric line is incorrect"
-    assert second_section_lines[3:] == ["Request Throughput (per sec),1.23", "Request Count (count),40.00"], (
-        "Remaining lines do not match"
-    )
-
-    # Third section (GPU metrics) should be identical
-    assert actual_sections[2] == expected_sections[2], "Third section (GPU metrics) does not match"
+    # Just verify the method runs without error
+    assert True
 
 
 def test_ai_dynamo_get_metric_single_values(slurm_system: SlurmSystem, ai_dynamo_tr: TestRun) -> None:
     strategy = AIDynamoReportGenerationStrategy(slurm_system, ai_dynamo_tr)
 
-    assert strategy.get_metric("output-token-throughput") == 24.0
-    assert strategy.get_metric("request-throughput") == 1.23
-    assert strategy.get_metric("default") == 24.0
+    # Test that metrics from the first CSV section work
+    assert strategy.get_metric("Output Sequence Length (tokens)") == 101.01
+    assert strategy.get_metric("Input Sequence Length (tokens)") == 123.45
 
 
 def test_ai_dynamo_get_metric_statistical_values(slurm_system: SlurmSystem, ai_dynamo_tr: TestRun) -> None:
     strategy = AIDynamoReportGenerationStrategy(slurm_system, ai_dynamo_tr)
 
-    assert strategy.get_metric("time-to-first-token") == 111.12
-    assert strategy.get_metric("time-to-second-token") == 11.13
-    assert strategy.get_metric("request-latency") == 1111.14
-    assert strategy.get_metric("inter-token-latency") == 12.34
+    # Use exact metric names from CSV (with avg column, which is default)
+    assert strategy.get_metric("Time To First Token (ms)") == 111.12
+    assert strategy.get_metric("Time To Second Token (ms)") == 11.13
+    assert strategy.get_metric("Request Latency (ms)") == 1111.14
+    assert strategy.get_metric("Inter Token Latency (ms)") == 12.34
 
 
 def test_ai_dynamo_get_metric_invalid(slurm_system: SlurmSystem, ai_dynamo_tr: TestRun) -> None:
@@ -143,8 +115,9 @@ def test_ai_dynamo_get_metric_invalid(slurm_system: SlurmSystem, ai_dynamo_tr: T
 
     assert strategy.get_metric("invalid-metric") == METRIC_ERROR
 
-    (ai_dynamo_tr.output_path / "profile_genai_perf.csv").write_text("")
-    assert strategy.get_metric("default") == METRIC_ERROR
+    # Empty the CSV file to test error handling
+    (ai_dynamo_tr.output_path / "genai_perf-report.csv").write_text("")
+    assert strategy.get_metric("invalid-metric") == METRIC_ERROR
 
 
 def test_was_run_successful(ai_dynamo_tr: TestRun) -> None:

From 0a1d1c3838bc9b27fcd10916295d0b53378fef2e Mon Sep 17 00:00:00 2001
From: Kapil Arya <kapila@nvidia.com>
Date: Thu, 19 Feb 2026 10:56:21 -0800
Subject: [PATCH 2/5] Removed aiperf, lmbench, and kvstorage.

---
 conf/experimental/ai_dynamo/test/sglang.toml  |  65 +---
 conf/experimental/ai_dynamo/test/vllm.toml    |  65 +---
 .../ai_dynamo/test_scenario/sglang_slurm.toml |   2 +-
 .../test_scenario/vllm_kvbm_slurm.toml        |   2 +-
 .../systems/kubernetes/kubernetes_system.py   |   9 -
 src/cloudai/workloads/ai_dynamo/__init__.py   |   2 -
 src/cloudai/workloads/ai_dynamo/ai_dynamo.py  | 182 +--------
 src/cloudai/workloads/ai_dynamo/ai_dynamo.sh  |  51 +--
 src/cloudai/workloads/ai_dynamo/aiperf.sh     | 237 ------------
 .../ai_dynamo/calc_percentile_csv.py          | 139 -------
 src/cloudai/workloads/ai_dynamo/genai_perf.sh |   4 +-
 src/cloudai/workloads/ai_dynamo/kvstorage.py  | 299 ---------------
 src/cloudai/workloads/ai_dynamo/kvstorage.sh  | 359 ------------------
 src/cloudai/workloads/ai_dynamo/lmbench.sh    | 119 ------
 .../ai_dynamo/slurm_command_gen_strategy.py   |   3 -
 tests/ref_data/ai-dynamo.sbatch               |  22 +-
 tests/test_acceptance.py                      |   2 -
 tests/test_calc_percentile_csv.py             |  92 -----
 .../test_command_gen_strategy_slurm.py        |   2 -
 .../test_json_gen_strategy_kubernetes.py      |   2 -
 .../ai_dynamo/test_report_gen_strategy.py     |   5 +-
 21 files changed, 18 insertions(+), 1645 deletions(-)
 delete mode 100644 src/cloudai/workloads/ai_dynamo/aiperf.sh
 delete mode 100644 src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
 delete mode 100644 src/cloudai/workloads/ai_dynamo/kvstorage.py
 delete mode 100644 src/cloudai/workloads/ai_dynamo/kvstorage.sh
 delete mode 100644 src/cloudai/workloads/ai_dynamo/lmbench.sh
 delete mode 100644 tests/test_calc_percentile_csv.py

diff --git a/conf/experimental/ai_dynamo/test/sglang.toml b/conf/experimental/ai_dynamo/test/sglang.toml
index 36fc2e05c..812cb8f85 100644
--- a/conf/experimental/ai_dynamo/test/sglang.toml
+++ b/conf/experimental/ai_dynamo/test/sglang.toml
@@ -22,7 +22,7 @@ test_template_name = "AIDynamo"
 docker_image_url = "nvcr.io/nvidia/ai-dynamo/sglang-runtime:0.9.0"
 hf_home_path = "/lustre/fsw/coreai_tritoninference_triton3/kapila/huggingface"
 num_nodes = 2
-workloads = "aiperf.sh" #,lmbench.sh,kvstorage.sh"
+workloads = "genai_perf.sh"
 
   [cmd_args.dynamo]
   backend = "vllm"
@@ -116,69 +116,6 @@ workloads = "aiperf.sh" #,lmbench.sh,kvstorage.sh"
     warmup-request-count = 5
     concurrency = 2
 
-  [cmd_args.aiperf]
-  cmd = "aiperf profile"
-  extra-args = "--streaming"
-  version = "git+https://github.com/ai-dynamo/aiperf.git@b1d116496a8247b254a7cd3b14b2f218685255d3"
-
-    [cmd_args.aiperf.args]
-    model = "%MODEL%"
-    url = "%URL%"
-    endpoint = "%ENDPOINT%"
-    artifact-dir = "%RESULTS_DIR%/aiperf"
-    endpoint-type = "chat"
-    warmup-request-count = 1
-    export-level = "raw"
-    benchmark-duration = 100
-
-    # Server metrics collection - set in test_scenario with correct service names per test
-    # LMCache metrics are exposed via vLLM worker's /metrics endpoint
-    server-metrics-formats = "json,csv"
-
-    # initla prompt the same for all users
-    shared-system-prompt-length = 1024
-    # 3K per-user context: unique per session, requires num-dataset-entries
-    user-context-prompt-length = 3072
-    #user sends eeach iteration 1023
-    synthetic-input-tokens-mean = 1024
-    # user gets each iteration 100
-    osl = 100
-    num-dataset-entries = 10
-
-    # Multi-turn conversation settings: 10 users, 20 turns each, message every 1 sec
-    user-centric-rate = 10.0
-    num-users = 10
-    conversation-turn-mean = 20
-
-    # 1 second delay between turns (simulates user think time)
-    conversation-turn-delay-mean = 1000
-
-    # Turn sequence: 1K ISL / 100 OSL for all 20 turns
-    #turn-sequence = "1024,100*20" # Removed by Kapil
-
-
-  [cmd_args.lmbench]
-  cmd = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
-
-    [cmd_args.lmbench.args]
-    num-users = 15
-    num-rounds = 20
-    qps = 0.1
-    shared-system-prompt = 1000
-    user-history-prompt = 20000
-    answer-len = 100
-    model = "%MODEL%"
-    base-url = "%URL%"
-    init-user-id = "1"
-    log-interval = 30
-    time = "100"
-
-  [cmd_args.kvstorage]
-  cmd = "hostname"
-  isl = "1000,2000,4000,8000,16000,24000,32000"
-
-    [cmd_args.kvstorage.args]
-
 [extra_env_vars]
 UCX_LOG_LEVEL = "warn"
 HF_HUB_OFFLINE = "1"
diff --git a/conf/experimental/ai_dynamo/test/vllm.toml b/conf/experimental/ai_dynamo/test/vllm.toml
index 12c02e1b1..e9f83c688 100644
--- a/conf/experimental/ai_dynamo/test/vllm.toml
+++ b/conf/experimental/ai_dynamo/test/vllm.toml
@@ -22,7 +22,7 @@ test_template_name = "AIDynamo"
 docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.8.1"
 num_nodes = 2
 hf_home_path = "/opt/shared/huggingface"
-workloads = "genai_perf.sh,lmbench.sh,kvstorage.sh"
+workloads = "genai_perf.sh"
 
   [cmd_args.dynamo]
   backend = "vllm"
@@ -108,69 +108,6 @@ workloads = "genai_perf.sh,lmbench.sh,kvstorage.sh"
     warmup-request-count = 5
     concurrency = 2
 
-  [cmd_args.aiperf]
-  cmd = "aiperf profile"
-  extra-args = "--streaming"
-  version = "git+https://github.com/ai-dynamo/aiperf.git@b1d116496a8247b254a7cd3b14b2f218685255d3"
-
-    [cmd_args.aiperf.args]
-    model = "%MODEL%"
-    url = "%URL%"
-    endpoint = "%ENDPOINT%"
-    artifact-dir = "%RESULTS_DIR%/aiperf"
-    endpoint-type = "chat"
-    warmup-request-count = 1
-    export-level = "raw"
-    benchmark-duration = 100
-
-    # Server metrics collection - set in test_scenario with correct service names per test
-    # LMCache metrics are exposed via vLLM worker's /metrics endpoint
-    server-metrics-formats = "json,csv"
-
-    # initla prompt the same for all users
-    shared-system-prompt-length = 1024
-    # 3K per-user context: unique per session, requires num-dataset-entries
-    user-context-prompt-length = 3072
-    #user sends eeach iteration 1023
-    synthetic-input-tokens-mean = 1024
-    # user gets each iteration 100
-    osl = 100
-    num-dataset-entries = 10
-
-    # Multi-turn conversation settings: 10 users, 20 turns each, message every 1 sec
-    user-centric-rate = 10.0
-    num-users = 10
-    conversation-turn-mean = 20
-
-    # 1 second delay between turns (simulates user think time)
-    conversation-turn-delay-mean = 1000
-
-    # Turn sequence: 1K ISL / 100 OSL for all 20 turns
-    #turn-sequence = "1024,100*20" # Removed by Kapil
-
-
-  [cmd_args.lmbench]
-  cmd = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
-
-    [cmd_args.lmbench.args]
-    num-users = 15
-    num-rounds = 20
-    qps = 0.1
-    shared-system-prompt = 1000
-    user-history-prompt = 20000
-    answer-len = 100
-    model = "%MODEL%"
-    base-url = "%URL%"
-    init-user-id = "1"
-    log-interval = 30
-    time = "100"
-
-  [cmd_args.kvstorage]
-  cmd = "hostname"
-  isl = "1000,2000,4000,8000,16000,24000,32000"
-
-    [cmd_args.kvstorage.args]
-
 [extra_env_vars]
 UCX_LOG_LEVEL = "warn"
 HF_HUB_OFFLINE = "1"
diff --git a/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
index acff6d379..dfcdb7196 100644
--- a/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
@@ -25,7 +25,7 @@ extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
 
   [Tests.cmd_args]
   num_nodes = 2                                     # 1 prefill node + 1 decode node
-  workloads = "aiperf.sh"          #,genai_perf.sh,lmbench.sh"
+  workloads = "genai_perf.sh"
 
     [Tests.cmd_args.dynamo]
     model = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" #Qwen/Qwen3-0.6B"
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
index 020851313..8f302346f 100644
--- a/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
@@ -28,7 +28,7 @@ extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
   #storage_cache_dir = "/mnt/vast/kapila"
   #hf_home_path = "/mnt/vast/disagg_inf/huggingface"
   num_nodes = 2                                     # 1 prefill node + 1 decode node
-  workloads = "aiperf.sh"          #,genai_perf.sh,lmbench.sh"
+  workloads = "genai_perf.sh"
 
     [Tests.cmd_args.dynamo]
     model = "Qwen/Qwen3-0.6B"
diff --git a/src/cloudai/systems/kubernetes/kubernetes_system.py b/src/cloudai/systems/kubernetes/kubernetes_system.py
index 3d7329e39..a6db252ec 100644
--- a/src/cloudai/systems/kubernetes/kubernetes_system.py
+++ b/src/cloudai/systems/kubernetes/kubernetes_system.py
@@ -300,21 +300,14 @@ def _run_genai_perf(self, job: KubernetesJob) -> None:
         genai_perf_results_path = "/tmp/cloudai/genai-perf"
         frontend_pod = self._get_dynamo_pod_by_role(role="frontend")
 
-        # Copy wrapper script and calc_percentile_csv script to the pod
         wrapper_script_path = tdef.genai_perf_script.installed_path
-        calc_csv_script_path = tdef.calc_percentile_csv.installed_path
 
         pod_wrapper_path = "/tmp/genai_perf.sh"
-        pod_calc_csv_path = "/tmp/calc_percentile_csv.py"
 
         logging.debug(f"Copying wrapper script {wrapper_script_path} to pod {frontend_pod}")
         cp_wrapper_cmd = f"kubectl cp {wrapper_script_path} {self.default_namespace}/{frontend_pod}:{pod_wrapper_path}"
         subprocess.run(cp_wrapper_cmd, shell=True, capture_output=True, text=True, check=True)
 
-        logging.debug(f"Copying calc_percentile_csv script {calc_csv_script_path} to pod {frontend_pod}")
-        cp_calc_cmd = f"kubectl cp {calc_csv_script_path} {self.default_namespace}/{frontend_pod}:{pod_calc_csv_path}"
-        subprocess.run(cp_calc_cmd, shell=True, capture_output=True, text=True, check=True)
-
         # Make wrapper script executable
 
         kubectl_exec_cmd = ["kubectl", "exec", "-n", self.default_namespace, frontend_pod, "--", *chmod_cmd]
@@ -346,8 +339,6 @@ def _run_genai_perf(self, job: KubernetesJob) -> None:
             genai_perf_results_path,
             "--report_file",
             report_file,
-            "--calc_percentile_csv_script",
-            pod_calc_csv_path,
             "--gpus_per_node",
             str(self.gpus_per_node),
             "--",
diff --git a/src/cloudai/workloads/ai_dynamo/__init__.py b/src/cloudai/workloads/ai_dynamo/__init__.py
index fbdcaa747..fca0ce381 100644
--- a/src/cloudai/workloads/ai_dynamo/__init__.py
+++ b/src/cloudai/workloads/ai_dynamo/__init__.py
@@ -20,7 +20,6 @@
     AIDynamoTestDefinition,
     DecodeWorkerArgs,
     GenAIPerf,
-    LMBench,
     LMCache,
     LMCacheArgs,
     PrefillWorkerArgs,
@@ -40,7 +39,6 @@
     "AIDynamoTestDefinition",
     "DecodeWorkerArgs",
     "GenAIPerf",
-    "LMBench",
     "LMCache",
     "LMCacheArgs",
     "PrefillWorkerArgs",
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
index 7712aef9c..de61d8fb5 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
@@ -16,7 +16,7 @@
 
 import logging
 from pathlib import Path
-from typing import Literal, Optional
+from typing import Optional
 
 from pydantic import (
     AliasChoices,
@@ -222,163 +222,6 @@ class GenAIPerf(Workload):
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
 
 
-class AIPerfArgs(Args):
-    """Arguments for AIPerf profiling - alternative to GenAI-Perf."""
-
-    concurrency: int | None = Field(default=None)
-    request_rate: float | None = Field(
-        default=None,
-        serialization_alias="request-rate",
-        validation_alias=AliasChoices("request-rate", "request_rate"),
-    )
-    synthetic_input_tokens_mean: int | None = Field(
-        default=None,
-        serialization_alias="synthetic-input-tokens-mean",
-        validation_alias=AliasChoices("synthetic-input-tokens-mean", "synthetic_input_tokens_mean"),
-    )
-    synthetic_input_tokens_stddev: int = Field(
-        default=0,
-        serialization_alias="synthetic-input-tokens-stddev",
-        validation_alias=AliasChoices("synthetic-input-tokens-stddev", "synthetic_input_tokens_stddev"),
-    )
-    output_tokens_mean: int | None = Field(
-        default=None,
-        serialization_alias="output-tokens-mean",
-        validation_alias=AliasChoices("output-tokens-mean", "output_tokens_mean"),
-    )
-    output_tokens_stddev: int = Field(
-        default=0,
-        serialization_alias="output-tokens-stddev",
-        validation_alias=AliasChoices("output-tokens-stddev", "output_tokens_stddev"),
-    )
-    request_count: int | None = Field(
-        default=None,
-        serialization_alias="request-count",
-        validation_alias=AliasChoices("request-count", "request_count"),
-    )
-    benchmark_duration: int | None = Field(
-        default=None,
-        serialization_alias="benchmark-duration",
-        validation_alias=AliasChoices("benchmark-duration", "benchmark_duration"),
-    )
-    streaming: bool = Field(default=True)
-    warmup_request_count: int = Field(
-        default=10,
-        serialization_alias="warmup-request-count",
-        validation_alias=AliasChoices("warmup-request-count", "warmup_request_count"),
-    )
-    endpoint_type: str = Field(
-        default="chat",
-        serialization_alias="endpoint-type",
-        validation_alias=AliasChoices("endpoint-type", "endpoint_type"),
-    )
-    ui_type: str = Field(
-        default="simple",
-        serialization_alias="ui-type",
-        validation_alias=AliasChoices("ui-type", "ui_type"),
-    )
-    export_level: Literal["summary", "records", "raw"] = Field(
-        default="records",
-        serialization_alias="export-level",
-        validation_alias=AliasChoices("export-level", "export_level"),
-        description=(
-            "Controls output detail: summary (aggregate only),"
-            " records (per-request metrics), raw (full request/response data)"
-        ),
-    )
-    slice_duration: float | None = Field(
-        default=5.0,
-        serialization_alias="slice-duration",
-        validation_alias=AliasChoices("slice-duration", "slice_duration"),
-        description="Duration in seconds for time-sliced metric analysis. Enables bar chart visualizations.",
-    )
-
-    # Multi-turn / Agentic mode parameters
-    conversation_num: int | None = Field(
-        default=None,
-        serialization_alias="conversation-num",
-        validation_alias=AliasChoices("conversation-num", "conversation_num"),
-        description="Total number of conversation sessions for multi-turn benchmarks.",
-    )
-    conversation_turn_mean: int | None = Field(
-        default=None,
-        serialization_alias="conversation-turn-mean",
-        validation_alias=AliasChoices("conversation-turn-mean", "conversation_turn_mean"),
-        description="Average number of turns (steps) per conversation session.",
-    )
-    conversation_turn_stddev: int | None = Field(
-        default=None,
-        serialization_alias="conversation-turn-stddev",
-        validation_alias=AliasChoices("conversation-turn-stddev", "conversation_turn_stddev"),
-        description="Standard deviation for turn counts per session.",
-    )
-    conversation_turn_delay_mean: int | None = Field(
-        default=None,
-        serialization_alias="conversation-turn-delay-mean",
-        validation_alias=AliasChoices("conversation-turn-delay-mean", "conversation_turn_delay_mean"),
-        description="Mean delay between turns in milliseconds (simulates user think time).",
-    )
-    conversation_turn_delay_stddev: int | None = Field(
-        default=None,
-        serialization_alias="conversation-turn-delay-stddev",
-        validation_alias=AliasChoices("conversation-turn-delay-stddev", "conversation_turn_delay_stddev"),
-        description="Standard deviation for turn delays in milliseconds.",
-    )
-    turn_sequence: str | None = Field(
-        default=None,
-        serialization_alias="turn-sequence",
-        validation_alias=AliasChoices("turn-sequence", "turn_sequence"),
-        description=(
-            "Explicit ISL/OSL pairs for each turn. Format: 'ISL,OSL;ISL,OSL;...' "
-            "Example: '1024,100;2048,100;3072,200' means turn 1=ISL 1024/OSL 100, "
-            "turn 2=ISL 2048/OSL 100, etc. Cycles if more turns than defined pairs."
-        ),
-    )
-
-
-class AIPerf(Workload):
-    """Workload configuration for AIPerf."""
-
-    model_config = ConfigDict(extra="allow")
-
-    name: str = "aiperf"
-    cmd: str = "aiperf profile"
-    args: Optional[Args] = Field(default_factory=AIPerfArgs)
-    script: File = File(Path(__file__).parent.parent / "ai_dynamo/aiperf.sh")
-
-    extra_args: str | None = Field(
-        default=None,
-        serialization_alias="extra-args",
-        validation_alias=AliasChoices("extra-args", "extra_args"),
-    )
-
-
-class LMBench(Workload):
-    """Workload configuration for LMBench."""
-
-    model_config = ConfigDict(extra="allow")
-
-    name: str = "lmbench"
-    script: File = File(Path(__file__).parent.parent / "ai_dynamo/lmbench.sh")
-    cmd: str = "python3 ./synthetic-multi-round-qa/multi-round-qa.py"
-    qps: str | list[str] | None = "0.25,0.5,0.75,1.0,1.25,1.5,1.75,2.0"
-    repo: Optional[GitRepo] = GitRepo(
-        url="git@github.com:LMCache/LMBenchmark.git",
-        commit="e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f",
-        mount_as="/git/LMBenchmark",
-    )
-
-
-class KVStorage(Workload):
-    """KV storage workload script."""
-
-    model_config = ConfigDict(extra="allow")
-
-    name: str = "kvstorage"
-    cmd: str = "hostname"
-    script: File = File(Path(__file__).parent.parent / "ai_dynamo/kvstorage.sh")
-
-
 class Constraints(BaseModel):
     """Constraints for validation of AI Dynamo configurations when using DSE."""
 
@@ -400,10 +243,7 @@ class AIDynamoCmdArgs(CmdArgs):
     dynamo: AIDynamoArgs
     lmcache: LMCache = Field(default_factory=LMCache)
     genai_perf: GenAIPerf = Field(default_factory=GenAIPerf)
-    aiperf: AIPerf = Field(default_factory=AIPerf)
-    lmbench: LMBench = Field(default_factory=LMBench)
-    kvstorage: KVStorage = Field(default_factory=KVStorage)
-    workloads: str = "genai_perf.sh,aiperf.sh,lmbench.sh,kvstorage.sh"
+    workloads: str = "genai_perf.sh"
 
 
 class AIDynamoTestDefinition(TestDefinition):
@@ -413,8 +253,6 @@ class AIDynamoTestDefinition(TestDefinition):
     _docker_image: Optional[DockerImage] = None
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/ai_dynamo.sh")
     genai_perf_script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
-    aiperf_script: File = File(Path(__file__).parent.parent / "ai_dynamo/aiperf.sh")
-    calc_percentile_csv: File = File(Path(__file__).parent.parent / "ai_dynamo/calc_percentile_csv.py")
     dynamo_repo: GitRepo = GitRepo(
         url="https://github.com/ai-dynamo/dynamo.git",
         commit="f7e468c7e8ff0d1426db987564e60572167e8464",
@@ -433,9 +271,6 @@ def get_workload_map(self) -> dict[str, Workload]:
         """Get a map of workload scripts to workload objects."""
         return {
             self.cmd_args.genai_perf.script.src.name: self.cmd_args.genai_perf,
-            self.cmd_args.aiperf.script.src.name: self.cmd_args.aiperf,
-            self.cmd_args.lmbench.script.src.name: self.cmd_args.lmbench,
-            self.cmd_args.kvstorage.script.src.name: self.cmd_args.kvstorage,
         }
 
     @model_validator(mode="after")
@@ -445,19 +280,11 @@ def validate_test_definition(self) -> "AIDynamoTestDefinition":
         self.git_repos = [self.dynamo_repo]
         if self.cmd_args.lmcache.repo:
             self.git_repos.append(self.cmd_args.lmcache.repo)
-        if self.cmd_args.lmbench.repo:
-            self.git_repos.append(self.cmd_args.lmbench.repo)
-        if self.cmd_args.kvstorage.repo:
-            self.git_repos.append(self.cmd_args.kvstorage.repo)
 
-        # Validate benchmark names
         workloads = self.cmd_args.workloads.split(",")
         for workload in workloads:
             if workload not in [
                 self.cmd_args.genai_perf.script.src.name,
-                self.cmd_args.aiperf.script.src.name,
-                self.cmd_args.lmbench.script.src.name,
-                self.cmd_args.kvstorage.script.src.name,
             ]:
                 raise ValueError(f"Invalid workload script: {workload}")
 
@@ -484,11 +311,6 @@ def installables(self) -> list[Installable]:
             self.script,
             # self.hf_model,
             self.genai_perf_script,
-            self.aiperf_script,
-            self.calc_percentile_csv,
-            self.cmd_args.lmbench.script,
-            self.cmd_args.kvstorage.script,
-            File(Path(__file__).parent.parent / "ai_dynamo/kvstorage.py"),
             *self.git_repos,
         ]
 
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
index 50e389267..d0eb05564 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
@@ -35,12 +35,6 @@ declare -A lmcache_args
 declare -A lmcache_config
 declare -A genai_perf_args
 declare -A genai_perf_config
-declare -A aiperf_args
-declare -A aiperf_config
-declare -A lmbench_args
-declare -A lmbench_config
-declare -A kvstorage_args
-declare -A kvstorage_config
 
 declare -A dynamo_args
 dynamo_args["backend"]="vllm"
@@ -172,22 +166,10 @@ _parse_cli_pairs() {
         lmcache_args["${key#--lmcache-args-}"]="$2" ;;
       --lmcache-*)
         lmcache_config["${key#--lmcache-}"]="$2" ;;
-      --lmbench-args-*)
-        lmbench_args["--${key#--lmbench-args-}"]="$2" ;;
-      --lmbench-*)
-        lmbench_config["--${key#--lmbench-}"]="$2" ;;
       --genai_perf-args-*)
         genai_perf_args["--${key#--genai_perf-args-}"]="$2" ;;
       --genai_perf-*)
         genai_perf_config["--${key#--genai_perf-}"]="$2" ;;
-      --aiperf-args-*)
-        aiperf_args["--${key#--aiperf-args-}"]="$2" ;;
-      --aiperf-*)
-        aiperf_config["--${key#--aiperf-}"]="$2" ;;
-      --kvstorage-args-*)
-        kvstorage_args["--${key#--kvstorage-args-}"]="$2" ;;
-      --kvstorage-*)
-        kvstorage_config["--${key#--kvstorage-}"]="$2" ;;
       --hf-home)
         HUGGINGFACE_HOME="$2" ;;
       --storage-cache-dir)
@@ -395,12 +377,6 @@ _dump_args() {
   log "LMCache args:\n$(arg_array_to_string lmcache_args)"
   log "GenAI config params:\n$(arg_array_to_string genai_perf_config)"
   log "GenAI-Perf args:\n$(arg_array_to_string genai_perf_args)"
-  log "AIPerf config params:\n$(arg_array_to_string aiperf_config)"
-  log "AIPerf args:\n$(arg_array_to_string aiperf_args)"
-  log "LMBench config params:\n$(arg_array_to_string lmbench_config)"
-  log "LMBench args:\n$(arg_array_to_string lmbench_args)"
-  log "KV storage config params:\n$(arg_array_to_string kvstorage_config)"
-  log "KV storage args:\n$(arg_array_to_string kvstorage_args)"
   log "--------------------------------"
 }
 
@@ -563,18 +539,6 @@ _is_genai_perf_workload() {
   [[ "${dynamo_args["workloads"]}" == *"genai_perf.sh"* ]]
 }
 
-_is_aiperf_workload() {
-  [[ "${dynamo_args["workloads"]}" == *"aiperf.sh"* ]]
-}
-
-_is_lmbench_workload() {
-  [[ "${dynamo_args["workloads"]}" == *"lmbench.sh"* ]]
-}
-
-_is_kvstorage_workload() {
-  [[ "${dynamo_args["workloads"]}" == *"kvstorage.sh"* ]]
-}
-
 _init_runtime_env() {
   if _is_vllm; then
     export HF_HOME="${HUGGINGFACE_HOME}"
@@ -806,7 +770,7 @@ function launch_decode()
     local kvbm_ack_port=$((base_kvbm_ack_port + (i * kvbm_port_stride)))
 
     # Build decode args as proper bash arrays to preserve
-    # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+    # multi-word values (e.g. --cmd "genai-perf profile") through word splitting.
     local -a args_arr=()
     for key in "${!decode_args[@]}"; do
       args_arr+=($key $(replace_placeholders "${decode_args[$key]}"))
@@ -861,7 +825,7 @@ function launch_prefill()
     local kvbm_ack_port=$((base_kvbm_ack_port + (i * kvbm_port_stride)))
 
     # Build prefill args as proper bash arrays to preserve
-    # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+    # multi-word values (e.g. --cmd "genai-perf profile") through word splitting.
     local -a args_arr=()
     for key in "${!prefill_args[@]}"; do
       args_arr+=($key $(replace_placeholders "${prefill_args[$key]}"))
@@ -1057,7 +1021,7 @@ function launch_workload()
   local script="${workload_config_ref["--script"]}"
 
   # Build config and workload args as proper bash arrays to preserve
-  # multi-word values (e.g. --cmd "aiperf profile") through word splitting.
+  # multi-word values (e.g. --cmd "genai-perf profile") through word splitting.
   local -a config_arr=()
   for key in "${!workload_config_ref[@]}"; do
     config_arr+=("$key" "$(replace_placeholders "${workload_config_ref[$key]}")")
@@ -1095,15 +1059,6 @@ function launch_workloads()
   if _is_genai_perf_workload; then
     launch_workload genai_perf_config genai_perf_args
   fi
-  if _is_aiperf_workload; then
-    launch_workload aiperf_config aiperf_args
-  fi
-  if _is_lmbench_workload; then
-    launch_workload lmbench_config lmbench_args
-  fi
-  if _is_kvstorage_workload; then
-    launch_workload kvstorage_config kvstorage_args
-  fi
 
   mark_done
 }
diff --git a/src/cloudai/workloads/ai_dynamo/aiperf.sh b/src/cloudai/workloads/ai_dynamo/aiperf.sh
deleted file mode 100644
index 1e5e190bf..000000000
--- a/src/cloudai/workloads/ai_dynamo/aiperf.sh
+++ /dev/null
@@ -1,237 +0,0 @@
-#! /bin/bash
-
-# Called as:
-    #   ./aiperf.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <aiperf-cmdline-args>
-
-# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
-result_dir=""
-report_name="aiperf_report.csv"
-gpus_per_node=1
-port=""
-cmd=""
-extra_args=""
-declare -A aiperf_args
-decode_nodes=""
-aiperf_profile_csv="profile_export_aiperf.csv"
-metrics_urls=""
-version=""
-
-# Simple log function
-log() {
-  echo "[$(date +%F\ %T) $(hostname)]: $*"
-}
-
-function parse_aiperf_args()
-{
-  while [[ $# -gt 0 ]]; do
-    case "$1" in
-    --*)
-      aiperf_args["${1}"]="$2"
-      shift 2
-      ;;
-    *)
-      shift
-      ;;
-    esac
-  done
-}
-
-function process_args()
-{
-  while [[ $# -gt 0 ]]; do
-    case "$1" in
-      --model)
-        model="$2"
-        shift 2
-        ;;
-      --url)
-        url="$2"
-        shift 2
-        ;;
-      --port)
-        port="$2"
-        shift 2
-        ;;
-      --endpoint)
-        endpoint="$2"
-        shift 2
-        ;;
-      --result_dir)
-        result_dir="$2"
-        shift 2
-        ;;
-      --install_dir)
-        install_dir="$2"
-        shift 2
-        ;;
-      --gpus_per_node)
-        gpus_per_node="$2"
-        shift 2
-        ;;
-      --report_name)
-        report_name="$2"
-        shift 2
-        ;;
-      --cmd)
-        cmd="$2"
-        shift 2
-        ;;
-      --version)
-        version="$2"
-        shift 2
-        ;;
-      --decode-nodes)
-        decode_nodes="$2"
-        shift 2
-        ;;
-      --extra-args|--extra_args)
-        extra_args="$2"
-        shift 2
-        ;;
-      --)
-        shift
-        parse_aiperf_args "$@"
-        break
-        ;;
-      --*)
-        shift 2
-        ;;
-      *)
-        shift
-        ;;
-    esac
-  done
-
-  log """Parsed args:
-    model: $model
-    url: $url
-    port: $port
-    result_dir: $result_dir
-    install_dir: $install_dir
-    report_name: $report_name
-    cmd: $cmd
-    version: $version
-    extra_args: $extra_args
-    decode_nodes: $decode_nodes
-    aiperf_args:
-        $(for key in "${!aiperf_args[@]}"; do echo "$key ${aiperf_args[$key]} "; done)
-  """
-}
-
-function update_aiperf_version()
-{
-  if [[ -n "$version" ]]; then
-    log "Updating aiperf version from $(aiperf --version) to $version"
-    pip install --upgrade $version
-    log "Updated aiperf version to $(aiperf --version)"
-  fi
-}
-
-function _resolve_server_metrics_auto()
-{
-  # Auto-discover Prometheus metrics endpoints for Dynamo deployments
-  # Returns space-separated list of URLs for --server-metrics
-  
-  # Frontend metrics (port from dynamo config)
-  local frontend_url="http://${url}:${port}/metrics"
-  metrics_urls="$frontend_url"
-  
-  local IFS_SAVE="$IFS"
-  IFS=','
-  for node in $decode_nodes; do
-    local decode_url="http://${node}:9090/metrics"
-    metrics_urls="$metrics_urls $decode_url"
-  done
-  IFS="$IFS_SAVE"
-  
-  log "Auto-discovered server-metrics URLs: $metrics_urls"
-}
-
-function process_result()
-{
-  local profile_path
-  profile_path=$(find "$result_dir" -type f -name "$aiperf_profile_csv" -print -quit)
-  if [[ ! -f "$profile_path" ]]; then
-    log "WARNING: aiperf profile CSV not found: $aiperf_profile_csv"
-    return
-  fi
-
-  local num_sections=1
-  local has_content=0
-  local output_prefix="${result_dir}/aiperf_section"
-
-  while IFS= read -r line; do
-    # Strip carriage returns
-    line="${line//$'\r'/}"
-    if [[ -z "$line" ]]; then
-      # Only advance section if the current one had content
-      if [[ "$has_content" -eq 1 ]]; then
-        num_sections=$(( num_sections + 1 ))
-        has_content=0
-      fi
-    else
-      echo "$line" >> "${output_prefix}.${num_sections}.csv"
-      has_content=1
-    fi
-  done < "$profile_path"
-
-  log "Split aiperf CSV into $num_sections section(s)"
-
-  # Section 1: per-request percentile metrics → main report
-  if [[ -f "${output_prefix}.1.csv" ]]; then
-    mv "${output_prefix}.1.csv" "$report_file"
-  fi
-
-  # Section 2: summary metrics
-  if [[ -f "${output_prefix}.2.csv" ]]; then
-    mv "${output_prefix}.2.csv" "${result_dir}/aiperf_summary.csv"
-  fi
-
-  # Section 3: server/GPU metrics
-  if [[ -f "${output_prefix}.3.csv" ]]; then
-    mv "${output_prefix}.3.csv" "${result_dir}/aiperf_server_metrics.csv"
-  fi
-}
-
-function main()
-{
-  process_args "$@"
-
-  report_file=$result_dir/$report_name
-
-  update_aiperf_version
-
-  # Handle server-metrics = "auto" - auto-discover endpoints
-  if [[ "${aiperf_args["--server-metrics"]}" == "auto" ]]; then
-    _resolve_server_metrics_auto
-    aiperf_args["--server-metrics"]="$metrics_urls"
-  fi
-  
-  # Combine aiperf_args (key-value pairs) and extra_args
-  cmdline_args=""
-  for key in "${!aiperf_args[@]}"; do
-    local val="${aiperf_args[$key]}"
-    # Quote values that contain spaces so eval doesn't split them
-    if [[ "$val" == *" "* ]]; then
-      val="${val//\"/\\\"}"  # Escape existing quotes
-      cmdline_args+="$key \"${val}\" "
-    else
-      cmdline_args+="$key ${val} "
-    fi
-  done
-  cmdline_args+="$extra_args"
-  
-  # Build the full command with model and url
-  full_cmd="$cmd $cmdline_args"
-  
-  # launch aiperf
-  log "Launching aiperf with args: $full_cmd"
-  
-  eval "$full_cmd"
-  
-  log "Done with aiperf run"
-  
-  process_result
-}
-
-main "$@"
\ No newline at end of file
diff --git a/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py b/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
deleted file mode 100644
index 465b6983c..000000000
--- a/src/cloudai/workloads/ai_dynamo/calc_percentile_csv.py
+++ /dev/null
@@ -1,139 +0,0 @@
-# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import argparse
-import csv
-import math
-import os
-from typing import Any, Dict, List
-
-
-def compute_percentile(sorted_values: List[float], percentile: float) -> float:
-    if not sorted_values:
-        return float("nan")
-    if percentile <= 0:
-        return float(sorted_values[0])
-    if percentile >= 100:
-        return float(sorted_values[-1])
-    # Nearest-rank linear interpolation (common in data tools)
-    k = (len(sorted_values) - 1) * (percentile / 100.0)
-    f = math.floor(k)
-    c = math.ceil(k)
-    if f == c:
-        return float(sorted_values[int(k)])
-    d0 = sorted_values[f] * (c - k)
-    d1 = sorted_values[c] * (k - f)
-    return float(d0 + d1)
-
-
-def summarize(values: List[float]) -> Dict[str, float]:
-    if not values:
-        return {
-            "avg": float("nan"),
-            "min": float("nan"),
-            "max": float("nan"),
-            "p99": float("nan"),
-            "p95": float("nan"),
-            "p90": float("nan"),
-            "p75": float("nan"),
-            "p50": float("nan"),
-            "p25": float("nan"),
-            "p10": float("nan"),
-            "p5": float("nan"),
-            "p1": float("nan"),
-        }
-    sorted_vals = sorted(values)
-    avg_val = sum(sorted_vals) / len(sorted_vals)
-    return {
-        "avg": round(avg_val, 2),
-        "min": round(sorted_vals[0], 2),
-        "max": round(sorted_vals[-1], 2),
-        "p99": round(compute_percentile(sorted_vals, 99), 2),
-        "p95": round(compute_percentile(sorted_vals, 95), 2),
-        "p90": round(compute_percentile(sorted_vals, 90), 2),
-        "p75": round(compute_percentile(sorted_vals, 75), 2),
-        "p50": round(compute_percentile(sorted_vals, 50), 2),
-        "p25": round(compute_percentile(sorted_vals, 25), 2),
-        "p10": round(compute_percentile(sorted_vals, 10), 2),
-        "p5": round(compute_percentile(sorted_vals, 5), 2),
-        "p1": round(compute_percentile(sorted_vals, 1), 2),
-    }
-
-
-def parse_float_safe(value: Any) -> float:
-    try:
-        return float(value)
-    except Exception:
-        return float("nan")
-
-
-def main() -> None:
-    parser = argparse.ArgumentParser(description="Summarize LMCACHE bench CSV metrics")
-    parser.add_argument("--input", "-i", help="Path to input CSV (e.g., lmcache_bench_output_0.1.csv)")
-    parser.add_argument("--output", "-o", help="Path to write summary CSV. Defaults to <input>_summary.csv")
-    args = parser.parse_args()
-
-    input_path = args.input
-    output_path = args.output or f"{input_path}_summary.csv"
-
-    rows: List[Dict[str, Any]] = []
-    with open(input_path, newline="") as f:
-        reader = csv.DictReader(f)
-        for r in reader:
-            rows.append(r)
-
-    # Build summaries
-    summaries: List[Dict[str, Any]] = []
-
-    def append_summary(metric_name: str, values: List[float]) -> None:
-        clean_values = [v for v in values if v is not None and not math.isnan(v)]
-        stats = summarize(clean_values)
-        summaries.append({"Metric": metric_name, **stats})
-
-    # Summarize all numeric columns present in the CSV
-    all_columns: List[str] = list(rows[0].keys()) if rows else []
-    for col in all_columns:
-        col_values = [parse_float_safe(r.get(col)) for r in rows]
-        append_summary(col, col_values)
-
-    fieldnames = [
-        "Metric",
-        "avg",
-        "min",
-        "max",
-        "p99",
-        "p95",
-        "p90",
-        "p75",
-        "p50",
-        "p25",
-        "p10",
-        "p5",
-        "p1",
-    ]
-
-    os.makedirs(os.path.dirname(output_path) or ".", exist_ok=True)
-    with open(output_path, "w", newline="") as f:
-        writer = csv.DictWriter(f, fieldnames=fieldnames)
-        writer.writeheader()
-        for row in summaries:
-            writer.writerow(row)
-
-    print(f"Wrote summary to: {output_path}")
-
-
-if __name__ == "__main__":
-    main()
diff --git a/src/cloudai/workloads/ai_dynamo/genai_perf.sh b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
index c475d5cc8..d75e8b82f 100644
--- a/src/cloudai/workloads/ai_dynamo/genai_perf.sh
+++ b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
@@ -1,12 +1,10 @@
 #! /bin/bash
 
 # Called as:
-    #   ./genai_perf.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <genai-perf-cmdline-args>
+    #   ./genai_perf.sh --result_dir <result_dir> --report_file <report_file> --gpus_per_node <gpus_per_node> -- <genai-perf-cmdline-args>
 
-# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
 result_dir=""
 report_name="genai_perf_report.csv"
-calc_percentile_csv_script=""
 gpus_per_node=1
 port=""
 repo=""
diff --git a/src/cloudai/workloads/ai_dynamo/kvstorage.py b/src/cloudai/workloads/ai_dynamo/kvstorage.py
deleted file mode 100644
index d2f7b13d3..000000000
--- a/src/cloudai/workloads/ai_dynamo/kvstorage.py
+++ /dev/null
@@ -1,299 +0,0 @@
-# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-"""Single-shot chat completion client for TTFT benchmark."""
-
-# Future
-from __future__ import annotations
-
-# Standard
-import argparse
-import json
-import os
-import random
-import string
-import sys
-import time
-from pathlib import Path
-
-# Third Party
-from openai import OpenAI  # type: ignore[import-untyped]
-from transformers import AutoTokenizer  # type: ignore[import-untyped]
-
-# ----------------------------------------------------------------------
-NUM_FILLER_TOKENS = 10_000  # ≈ length of each cache-filler prompt
-NUM_FILLER_PROMPTS = 100  # how many fillers to send for eviction
-# ----------------------------------------------------------------------
-
-
-# ---------------- helper utilities ------------------------------------
-
-
-def log(message: str) -> None:
-    print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')} {os.getenv('HOSTNAME') or ''}]: [kvstorage] {message}")
-    sys.stdout.flush()
-    sys.stderr.flush()
-
-
-class TtftStats:
-    """Holds TTFT benchmark results including timing and token counts."""
-
-    def __init__(self, ttft_seconds: float, prompt_tokens: int, cached_tokens: int):
-        self.ttft_seconds = ttft_seconds
-        self.prompt_tokens = prompt_tokens
-        self.cached_tokens = cached_tokens
-
-
-class Chat:
-    """Represents a chat context with a document for TTFT benchmarking."""
-
-    def __init__(self, model: str, isl: int):
-        self.isl = isl
-        self.model = model
-        self.tok = AutoTokenizer.from_pretrained(self.model, use_fast=True)
-
-        raw_doc = "".join(random.choices(string.ascii_letters + string.digits, k=self.isl * 4))
-
-        num_tokens = self.isl - 37
-        ids = self.tok.encode(raw_doc, add_special_tokens=False, truncation=True, max_length=num_tokens)
-        assert len(ids) == num_tokens, f"Expected {num_tokens} tokens, got {len(ids)}"
-        doc = self.tok.decode(ids, skip_special_tokens=True)
-
-        self.messages = [
-            {"role": "user", "content": f"I've got a document:\n```\n{doc}\n```"},
-            {"role": "assistant", "content": "I've got your document."},
-            {"role": "user", "content": "summarize"},
-        ]
-
-    def stream(self, client: OpenAI, max_tokens: int) -> TtftStats:
-        stats = TtftStats(0, 0, 0)
-
-        start = time.perf_counter()
-        try:
-            stream = client.chat.completions.create(
-                model=self.model,
-                messages=self.messages,
-                temperature=0.0,
-                stream=True,
-                stream_options={"include_usage": True},
-                max_tokens=max_tokens,
-            )
-
-            first_tok_t: float | None = None
-            for chunk in stream:
-                if first_tok_t is None and chunk.choices and chunk.choices[0].delta and chunk.choices[0].delta.content:
-                    first_tok_t = time.perf_counter()
-                # Capture prompt_tokens from usage if available
-                if chunk.usage and chunk.usage.prompt_tokens:
-                    stats.prompt_tokens = chunk.usage.prompt_tokens
-                # Capture cached_tokens from prompt_tokens_details if available
-                usage_details = chunk.usage and chunk.usage.prompt_tokens_details
-                if usage_details and usage_details.cached_tokens is not None:
-                    stats.cached_tokens = usage_details.cached_tokens
-
-            if first_tok_t is None:
-                raise RuntimeError("no tokens returned")
-
-            stats.ttft_seconds = round(first_tok_t - start, 3)
-            return stats
-        except json.JSONDecodeError as e:
-            log(f"Error: JSON decode error during streaming: {e}")
-            log("This may indicate empty SSE events from the server - likely a server-side bug")
-            # Return partial stats with error indication
-            stats.ttft_seconds = -1  # Indicate error
-            return stats
-        except Exception as e:
-            log(f"Error during streaming: {type(e).__name__}: {e}")
-            stats.ttft_seconds = -1  # Indicate error
-            return stats
-
-
-class KVCacheFlusher:
-    """Flushes the KV cache by streaming filler chat completions."""
-
-    def __init__(self, args: argparse.Namespace, client: OpenAI):
-        self.client = client
-        self.args = args
-        self.filler_chats = [Chat(args.model, args.num_filler_tokens) for _ in range(args.num_filler_prompts)]
-
-    def flush(self) -> None:
-        log(f"Stream {self.args.num_filler_prompts} filler chats with {self.args.num_filler_tokens} tokens each...")
-        for _n, chat in enumerate(self.filler_chats):
-            chat.stream(self.client, 1)
-
-
-# ---------------- command-line parsing --------------------------------
-def parse_args() -> argparse.Namespace:
-    ap = argparse.ArgumentParser(
-        prog=Path(sys.argv[0]).name,
-        description="Single-shot chat completion client for TTFT benchmark.",
-    )
-    ap.add_argument("--dump_csv_header", action="store_true", help="Only dump CSV header and exit.")
-    ap.add_argument("--url", help="URL of the API endpoint.")
-    ap.add_argument("--model", help="Model name/ID.")
-    ap.add_argument("--isl", type=int, help="Input tokens.")
-    ap.add_argument("--osl", type=int, help="Output tokens.")
-    ap.add_argument("--out", help="JSONL file for results.")
-    ap.add_argument(
-        "--max_filler_prompts",
-        type=int,
-        default=200,
-        help="Max number of filler prompts (used to compute the KV cache token size) to send for cache flush.",
-    )
-    ap.add_argument(
-        "--min_filler_prompts",
-        type=int,
-        default=1,
-        help="Min number of filler prompts (used to compute the KV cache token size) to send for cache flush.",
-    )
-    ap.add_argument(
-        "--num_filler_prompts",
-        type=int,
-        default=NUM_FILLER_PROMPTS,
-        help="Number of filler prompts to send for cache flush.",
-    )
-    ap.add_argument(
-        "--num_filler_tokens",
-        type=int,
-        default=NUM_FILLER_TOKENS,
-        help="Number of filler tokens.",
-    )
-    ap.add_argument("--compute_kv_cache_token_size", action="store_true", help="Compute KV cache token size and exit.")
-    return ap.parse_args()
-
-
-def SendFillerQueries(args: argparse.Namespace, client: OpenAI, num: int):
-    for n in range(num):
-        log(f"Sending filler query {n + 1} of {num}...")
-        _ = Chat(args.model, args.isl).stream(client, 1)
-
-
-def compute_kv_cache_token_size(args: argparse.Namespace, client: OpenAI) -> int:
-    # We want to compute the number of tokens required to flush the KV cache. To
-    # do this, we start by sending a canary query with 1000 tokens.
-    # Next we send a filler queries with 10000 tokens and after each query we
-    # send the original query again aand measure the cached_tokens. If
-    # cached_tokens is not zero, we increase the number of filler queries and
-    # repeat.  At some point, the cached_tokens for the original query will be
-    # zero and we have the number of filler queries required to flush the KV
-    # cache.
-
-    # Do a binary search for the number of filler prompts required to flush the KV cache.
-    maxFillerPrompts = args.max_filler_prompts
-    minFillerPrompts = min(1, args.min_filler_prompts)
-    log(
-        f"Doing binary search for the number of filler prompts required to flush the KV cache"
-        f" between {minFillerPrompts} and {maxFillerPrompts}..."
-    )
-
-    log("Sending an initial canary query with 1000 tokens...")
-    canary_chat = Chat(args.model, args.isl)
-    canary_stats = canary_chat.stream(client, 1)
-    log(f"Initial Canary query: {canary_stats.ttft_seconds:.3f}s with {canary_stats.cached_tokens} cached tokens")
-
-    while minFillerPrompts < maxFillerPrompts:
-        numFillerPrompts = (maxFillerPrompts + minFillerPrompts) // 2
-        log(f"Trying {numFillerPrompts} filler prompts with {args.num_filler_tokens} tokens each...")
-        SendFillerQueries(args, client, numFillerPrompts)
-        log(f"Sending canary query after {numFillerPrompts} filler prompts...")
-        canary_stats = canary_chat.stream(client, 1)
-        log(f"Canary query: {canary_stats.ttft_seconds:.3f}s with {canary_stats.cached_tokens} cached tokens")
-        if canary_stats.cached_tokens < 500:
-            maxFillerPrompts = numFillerPrompts
-        else:
-            minFillerPrompts = numFillerPrompts + 1
-        log(f"Min filler prompts: {minFillerPrompts}, Max filler prompts: {maxFillerPrompts}")
-    return minFillerPrompts * args.num_filler_tokens
-
-
-# ---------------- main routine ----------------------------------------
-def main() -> None:
-    args = parse_args()
-
-    result = {
-        "isl": args.isl,
-        "baseline_cached_tokens": 0,
-        "baseline_ttft_seconds": 0,
-        "no_flush_cached_tokens": 0,
-        "no_flush_ttft_seconds": 0,
-        "post_flush_cached_tokens": 0,
-        "post_flush_ttft_seconds": 0,
-    }
-
-    client = OpenAI(base_url=args.url, api_key="dummy-key-for-local-server")
-
-    if args.compute_kv_cache_token_size:
-        log("Computing KV cache token size...")
-        kv_cache_token_size = compute_kv_cache_token_size(args, client)
-        log(f"KV cache token size: {kv_cache_token_size}")
-        with Path(args.out).open("a", encoding="utf-8") as f:
-            f.write(f"KV cache token size: {kv_cache_token_size}\n")
-        return
-
-    if args.dump_csv_header:
-        with Path(args.out).open("a", encoding="utf-8") as f:
-            f.write(",".join(result.keys()))
-            f.write("\n")
-        return
-
-    chat = Chat(args.model, args.isl)
-
-    log("=== Run 1: warmup ===")
-    warmup = Chat(args.model, args.isl).stream(client, 1)
-    log(f"Run 1: warmup: TTFT = {warmup.ttft_seconds:.3f}s with {warmup.cached_tokens} cached tokens")
-
-    # ---------------- RUN 1 ----------------
-    log("=== Run 1: baseline TTFT ===")
-    baseline = chat.stream(client, args.osl)
-    log(f"Run 1: TTFT = {baseline.ttft_seconds:.3f}s with {baseline.cached_tokens} cached tokens")
-
-    # Run 2 with same doc without cache flush
-    log("=== Run 2: TTFT without cache flush ===")
-    no_flush = chat.stream(client, args.osl)
-    log(f"Run 2: TTFT = {no_flush.ttft_seconds:.3f}s with {no_flush.cached_tokens} cached tokens")
-
-    # Flush cache
-    log(f"Flushing KV-cache with {args.num_filler_prompts} prompts …")
-    KVCacheFlusher(args, client).flush()
-
-    # Run 3 with same doc with cache flush
-    log("=== Run 3: warmup ===")
-    warmup = Chat(args.model, args.isl).stream(client, 1)
-    log(f"Run 3: warmup: TTFT = {warmup.ttft_seconds:.3f}s with {warmup.cached_tokens} cached tokens")
-
-    log("=== Run 3: TTFT with cache flush ===")
-    post_flush = chat.stream(client, args.osl)
-    log(f"Run 3: TTFT = {post_flush.ttft_seconds:.3f}s with {post_flush.cached_tokens} cached tokens")
-
-    result["baseline_cached_tokens"] = baseline.cached_tokens
-    result["baseline_ttft_seconds"] = baseline.ttft_seconds
-    result["no_flush_cached_tokens"] = no_flush.cached_tokens
-    result["no_flush_ttft_seconds"] = no_flush.ttft_seconds
-    result["post_flush_cached_tokens"] = post_flush.cached_tokens
-    result["post_flush_ttft_seconds"] = post_flush.ttft_seconds
-
-    out_path = Path(args.out)
-    with out_path.open("a", encoding="utf-8") as f:
-        if out_path.suffix == ".csv":
-            line = ",".join(str(v) for v in result.values())
-            f.write(line + "\n")
-        else:
-            json.dump(result, f, indent=2)
-            f.write("\n")
-
-
-if __name__ == "__main__":
-    main()
diff --git a/src/cloudai/workloads/ai_dynamo/kvstorage.sh b/src/cloudai/workloads/ai_dynamo/kvstorage.sh
deleted file mode 100644
index 3940d0714..000000000
--- a/src/cloudai/workloads/ai_dynamo/kvstorage.sh
+++ /dev/null
@@ -1,359 +0,0 @@
-#! /bin/bash
-
-# Called as:
-    #   bash ./kvstorage.sh --result_dir <result_dir> --report_name <report_name> -- <kvstorage-cmdline-args>
-
-# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
-result_dir=""
-report_name="kvstorage_report.csv"
-model=""
-url=""
-port=""
-endpoint=""
-connector=""
-kvbm_metrics_port=""
-all_isl=""
-declare -A workload_args
-kv_cache_token_size=0
-num_filler_tokens=32000
-g1_token_size=0
-g2_token_size=0
-g3_token_size=0
-bytes_per_token=0
-dyn_system_port="${DYN_SYSTEM_PORT:-8081}"
-client_script="./kvstorage.py"
-
-
-# Simple log function
-log() {
-  echo "[$(date +%F\ %T) $(hostname)]: $*"
-}
-
-function parse_kvstorage_args()
-{
-  local args="$@"
-  while [[ $# -gt 0 ]]; do
-    case "$1" in
-    --*)
-      workload_args["${1}"]="$2"
-      shift 2
-      ;;
-    *)
-      shift
-      ;;
-    esac
-  done
-}
-
-function process_args()
-{
-  while [[ $# -gt 0 ]]; do
-    case "$1" in
-    --model)
-      model="$2"
-      shift 2
-      ;;
-    --url)
-      url="$2"
-      shift 2
-      ;;
-    --port)
-      port="$2"
-      shift 2
-      ;;
-    --endpoint)
-      endpoint="$2"
-      shift 2
-      ;;
-    --decode-connector)
-      decode_connector="$2"
-      shift 2
-      ;;
-    --prefill-connector)
-      prefill_connector="$2"
-      shift 2
-      ;;
-    --kvbm_metrics_port)
-      kvbm_metrics_port="$2"
-      shift 2
-      ;;
-    --dyn_system_port)
-      dyn_system_port="$2"
-      shift 2
-      ;;
-    --result_dir)
-      result_dir="$2"
-      shift 2
-      ;;
-    --install_dir)
-      install_dir="$2"
-      shift 2
-      ;;
-    --report_name)
-      report_name="$2"
-      shift 2
-      ;;
-    --isl)
-      all_isl="$2"
-      shift 2
-      ;;
-    --kv_cache_token_size)
-      kv_cache_token_size="$2"
-      shift 2
-      ;;
-    --num_filler_tokens)
-      num_filler_tokens="$2"
-      shift 2
-      ;;
-    --)
-      shift
-      parse_kvstorage_args "$@"
-      break
-      ;;
-    --*)
-      shift 2
-      ;;
-    *)
-      shift
-      ;;
-    esac
-  done
-
-  client_script="${install_dir}/kvstorage.py"
-
-  log """Parsed args:
-    model: $model
-    url: $url
-    port: $port
-    endpoint: $endpoint
-    decode-connector: $decode_connector
-    prefill-connector: $prefill_connector
-    kvbm_metrics_port: $kvbm_metrics_port
-    result_dir: $result_dir
-    install_dir: $install_dir
-    report_name: $report_name
-    kv_cache_token_size: $kv_cache_token_size
-    num_filler_tokens: $num_filler_tokens
-    isl: $all_isl
-    workload_args: $(for key in "${!workload_args[@]}"; do echo -n "$key: ${workload_args[$key]} "; done)
-  """
-}
-
-#function clear_lmcache()
-#{
-#  log "Clearing LMCache"
-#
-#  response=$(curl -X POST http://${lmcache_config["controller_url"]}/clear \
-#  -H "Content-Type: application/json" \
-#  -d '{
-#    "instance_id": "lmcache_default_instance",
-#    "location": "LocalCPUBackend"
-#  }')
-#
-#  log "LMCache cleared. Response: $response"
-#}
-
-function print_metrics()
-{
-  local frontend_metrics_endpoint="${url}:${port}/metrics"
-  local component_metrics_endpoint="${url}:${dyn_system_port}/metrics"
-  local kvbm_metrics_endpoint="${url}:${kvbm_metrics_port}/metrics"
-
-  #status=$(curl -s ${frontend_metrics_endpoint} 2>/dev/null | grep -E "cache.*model=") # | grep -E "kvstats_active_blocks|kvstats_total_blocks" || echo "metrics unavailable")
-  #log "Frontend metrics: $status"
-
-  #status=$(curl -s ${component_metrics_endpoint} 2>/dev/null | grep -E "cache.*model=") # | grep -E "kvstats_active_blocks|kvstats_total_blocks" || echo "metrics unavailable")
-  #log "Component metrics: $status"
-
-  status=$(curl -s ${kvbm_metrics_endpoint} 2>/dev/null ) # | grep -E "host_cache_hit_rate|disk_cache_hit_rate" || echo "kvbm metrics unavailable")
-  log "KVBM metrics: $status"
-}
-
-function clear_kv_cache()
-{
-  if [[ -z "$port" ]]; then
-    log "ERROR: API port not specified, skipping KV cache clear"
-    return 1
-  fi
-
-  log "Metrics before clear:"
-  print_metrics
-
-  # Clear KV blocks via the dynamo HTTP endpoint
-  # This internally calls reset_prefix_cache() on all workers
-  response=$(curl -s -X POST ${url}:${dyn_system_port}/engine/clear_kv_blocks 2>/dev/null || echo "endpoint unavailable")
-  log "KV blocks cleared. Response: $response"
-
-  log "Metrics after clear:"
-  print_metrics
-
-  # TODO: Add LMCache clearing when connector is lmcache
-  # if [[ "$connector" == "lmcache" ]]; then
-  #   clear_lmcache
-  # fi
-}
-
-function compute_kv_cache_token_size_from_log()
-{
-  # Parse the decode worker log to extract G1 (GPU) KV cache information
-  # Log format examples:
-  #   INFO gpu_worker.determine_available_memory: Available KV cache memory: 54.90 GiB  (per GPU!)
-  #   INFO kv_cache_utils._report_kv_cache_config: GPU KV cache size: 3,198,272 tokens  (total for worker)
-  #
-  # IMPORTANT: "Available KV cache memory" is PER GPU, while "GPU KV cache size" is for the entire
-  # worker (total tokens across all GPUs). We need to multiply memory by tensor_parallel_size.
-
-  log "Computing KV cache token sizes from worker log files..."
-
-  # Find decode worker log file(s) in result_dir
-  local decode_log=$(find "$result_dir" -name "dynamo_decode_0_0.log" 2>/dev/null | head -1)
-  if [[ -z "$decode_log" ]]; then
-    log "WARNING: No decode worker log found in $result_dir, falling back to query-based method"
-    return 1
-  fi
-
-  log "Using decode worker log: $decode_log"
-
-  # Extract tensor_parallel_size from log: "tensor_parallel_size=8"
-  local tp_size=1
-  local tp_line=$(grep -o "tensor_parallel_size=[0-9]*" "$decode_log" | head -1)
-  if [[ -n "$tp_line" ]]; then
-    tp_size=$(echo "$tp_line" | cut -d'=' -f2)
-    log "Tensor parallel size from log: $tp_size GPUs"
-  else
-    log "WARNING: Could not find tensor_parallel_size in log, assuming 1 GPU"
-  fi
-
-  # Extract G1 token count: "GPU KV cache size: 3,198,272 tokens"
-  # This is the TOTAL token capacity for the entire worker (across all GPUs)
-  local g1_tokens_line=$(grep "GPU KV cache size:" "$decode_log" | tail -1)
-  if [[ -z "$g1_tokens_line" ]]; then
-    log "WARNING: Could not find 'GPU KV cache size' in log, falling back to query-based method"
-    return 1
-  fi
-
-  # Parse: extract number, remove commas
-  g1_token_size=$(echo "$g1_tokens_line" | sed -E 's/.*GPU KV cache size: ([0-9,]+) tokens.*/\1/' | tr -d ',')
-  log "G1 (GPU) token size from log: $g1_token_size tokens (total for worker)"
-
-  # Extract G1 memory size per GPU: "Available KV cache memory: 54.90 GiB"
-  # This is PER GPU, so we need to multiply by tensor_parallel_size
-  local g1_memory_line=$(grep "Available KV cache memory:" "$decode_log" | tail -1)
-  if [[ -z "$g1_memory_line" ]]; then
-    log "WARNING: Could not find 'Available KV cache memory' in log, falling back to query-based method"
-    return 1
-  fi
-
-  # Parse: extract the GiB value (this is per GPU)
-  local g1_memory_per_gpu_gib=$(echo "$g1_memory_line" | sed -E 's/.*Available KV cache memory: ([0-9.]+) GiB.*/\1/')
-  log "G1 (GPU) memory per GPU from log: $g1_memory_per_gpu_gib GiB"
-
-  # Calculate total G1 memory across all GPUs
-  local g1_memory_total_gib=$(awk "BEGIN {printf \"%.2f\", $g1_memory_per_gpu_gib * $tp_size}")
-  log "G1 (GPU) total memory across $tp_size GPUs: $g1_memory_total_gib GiB"
-
-  # Calculate bytes per token = (total_G1_GiB * 1024^3) / G1_tokens
-  # Using awk to handle the initial float-to-int conversion from g1_memory_per_gpu_gib
-  bytes_per_token=$(awk "BEGIN {printf \"%d\", ($g1_memory_total_gib * 1024 * 1024 * 1024) / $g1_token_size}")
-  log "Calculated bytes per token: $bytes_per_token"
-
-  # Calculate G2 (CPU) token size from DYN_KVBM_CPU_CACHE_GB environment variable
-  local g2_cache_gb=${DYN_KVBM_CPU_CACHE_GB:-0}
-  if [[ "$g2_cache_gb" != "0" && -n "$g2_cache_gb" ]]; then
-    # G2_tokens = (G2_GB * 1024^3) / bytes_per_token
-    g2_token_size=$(( (g2_cache_gb * 1024 * 1024 * 1024) / bytes_per_token ))
-    log "G2 (CPU) cache: $g2_cache_gb GB = $g2_token_size tokens"
-  else
-    log "G2 (CPU) cache not configured (DYN_KVBM_CPU_CACHE_GB not set)"
-  fi
-
-  # Calculate G3 (Disk) token size from DYN_KVBM_DISK_CACHE_GB environment variable
-  local g3_cache_gb=${DYN_KVBM_DISK_CACHE_GB:-0}
-  if [[ "$g3_cache_gb" != "0" && -n "$g3_cache_gb" ]]; then
-    # G3_tokens = (G3_GB * 1024^3) / bytes_per_token
-    g3_token_size=$(( (g3_cache_gb * 1024 * 1024 * 1024) / bytes_per_token ))
-    log "G3 (Disk) cache: $g3_cache_gb GB = $g3_token_size tokens"
-  else
-    log "G3 (Disk) cache not configured (DYN_KVBM_DISK_CACHE_GB not set)"
-  fi
-
-  kv_cache_token_size=$(( g1_token_size + g2_token_size ))
-
-  log "KV cache summary:"
-  log "  G1 (GPU):  $g1_token_size tokens (${g1_memory_per_gpu_gib} GiB/GPU x $tp_size GPUs = ${g1_memory_total_gib} GiB total)"
-  log "  G2 (CPU):  $g2_token_size tokens (${g2_cache_gb} GB)"
-  log "  G3 (Disk): $g3_token_size tokens (${g3_cache_gb} GB)"
-  log "  Total:     $kv_cache_token_size tokens"
-  log "  Bytes per token: $bytes_per_token"
-  return 0
-}
-
-function compute_kv_cache_token_size_from_query()
-{
-  # Fallback: compute by sending queries (original method)
-  local kv_cache_token_size_file=$result_dir/kv_cache_token_size.out
-  log "Computing KV cache token size via queries..."
-  python3 $client_script \
-      --model $model \
-      --url $url:$port/v1 \
-      --osl 10 \
-      --out $kv_cache_token_size_file \
-      --compute_kv_cache_token_size \
-      --num_filler_tokens $num_filler_tokens \
-      --max_filler_prompts 200 \
-      --min_filler_prompts 10
-
-  kv_cache_token_size=$(grep cache $kv_cache_token_size_file | cut -d':' -f 2 | tr -d ' ')
-  log "KV cache token size from queries: $kv_cache_token_size"
-}
-
-function compute_kv_cache_token_size()
-{
-  if [[ $kv_cache_token_size -gt 0 ]]; then
-    log "KV cache token size already provided: $kv_cache_token_size"
-    return
-  fi
-
-  # Try to get from log files first (faster, no queries needed)
-  if compute_kv_cache_token_size_from_log; then
-    log "Successfully computed KV cache token size from log files"
-  else
-    # Fallback to query-based method
-    log "Falling back to query-based KV cache token size computation"
-    compute_kv_cache_token_size_from_query
-  fi
-}
-
-function main()
-{
-  process_args "$@"
-
-  report_file=$result_dir/$report_name
-
-  compute_kv_cache_token_size
-  local num_filler_prompts=$(( 1 + (kv_cache_token_size / num_filler_tokens) ))
-
-  log "Dumping CSV header"
-  python3 $client_script --dump_csv_header --out $report_file
-
-  log "Launching KV storage workload with ISLs: $all_isl"
-  for isl in $(echo $all_isl | tr ',' '\n'); do
-    log "Launching KV storage workload with ISL: $isl"
-    python3 $client_script \
-      --model $model \
-      --url $url:$port/v1 \
-      --isl $isl \
-      --osl 1 \
-      --out $report_file \
-      --num_filler_prompts $num_filler_prompts \
-      --num_filler_tokens $num_filler_tokens
-
-    log "Sleeping for 5 seconds before clearing KV cache"
-    sleep 5
-    clear_kv_cache
-  done
-
-  log "Done with KV storage workload run"
-}
-
-main "$@"
diff --git a/src/cloudai/workloads/ai_dynamo/lmbench.sh b/src/cloudai/workloads/ai_dynamo/lmbench.sh
deleted file mode 100644
index e37249b8b..000000000
--- a/src/cloudai/workloads/ai_dynamo/lmbench.sh
+++ /dev/null
@@ -1,119 +0,0 @@
-#! /bin/bash
-
-# Called as:
-    #   bash ./lmbench.sh --result_dir <result_dir> --report_file <report_file> --calc_percentile_csv_script <calc_percentile_csv_script> --gpus_per_node <gpus_per_node> -- <lmbench-cmdline-args>
-
-# Simple log function
-log() {
-  echo "[$(date +%F\ %T) $(hostname)]: $*"
-}
-
-# extract result_dir, report_file, and calc_percentile_csv_script from the command line arguments
-result_dir=""
-report_name="lmbench_report.csv"
-calc_percentile_csv_script="calc_percentile_csv.py"
-gpus_per_node=1
-lmbench_dir="/git/LMBenchmark"
-install_dir=""
-port=""
-cmd=""
-all_qps=""
-cmdline_args=()
-
-while [[ $# -gt 0 ]]; do
-  case "$1" in
-    --model)
-      model="$2"
-      shift 2
-      ;;
-    --url)
-      url="$2"
-      shift 2
-      ;;
-    --port)
-      port="$2"
-      shift 2
-      ;;
-    --install_dir)
-      install_dir="$2"
-      shift 2
-      ;;
-    --endpoint)
-      endpoint="$2"
-      shift 2
-      ;;
-    --result_dir)
-      result_dir="$2"
-      shift 2
-      ;;
-    --report_name)
-      report_name="$2"
-      shift 2
-      ;;
-    --extra_args)
-      extra_args="$2"
-      shift 2
-      ;;
-    --repo)
-      lmbench_dir="$2"
-      shift 2
-      ;;
-    --gpus_per_node)
-      gpus_per_node="$2"
-      shift 2
-      ;;
-    --cmd)
-      cmd="$2"
-      shift 2
-      ;;
-    --qps)
-      all_qps="$2"
-      shift 2
-      ;;
-    --)
-      shift
-      cmdline_args="$@"
-      break
-      ;;
-    --*)
-      shift 2
-      ;;
-    *)
-      shift
-      ;;
-  esac
-done
-
-pushd "$lmbench_dir" || { log "ERROR: Cannot cd to $lmbench_dir"; exit 1; }
-
-cmdline_args="${cmdline_args} ${extra_args}"
-# launch lmbench
-
-
-# run LMBenchmark, adjust the model name if you are using a different model
-# for detail how to config and run LMBenchmark: https://github.com/LMCache/LMBenchmark/tree/main/synthetic-multi-round-qa
-
-#export NUM_USERS_WARMUP="20"
-#export NUM_USERS="15"
-#export NUM_ROUNDS="20"
-#export SYSTEM_PROMPT="1000" # Shared system prompt length
-#export CHAT_HISTORY="7000" # User specific chat history length
-#export ANSWER_LEN="100" # Generation length per round
-#export INIT_USER_ID="1"
-#export TEST_DURATION="600" # Duration of the test in seconds
-
-log "Launching lmbench with args: $cmd $cmdline_args"
-
-artifacts_dir="${result_dir}/lmbench_artifacts"
-mkdir -p "$artifacts_dir"
-
-for qps in ${all_qps//,/ }; do
-    log "Launching lmbench with args: $cmd $cmdline_args --qps $qps --output $output_file"
-    output_file="${artifacts_dir}/lmbench_bench_output_${qps}.csv"
-    report_file="${result_dir}/${report_name//.csv/_${qps}.csv}"
-    eval "$cmd $cmdline_args --qps $qps --output $output_file" > "${artifacts_dir}/lmbench_bench_output_${qps}.log" 2>&1
-    python3 ${install_dir}/${calc_percentile_csv_script} --input $output_file --output ${report_file}
-done
-
-log "Done with lmbench run"
-popd
diff --git a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
index 16329ba66..06c552a17 100644
--- a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
@@ -118,9 +118,6 @@ def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
 
         args.extend(self._get_nested_toml_args(td.cmd_args.lmcache, "--lmcache-"))
         args.extend(self._get_nested_toml_args(td.cmd_args.genai_perf, "--genai_perf-"))
-        args.extend(self._get_nested_toml_args(td.cmd_args.aiperf, "--aiperf-"))
-        args.extend(self._get_nested_toml_args(td.cmd_args.lmbench, "--lmbench-"))
-        args.extend(self._get_nested_toml_args(td.cmd_args.kvstorage, "--kvstorage-"))
 
         return args
 
diff --git a/tests/ref_data/ai-dynamo.sbatch b/tests/ref_data/ai-dynamo.sbatch
index 332a0b0ac..08dd3899b 100644
--- a/tests/ref_data/ai-dynamo.sbatch
+++ b/tests/ref_data/ai-dynamo.sbatch
@@ -10,16 +10,16 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
 
 srun \
   --export=ALL \
   --mpi=pmix \
   -N2 \
   --container-image=nvcr.io/nvidia/ai-dynamo:24.09 \
-  --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache,__INSTALL_DIR__/LMBenchmark__e1406623c5e88878cf2b7fbd64fe6c47f7dcb66f:/git/LMBenchmark,__INSTALL_DIR__/huggingface:/workspace/hf_home \
+  --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache \
   --nodes=2 \
   --ntasks=2 \
   --ntasks-per-node=1 \
@@ -30,9 +30,11 @@ srun \
   /cloudai_install/ai_dynamo.sh \
   --user $USER \
   --install-dir /cloudai_install \
-  --huggingface-home /workspace/hf_home \
   --results-dir /cloudai_run_results \
   --dynamo-repo /git/dynamo \
+  --workloads genai_perf.sh \
+  --failure-marker /cloudai_run_results/failure-marker.txt \
+  --success-marker /cloudai_run_results/success-marker.txt \
   --dynamo-model "model" \
   --dynamo-backend "vllm" \
   --dynamo-workspace-path "/workspace" \
@@ -70,14 +72,4 @@ srun \
   --genai_perf-random-seed "42" \
   --genai_perf-request-count "100" \
   --genai_perf-synthetic-input-tokens-mean "550" \
-  --genai_perf-warmup-request-count "10" \
-  --lmbench-name "lmbench" \
-  --lmbench-cmd "python3 ./synthetic-multi-round-qa/multi-round-qa.py" \
-  --lmbench-script "lmbench.sh" \
-  --lmbench-report-name "lmbench_report.csv" \
-  --lmbench-repo "/git/LMBenchmark" \
-  --lmbench-qps "0.25,0.5,0.75,1.0,1.25,1.5,1.75,2.0" \
-  --custom_workload-name "custom_workload" \
-  --custom_workload-cmd "hostname" \
-  --custom_workload-script "custom_workload.sh" \
-  --custom_workload-report-name "custom_workload_report.csv"
\ No newline at end of file
+  --genai_perf-warmup-request-count "10"
\ No newline at end of file
diff --git a/tests/test_acceptance.py b/tests/test_acceptance.py
index 387a83220..b5ee76bbb 100644
--- a/tests/test_acceptance.py
+++ b/tests/test_acceptance.py
@@ -34,7 +34,6 @@
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
     GenAIPerf,
-    LMBench,
     LMCache,
     LMCacheArgs,
     WorkerBaseArgs,
@@ -487,7 +486,6 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                         }
                     ),
                     lmcache=LMCache(args=LMCacheArgs()),
-                    lmbench=LMBench(),
                 ),
             ),
         ),
diff --git a/tests/test_calc_percentile_csv.py b/tests/test_calc_percentile_csv.py
deleted file mode 100644
index f67b2f798..000000000
--- a/tests/test_calc_percentile_csv.py
+++ /dev/null
@@ -1,92 +0,0 @@
-# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import math
-
-import pytest
-
-from cloudai.workloads.ai_dynamo.calc_percentile_csv import compute_percentile, parse_float_safe, summarize
-
-
-def test_compute_percentile_empty():
-    assert math.isnan(compute_percentile([], 50))
-
-
-def test_compute_percentile_single_value():
-    assert compute_percentile([5.0], 50) == 5.0
-    assert compute_percentile([5.0], 0) == 5.0
-    assert compute_percentile([5.0], 100) == 5.0
-
-
-def test_compute_percentile_multiple_values():
-    values = [1.0, 2.0, 3.0, 4.0, 5.0]
-    assert compute_percentile(values, 0) == 1.0
-    assert compute_percentile(values, 50) == 3.0
-    assert compute_percentile(values, 100) == 5.0
-
-
-def test_compute_percentile_interpolation():
-    values = [1.0, 2.0, 3.0, 4.0]
-    # Should interpolate between values
-    result = compute_percentile(values, 50)
-    assert 2.0 <= result <= 3.0
-
-
-def test_parse_float_safe_valid():
-    assert parse_float_safe("3.14") == 3.14
-    assert parse_float_safe(42) == 42.0
-    assert parse_float_safe(3.14) == 3.14
-
-
-def test_parse_float_safe_invalid():
-    assert math.isnan(parse_float_safe("invalid"))
-    assert math.isnan(parse_float_safe(None))
-    assert math.isnan(parse_float_safe(""))
-
-
-def test_summarize_empty():
-    result = summarize([])
-    assert math.isnan(result["avg"])
-    assert math.isnan(result["min"])
-    assert math.isnan(result["max"])
-    assert math.isnan(result["p50"])
-
-
-def test_summarize_single_value():
-    result = summarize([10.0])
-    assert result["avg"] == 10.0
-    assert result["min"] == 10.0
-    assert result["max"] == 10.0
-    assert result["p50"] == 10.0
-
-
-def test_summarize_multiple_values():
-    values = [1.0, 2.0, 3.0, 4.0, 5.0]
-    result = summarize(values)
-    assert result["avg"] == 3.0
-    assert result["min"] == 1.0
-    assert result["max"] == 5.0
-    assert result["p50"] == 3.0
-    assert result["p25"] == 2.0
-    assert result["p75"] == 4.0
-
-
-def test_summarize_percentiles():
-    values = [float(x) for x in range(1, 101)]  # 1 to 100
-    result = summarize(values)
-    assert result["p1"] == pytest.approx(1.99, abs=0.1)
-    assert result["p99"] == pytest.approx(99.01, abs=0.1)
-    assert result["p50"] == pytest.approx(50.5, abs=0.1)
diff --git a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
index 35c5a90f6..96039fd85 100644
--- a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
+++ b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
@@ -27,7 +27,6 @@
     AIDynamoSlurmCommandGenStrategy,
     AIDynamoTestDefinition,
     GenAIPerf,
-    LMBench,
     LMCache,
     LMCacheArgs,
     WorkerBaseArgs,
@@ -83,7 +82,6 @@ def cmd_args() -> AIDynamoCmdArgs:
             }
         ),
         lmcache=LMCache(args=LMCacheArgs()),
-        lmbench=LMBench(),
     )
 
 
diff --git a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
index 135d773b2..a6f42a015 100644
--- a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
+++ b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
@@ -28,7 +28,6 @@
     AIDynamoKubernetesJsonGenStrategy,
     AIDynamoTestDefinition,
     GenAIPerf,
-    LMBench,
     LMCache,
     LMCacheArgs,
     WorkerBaseArgs,
@@ -53,7 +52,6 @@ def dynamo(request: Any) -> AIDynamoTestDefinition:
             ),
             genai_perf=GenAIPerf(),
             lmcache=LMCache(args=LMCacheArgs()),
-            lmbench=LMBench(),
         ),
     )
     if request.param == "disagg":
diff --git a/tests/workloads/ai_dynamo/test_report_gen_strategy.py b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
index 28b08020d..37f01d7fb 100644
--- a/tests/workloads/ai_dynamo/test_report_gen_strategy.py
+++ b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
@@ -26,7 +26,6 @@
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
     GenAIPerf,
-    LMBench,
     LMCache,
     LMCacheArgs,
     WorkerBaseArgs,
@@ -59,17 +58,15 @@ def ai_dynamo_tr(tmp_path: Path) -> TestRun:
             dynamo=AIDynamoArgs(prefill_worker=WorkerConfig(args=WorkerBaseArgs())),
             genai_perf=GenAIPerf(),
             lmcache=LMCache(args=LMCacheArgs()),
-            lmbench=LMBench(),
         ),
     )
     tr = TestRun(name="ai_dynamo", test=test, num_nodes=1, nodes=[], output_path=tmp_path)
 
     csv_content = get_csv_content()
-    # Create CSV file with the name expected by the new implementation
     (tr.output_path / "genai_perf_report.csv").write_text(csv_content)
-    # Also create the file pattern expected by was_run_successful
     (tr.output_path / "profile_genai_perf.csv").write_text(csv_content)
     (tr.output_path / "profile_genai_perf.json").write_text("mock json content")
+    (tr.output_path / test.success_marker()).touch()
 
     return tr
 

From fe4154e753d2e85d152e33d878fda27f4bc260ad Mon Sep 17 00:00:00 2001
From: Kapil Arya <kapila@nvidia.com>
Date: Thu, 19 Feb 2026 11:29:23 -0800
Subject: [PATCH 3/5] Fix ruff lint errors in ai_dynamo and kubernetes_system.

Co-authored-by: Cursor <cursoragent@cursor.com>
---
 conf/experimental/ai_dynamo/test/sglang.toml  |  27 +-
 conf/experimental/ai_dynamo/test/vllm.toml    |  24 +-
 .../ai_dynamo/test_scenario/sglang_slurm.toml |   6 +-
 .../test_scenario/vllm_kvbm_slurm.toml        |  17 +-
 .../ai_dynamo/test_scenario/vllm_slurm.toml   |   1 -
 src/cloudai/_core/base_installer.py           |  16 +-
 src/cloudai/configurator/cloudai_gym.py       |   2 +-
 src/cloudai/models/workload.py                |   4 +-
 .../systems/kubernetes/kubernetes_system.py   |  23 +-
 .../systems/slurm/single_sbatch_runner.py     |   2 +-
 .../slurm/slurm_command_gen_strategy.py       |  10 +-
 src/cloudai/systems/slurm/slurm_installer.py  |  19 ++
 src/cloudai/workloads/ai_dynamo/__init__.py   |   4 -
 src/cloudai/workloads/ai_dynamo/ai_dynamo.py  | 247 ++++++++++--------
 src/cloudai/workloads/ai_dynamo/ai_dynamo.sh  |  92 +++----
 src/cloudai/workloads/ai_dynamo/genai_perf.sh |  17 +-
 .../ai_dynamo/kubernetes_json_gen_strategy.py |   4 +-
 .../ai_dynamo/report_generation_strategy.py   |   8 +-
 .../ai_dynamo/slurm_command_gen_strategy.py   |  80 +++---
 .../megatron_bridge/megatron_bridge.py        |   2 +-
 src/cloudai/workloads/nemo_run/nemo_run.py    |   2 +-
 .../workloads/nixl_perftest/nixl_perftest.py  |   2 +-
 tests/ref_data/ai-dynamo.sbatch               |  48 ++--
 tests/ref_data/ddlb.sbatch                    |   6 +-
 tests/ref_data/deepep-benchmark.sbatch        |   6 +-
 tests/ref_data/gpt-no-hook.sbatch             |   6 +-
 tests/ref_data/gpt-pre-test.sbatch            |   8 +-
 tests/ref_data/grok-no-hook.sbatch            |   6 +-
 tests/ref_data/grok-pre-test.sbatch           |   8 +-
 tests/ref_data/megatron-run.sbatch            |   6 +-
 tests/ref_data/nccl.sbatch                    |   6 +-
 tests/ref_data/nemo-run-no-hook.sbatch        |   6 +-
 tests/ref_data/nemo-run-pre-test.sbatch       |   8 +-
 tests/ref_data/nemo-run-vboost.sbatch         |   6 +-
 tests/ref_data/nixl-kvbench.sbatch            |  12 +-
 tests/ref_data/nixl-perftest.sbatch           |  12 +-
 tests/ref_data/nixl_bench.sbatch              |   8 +-
 tests/ref_data/osu-bench.sbatch               |   6 +-
 tests/ref_data/sleep.sbatch                   |   2 +-
 tests/ref_data/slurm_container.sbatch         |   6 +-
 tests/ref_data/triton-inference.sbatch        |   6 +-
 tests/ref_data/ucc.sbatch                     |   6 +-
 tests/ref_data/vllm-disagg.sbatch             |  12 +-
 tests/ref_data/vllm.sbatch                    |   8 +-
 tests/test_acceptance.py                      |  21 +-
 tests/test_single_sbatch_runner.py            |   2 +-
 .../test_command_gen_strategy_slurm.py        |  24 +-
 .../test_json_gen_strategy_kubernetes.py      |   8 +-
 .../ai_dynamo/test_report_gen_strategy.py     |  12 +-
 .../test_command_gen_strategy_slurm.py        |   2 +-
 50 files changed, 443 insertions(+), 433 deletions(-)

diff --git a/conf/experimental/ai_dynamo/test/sglang.toml b/conf/experimental/ai_dynamo/test/sglang.toml
index 812cb8f85..049da4705 100644
--- a/conf/experimental/ai_dynamo/test/sglang.toml
+++ b/conf/experimental/ai_dynamo/test/sglang.toml
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -20,34 +20,22 @@ test_template_name = "AIDynamo"
 
 [cmd_args]
 docker_image_url = "nvcr.io/nvidia/ai-dynamo/sglang-runtime:0.9.0"
-hf_home_path = "/lustre/fsw/coreai_tritoninference_triton3/kapila/huggingface"
 num_nodes = 2
 workloads = "genai_perf.sh"
 
   [cmd_args.dynamo]
-  backend = "vllm"
+  backend = "sglang"
   model = "Qwen/Qwen3-0.6B"
-  workspace-path = "/workspace"
-  node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;"
-  ingress-cmd = "python -m dynamo.frontend" # --router-mode kv"
-  port = 8787
   endpoint = "v1/chat/completions"
-  etcd-cmd = "etcd --log-level info --data-dir /tmp/etcd "
-  nats-cmd = "nats-server -js"
-  etcd-port = 2379
-  nats-port = 4222
-  worker-error-pattern = "zmq.error.ZMQError:.Address.already.in.use|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|ValueError:.a.python.*async.generator:.EngineDeadError:.EngineCore.encountered.an.issue|ZeroDivisionError:.integer.division.or.modulo.by.zero|ERROR.core.run_engine_core:.EngineCore.encountered.a.fatal.error|Exception:.Failed.to.fetch.model|ERROR.*Engine.core.proc.EngineCore_.*died.unexpectedly|RuntimeError:.Engine.core.initialization.failed."
 
     [cmd_args.dynamo.prefill_worker]
     num-nodes = 1
     cmd = 'python3 -m dynamo.sglang'
+    extra-args = "--trust-remote-code --skip-tokenizer-init --enable-metrics"
     worker-initialized-regex = 'register._register_llm_with_runtime_config:.Successfully.registered.LLM.with.runtime.config'
     multiple-workers-per-node = "false"
-    extra-args = "--trust-remote-code --skip-tokenizer-init --enable-metrics"
 
       [cmd_args.dynamo.prefill_worker.args]
-      model-path = "%MODEL%"
-      served-model-name = "%MODEL%"
       page-size = 16
       tensor-parallel-size = 1
       pipeline-parallel-size = 1
@@ -62,12 +50,9 @@ workloads = "genai_perf.sh"
     cmd = 'python3 -m dynamo.sglang'
     extra-args = "--trust-remote-code --skip-tokenizer-init --enable-metrics"
     worker-initialized-regex = 'register._register_llm_with_runtime_config:.Successfully.registered.LLM.with.runtime.config'
-
     multiple-workers-per-node = "false"
 
       [cmd_args.dynamo.decode_worker.args]
-      model-path = "%MODEL%"
-      served-model-name = "%MODEL%"
       page-size = 16
       tensor-parallel-size = 1
       pipeline-parallel-size = 1
@@ -87,7 +72,6 @@ workloads = "genai_perf.sh"
     extra_config_enable_nixl_storage = true
     extra_config_nixl_backend = "GDS_MT"
     extra_config_nixl_file_pool_size = 64
-    extra_config_nixl_path = "%CACHEDIR%"
 
     enable_controller = true
     lmcache_instance_id = "lmcache_default_instance"
@@ -100,12 +84,7 @@ workloads = "genai_perf.sh"
   extra-args = "--streaming --verbose -- -v --async"
 
     [cmd_args.genai_perf.args]
-    model = "%MODEL%"
-    url = "%URL%"
-    endpoint = "%ENDPOINT%"
     endpoint-type = "chat"
-    artifact-dir = "%RESULTS_DIR%/genai_perf_artifacts"
-    profile-export-file = "profile.json"
     extra-inputs = 'min_tokens:10'
     output-tokens-mean = 500
     output-tokens-stddev = 0
diff --git a/conf/experimental/ai_dynamo/test/vllm.toml b/conf/experimental/ai_dynamo/test/vllm.toml
index e9f83c688..9e72a8aaa 100644
--- a/conf/experimental/ai_dynamo/test/vllm.toml
+++ b/conf/experimental/ai_dynamo/test/vllm.toml
@@ -21,33 +21,21 @@ test_template_name = "AIDynamo"
 [cmd_args]
 docker_image_url = "nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.8.1"
 num_nodes = 2
-hf_home_path = "/opt/shared/huggingface"
 workloads = "genai_perf.sh"
 
   [cmd_args.dynamo]
   backend = "vllm"
   model = "Qwen/Qwen3-0.6B"
-  workspace-path = "/workspace"
-  node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;"
-  ingress-cmd = "python -m dynamo.frontend --router-mode kv"
-  port = 8787
   endpoint = "v1/chat/completions"
-  etcd-cmd = "etcd --log-level info --data-dir /tmp/etcd "
-  nats-cmd = "nats-server -js"
-  etcd-port = 2379
-  nats-port = 4222
-  worker-error-pattern = "zmq.error.ZMQError:.Address.already.in.use|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|ValueError:.a.python.*async.generator:.EngineDeadError:.EngineCore.encountered.an.issue|ZeroDivisionError:.integer.division.or.modulo.by.zero|ERROR.core.run_engine_core:.EngineCore.encountered.a.fatal.error|Exception:.Failed.to.fetch.model|ERROR.*Engine.core.proc.EngineCore_.*died.unexpectedly|RuntimeError:.Engine.core.initialization.failed."
 
     [cmd_args.dynamo.prefill_worker]
     num-nodes = 1
-    #node-list = ""
-    cmd = 'python3 -m dynamo.vllm --is-prefill-worker' # --enforce-eager'
+    cmd = 'python3 -m dynamo.vllm --is-prefill-worker'
     worker-initialized-regex = 'VllmWorker.*has.been.initialized'
     multiple-workers-per-node = "false"
     extra-args = "--no-enable-expert-parallel"
 
       [cmd_args.dynamo.prefill_worker.args]
-      model = "%MODEL%"
       gpu-memory-utilization = 0.8
       tensor-parallel-size = 8
       pipeline-parallel-size = 1
@@ -55,14 +43,12 @@ workloads = "genai_perf.sh"
 
     [cmd_args.dynamo.decode_worker]
     num-nodes = 1
-    #node-list = ""
-    cmd = 'python3 -m dynamo.vllm' # --enforce-eager'
+    cmd = 'python3 -m dynamo.vllm'
     worker-initialized-regex = 'VllmWorker.*has.been.initialized'
     multiple-workers-per-node = "false"
     extra-args = "--no-enable-expert-parallel"
 
       [cmd_args.dynamo.decode_worker.args]
-      model = "%MODEL%"
       gpu-memory-utilization = 0.8
       tensor-parallel-size = 8
       pipeline-parallel-size = 1
@@ -79,7 +65,6 @@ workloads = "genai_perf.sh"
     extra_config_enable_nixl_storage = true
     extra_config_nixl_backend = "GDS_MT"
     extra_config_nixl_file_pool_size = 64
-    extra_config_nixl_path = "%CACHEDIR%"
 
     enable_controller = true
     lmcache_instance_id = "lmcache_default_instance"
@@ -92,12 +77,7 @@ workloads = "genai_perf.sh"
   extra-args = "--streaming --verbose -- -v --async"
 
     [cmd_args.genai_perf.args]
-    model = "%MODEL%"
-    url = "%URL%"
-    endpoint = "%ENDPOINT%"
     endpoint-type = "chat"
-    artifact-dir = "%RESULTS_DIR%/genai_perf_artifacts"
-    profile-export-file = "profile.json"
     extra-inputs = 'min_tokens:10'
     output-tokens-mean = 500
     output-tokens-stddev = 0
diff --git a/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
index dfcdb7196..cf8ee3083 100644
--- a/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/sglang_slurm.toml
@@ -14,7 +14,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-name = "dynamo_sglang_kvbm"
+name = "dynamo_sglang"
 
 [[Tests]]
 id = "sglang-Qwen3-0.6B"
@@ -24,11 +24,11 @@ time_limit = "00:20:00"
 extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
 
   [Tests.cmd_args]
-  num_nodes = 2                                     # 1 prefill node + 1 decode node
+  num_nodes = 2               # 1 prefill node + 1 decode node
   workloads = "genai_perf.sh"
 
     [Tests.cmd_args.dynamo]
-    model = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B" #Qwen/Qwen3-0.6B"
+    model = "Qwen/Qwen3-0.6B"
     node-setup-cmd = "hostname"
 
       [Tests.cmd_args.dynamo.prefill_worker]
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
index 8f302346f..e8aae86cf 100644
--- a/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_kvbm_slurm.toml
@@ -24,16 +24,12 @@ time_limit = "20:00:00"
 extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
 
   [Tests.cmd_args]
-  #storage_cache_dir = "/raid/users/kapila"
-  #storage_cache_dir = "/mnt/vast/kapila"
-  #hf_home_path = "/mnt/vast/disagg_inf/huggingface"
-  num_nodes = 2                                     # 1 prefill node + 1 decode node
+  storage_cache_dir = "/mnt/vast"
+  num_nodes = 2                   # 1 prefill node + 1 decode node
   workloads = "genai_perf.sh"
 
     [Tests.cmd_args.dynamo]
     model = "Qwen/Qwen3-0.6B"
-    ingress-cmd = "python -m dynamo.frontend --router-mode kv" # --router-mode kv --no-kv-events --kv-overlap-score-weight=0" # --router-mode kv"
-    #node-setup-cmd = "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u; (cd /opt/dynamo/venv/lib/python3.12/site-packages/dynamo && patch -p4 < /cloudai_install/clear_kv_blocks_engine_route.patch)"
     node-setup-cmd = "hostname"
 
       [Tests.cmd_args.dynamo.prefill_worker]
@@ -41,16 +37,17 @@ extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
 
         [Tests.cmd_args.dynamo.prefill_worker.args]
         tensor-parallel-size = 2
-        connector = "kvbm nixl"                        #"kvbm" #["none", "kvbm"]
+        connector = "kvbm nixl"
 
       [Tests.cmd_args.dynamo.decode_worker]
       num-nodes = 1
 
         [Tests.cmd_args.dynamo.decode_worker.args]
         tensor-parallel-size = 2
-        connector = "nixl"                        #"kvbm" #["none", "kvbm"]
+        connector = "nixl"
 
   [Tests.extra_env_vars]
+  # Both variants needed for cross-version CUFile compatibility
   CUFILE_LOG_LEVEL = "INFO"
   CUFILE_LOGGING_LEVEL = "INFO"
   PYTHONHASHSEED = "0"
@@ -81,5 +78,5 @@ extra_container_mounts = ["/run/udev:/run/udev", "/tmp:/tmp"]
   # vLLM Flags
   VLLM_SERVER_DEV_MODE = "1"
 
-  DYN_KVBM_LEADER_ZMQ_PUB_PORT="57001"
-  DYN_KVBM_LEADER_ZMQ_ACK_PORT="57002"
\ No newline at end of file
+  DYN_KVBM_LEADER_ZMQ_PUB_PORT = "57001"
+  DYN_KVBM_LEADER_ZMQ_ACK_PORT = "57002"
diff --git a/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml b/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
index 45858d925..2fc42ed36 100644
--- a/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
+++ b/conf/experimental/ai_dynamo/test_scenario/vllm_slurm.toml
@@ -25,7 +25,6 @@ time_limit = "00:10:00"
   [Tests.cmd_args]
   num_nodes = 2 # 1 prefill node + 1 decode node
   #storage_cache_dir = "/opt/shared"
-  hf_home_path = "/opt/shared/huggingface"
 
     [Tests.cmd_args.dynamo.prefill_worker]
     num-nodes = 1
diff --git a/src/cloudai/_core/base_installer.py b/src/cloudai/_core/base_installer.py
index 734ad9dd6..d53454c4b 100644
--- a/src/cloudai/_core/base_installer.py
+++ b/src/cloudai/_core/base_installer.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2024-2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2024-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -142,8 +142,11 @@ def is_installed(self, items: Iterable[Installable]) -> InstallStatusResult:
         """
         if not prepare_output_dir(self.system.install_path):
             return InstallStatusResult(False, f"Error preparing install dir '{self.system.install_path.absolute()}'")
-        elif not prepare_output_dir(self.system.hf_home_path):
-            return InstallStatusResult(False, f"Error preparing hf home dir '{self.system.hf_home_path.absolute()}'")
+        if not prepare_output_dir(self.system.hf_home_path):
+            logging.warning(
+                f"HF home path '{self.system.hf_home_path.absolute()}' is not accessible locally. "
+                "This is expected if the path only exists on compute nodes."
+            )
 
         install_results: dict[Installable, InstallStatusResult] = {}
         for item in self.all_items(items):
@@ -182,8 +185,11 @@ def install(self, items: Iterable[Installable]) -> InstallStatusResult:
 
         if not prepare_output_dir(self.system.install_path):
             return InstallStatusResult(False, f"Error preparing install dir '{self.system.install_path.absolute()}'")
-        elif not prepare_output_dir(self.system.hf_home_path):
-            return InstallStatusResult(False, f"Error preparing hf home dir '{self.system.hf_home_path.absolute()}'")
+        if not prepare_output_dir(self.system.hf_home_path):
+            logging.warning(
+                f"HF home path '{self.system.hf_home_path.absolute()}' is not accessible locally. "
+                "This is expected if the path only exists on compute nodes."
+            )
 
         logging.debug(f"Going to install {len(set(items))} uniq item(s) (total is {len(list(items))})")
 
diff --git a/src/cloudai/configurator/cloudai_gym.py b/src/cloudai/configurator/cloudai_gym.py
index b5495b891..01b643881 100644
--- a/src/cloudai/configurator/cloudai_gym.py
+++ b/src/cloudai/configurator/cloudai_gym.py
@@ -99,7 +99,7 @@ def step(self, action: Any) -> Tuple[list, float, bool, dict]:
         """
         self.test_run = self.test_run.apply_params_set(action)
 
-        if not self.test_run.test.constraint_check(self.test_run):
+        if not self.test_run.test.constraint_check(self.test_run, self.runner.system):
             logging.info("Constraint check failed. Skipping step.")
             return [-1.0], -1.0, True, {}
 
diff --git a/src/cloudai/models/workload.py b/src/cloudai/models/workload.py
index 1745ae734..3d6d264b2 100644
--- a/src/cloudai/models/workload.py
+++ b/src/cloudai/models/workload.py
@@ -20,7 +20,7 @@
 
 from pydantic import BaseModel, ConfigDict, Field
 
-from cloudai.core import GitRepo, Installable, JobStatusResult, PythonExecutable, TestRun
+from cloudai.core import GitRepo, Installable, JobStatusResult, PythonExecutable, System, TestRun
 
 
 class CmdArgs(BaseModel):
@@ -123,7 +123,7 @@ def extra_args_str(self) -> str:
     def installables(self) -> list[Installable]:
         return [*self.git_repos]
 
-    def constraint_check(self, tr: TestRun) -> bool:
+    def constraint_check(self, tr: TestRun, system: Optional[System]) -> bool:
         return True
 
     @property
diff --git a/src/cloudai/systems/kubernetes/kubernetes_system.py b/src/cloudai/systems/kubernetes/kubernetes_system.py
index a6db252ec..f34408935 100644
--- a/src/cloudai/systems/kubernetes/kubernetes_system.py
+++ b/src/cloudai/systems/kubernetes/kubernetes_system.py
@@ -49,12 +49,12 @@ def __getstate__(self) -> dict[str, Any]:
         state = self.model_dump(exclude={"_core_v1", "_batch_v1", "_custom_objects_api"})
         return state
 
-    def __deepcopy__(self, memo: dict[int, Any] | None = None) -> "KubernetesSystem":  # noqa: Vulture
+    def __deepcopy__(self, _memo: dict[int, Any] | None = None) -> "KubernetesSystem":
         """
         Create a deep copy of the KubernetesSystem instance.
 
         Args:
-            memo: Dictionary to keep track of objects that have already been copied.
+            _memo: Dictionary to keep track of objects that have already been copied.
 
         Returns:
             A new KubernetesSystem instance with reinitialized Kubernetes clients.
@@ -64,7 +64,7 @@ def __deepcopy__(self, memo: dict[int, Any] | None = None) -> "KubernetesSystem"
         new_instance.model_post_init(None)
         return new_instance
 
-    def model_post_init(self, __context: Any = None) -> None:  # noqa: Vulture
+    def model_post_init(self, _context: Any = None) -> None:
         """Initialize the KubernetesSystem instance."""
         kube_config_path = self.kube_config_path
         if not kube_config_path.is_file():
@@ -305,20 +305,23 @@ def _run_genai_perf(self, job: KubernetesJob) -> None:
         pod_wrapper_path = "/tmp/genai_perf.sh"
 
         logging.debug(f"Copying wrapper script {wrapper_script_path} to pod {frontend_pod}")
-        cp_wrapper_cmd = f"kubectl cp {wrapper_script_path} {self.default_namespace}/{frontend_pod}:{pod_wrapper_path}"
-        subprocess.run(cp_wrapper_cmd, shell=True, capture_output=True, text=True, check=True)
-
-        # Make wrapper script executable
+        cp_wrapper_cmd = [
+            "kubectl",
+            "cp",
+            str(wrapper_script_path),
+            f"{self.default_namespace}/{frontend_pod}:{pod_wrapper_path}",
+        ]
+        subprocess.run(cp_wrapper_cmd, capture_output=True, text=True, check=True)
 
+        chmod_cmd = ["chmod", "+x", pod_wrapper_path]
         kubectl_exec_cmd = ["kubectl", "exec", "-n", self.default_namespace, frontend_pod, "--", *chmod_cmd]
-        logging.debug(f"Executing command to make wrapper script executable in pod={frontend_pod} cmd={kubectl_exec_cmd}")
+        logging.debug(f"Making wrapper script executable in pod={frontend_pod}")
         try:
             result = subprocess.run(kubectl_exec_cmd, capture_output=True, text=True, timeout=60 * 10)
-            logging.debug(f"chmod exited with code {result.returncode}. stdout: {result.stdout}, stderr: {result.stderr}")
+            logging.debug(f"chmod exited {result.returncode}: {result.stdout} {result.stderr}")
         except Exception as e:
             logging.debug(f"Error making wrapper script executable in pod '{frontend_pod}': {e}")
 
-
         # Build genai-perf command arguments
         genai_perf_cmd_parts = ["genai-perf", "profile", f"--artifact-dir={genai_perf_results_path}"]
         if tdef.cmd_args.genai_perf.args:
diff --git a/src/cloudai/systems/slurm/single_sbatch_runner.py b/src/cloudai/systems/slurm/single_sbatch_runner.py
index 7bb563e26..2ea28d554 100644
--- a/src/cloudai/systems/slurm/single_sbatch_runner.py
+++ b/src/cloudai/systems/slurm/single_sbatch_runner.py
@@ -130,7 +130,7 @@ def unroll_dse(self, tr: TestRun) -> Generator[TestRun, None, None]:
             next_tr.step = idx + 1
             next_tr.output_path = self.get_job_output_path(next_tr)
 
-            if next_tr.test.constraint_check(next_tr):
+            if next_tr.test.constraint_check(next_tr, self.system):
                 yield next_tr
 
     def get_global_env_vars(self) -> str:
diff --git a/src/cloudai/systems/slurm/slurm_command_gen_strategy.py b/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
index 3893769a0..770bb6ba0 100644
--- a/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
+++ b/src/cloudai/systems/slurm/slurm_command_gen_strategy.py
@@ -49,8 +49,6 @@ def __init__(self, system: System, test_run: TestRun) -> None:
         super().__init__(system, test_run)
         self.system = cast(SlurmSystem, system)
         self.test_run = test_run
-        self.container_install_path = "/cloudai_install"
-        self.container_results_path = "/cloudai_run_results"
 
         self._node_spec_cache: dict[str, tuple[int, list[str]]] = {}
 
@@ -81,9 +79,9 @@ def container_mounts(self) -> list[str]:
             repo_mounts.append(f"{path}:{repo.container_mount}")
 
         mounts = [
-            f"{self.test_run.output_path.absolute()}:{self.container_results_path}",
-            f"{self.system.install_path.absolute()}:{self.container_install_path}",
+            f"{self.system.install_path.absolute()}",
             f"{self.test_run.output_path.absolute()}",
+            f"{self.system.hf_home_path.absolute()}",
             *tdef.extra_container_mounts,
             *repo_mounts,
             *self._container_mounts(),
@@ -304,9 +302,7 @@ def _ranks_mapping_cmd(self) -> str:
     def _metadata_cmd(self) -> str:
         (self.test_run.output_path.absolute() / "metadata").mkdir(parents=True, exist_ok=True)
         num_nodes, _ = self.get_cached_nodes_spec()
-        metadata_script_path = self.container_install_path
-        if not self.image_path():
-            metadata_script_path = str(self.system.install_path.absolute())
+        metadata_script_path = str(self.system.install_path.absolute())
         return " ".join(
             [
                 *self.gen_srun_prefix(),
diff --git a/src/cloudai/systems/slurm/slurm_installer.py b/src/cloudai/systems/slurm/slurm_installer.py
index 9504541e2..c471db2ef 100644
--- a/src/cloudai/systems/slurm/slurm_installer.py
+++ b/src/cloudai/systems/slurm/slurm_installer.py
@@ -102,6 +102,14 @@ def install_one(self, item: Installable) -> InstallStatusResult:
             shutil.copyfile(item.src, item.installed_path, follow_symlinks=False)
             return InstallStatusResult(True)
         elif isinstance(item, HFModel):
+            if not self._is_hf_home_accessible():
+                item.installed_path = self.system.hf_home_path
+                return InstallStatusResult(
+                    True,
+                    f"HF home path '{self.system.hf_home_path}' is not accessible locally, "
+                    f"skipping download of {item.model_name}. "
+                    "Ensure the model is available on compute nodes.",
+                )
             return self.hf_model_manager.download_model(item)
 
         return InstallStatusResult(False, f"Unsupported item type: {type(item)}")
@@ -149,6 +157,9 @@ def is_installed_one(self, item: Installable) -> InstallStatusResult:
                 return InstallStatusResult(True)
             return InstallStatusResult(False, f"File {item.installed_path} does not exist")
         elif isinstance(item, HFModel):
+            if not self._is_hf_home_accessible():
+                item.installed_path = self.system.hf_home_path
+                return InstallStatusResult(True)
             return self.hf_model_manager.is_model_downloaded(item)
 
         return InstallStatusResult(False, f"Unsupported item type: {type(item)}")
@@ -174,6 +185,14 @@ def mark_as_installed_one(self, item: Installable) -> InstallStatusResult:
 
         return InstallStatusResult(False, f"Unsupported item type: {type(item)}")
 
+    def _is_hf_home_accessible(self) -> bool:
+        """Check if hf_home_path is accessible locally (parent directory exists and is writable)."""
+        try:
+            parent = self.system.hf_home_path.resolve().parent
+            return parent.exists() and parent.is_dir()
+        except (OSError, RuntimeError):
+            return False
+
     def _install_docker_image(self, item: DockerImage) -> DockerImageCacheResult:
         res = self.docker_image_cache_manager.ensure_docker_image(item.url, item.cache_filename)
         if res.success and res.docker_image_path:
diff --git a/src/cloudai/workloads/ai_dynamo/__init__.py b/src/cloudai/workloads/ai_dynamo/__init__.py
index fca0ce381..b5f030eeb 100644
--- a/src/cloudai/workloads/ai_dynamo/__init__.py
+++ b/src/cloudai/workloads/ai_dynamo/__init__.py
@@ -18,11 +18,9 @@
     AIDynamoArgs,
     AIDynamoCmdArgs,
     AIDynamoTestDefinition,
-    DecodeWorkerArgs,
     GenAIPerf,
     LMCache,
     LMCacheArgs,
-    PrefillWorkerArgs,
     WorkerBaseArgs,
     WorkerConfig,
 )
@@ -37,11 +35,9 @@
     "AIDynamoReportGenerationStrategy",
     "AIDynamoSlurmCommandGenStrategy",
     "AIDynamoTestDefinition",
-    "DecodeWorkerArgs",
     "GenAIPerf",
     "LMCache",
     "LMCacheArgs",
-    "PrefillWorkerArgs",
     "WorkerBaseArgs",
     "WorkerConfig",
 ]
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
index de61d8fb5..60bd6f9b0 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
@@ -16,7 +16,7 @@
 
 import logging
 from pathlib import Path
-from typing import Optional
+from typing import Literal, Optional, cast
 
 from pydantic import (
     AliasChoices,
@@ -33,9 +33,11 @@
     HFModel,
     Installable,
     JobStatusResult,
+    System,
     TestRun,
 )
 from cloudai.models.workload import CmdArgs, TestDefinition
+from cloudai.systems.slurm import SlurmSystem
 
 
 class Args(BaseModel):
@@ -47,14 +49,18 @@ class Args(BaseModel):
 class Workload(BaseModel):
     """Arguments for custom workloads."""
 
-    model_config = ConfigDict(extra="allow", populate_by_name=True)
+    model_config = ConfigDict(extra="forbid", populate_by_name=True)
 
     name: str
     cmd: str
     script: File
-    report_name: Optional[str] = Field(default=None, serialization_alias="report-name")
+    report_name: Optional[str] = Field(
+        default=None,
+        serialization_alias="report-name",
+        validation_alias=AliasChoices("report-name", "report_name"),
+    )
     repo: Optional[GitRepo] = None
-    args: Optional[Args] = None
+    args: Args = Field(default_factory=Args)
     extra_args: str | list[str] | None = Field(
         default=None,
         serialization_alias="extra-args",
@@ -62,12 +68,9 @@ class Workload(BaseModel):
     )
 
     @model_validator(mode="after")
-    def validate_workload(self) -> "Workload":
-        """Validate workload."""
+    def _set_report_name(self) -> "Workload":
         if self.report_name is None:
             self.report_name = f"{self.name}_report.csv"
-        if self.args is None:
-            self.args = Args()
         return self
 
 
@@ -76,32 +79,43 @@ class WorkerBaseArgs(Args):
 
     model_config = ConfigDict(extra="allow", populate_by_name=True)
 
-    data_parallel_size: int | list[int] | None = Field(
-        default=None,
-        serialization_alias="data-parallel-size",
-        validation_alias=AliasChoices("data-parallel-size", "data_parallel_size"),
-    )
+    # Used by VLLM backend.
+    model: str | None = None
+
+    # Used by SGLang/SGLang-DSR1 backends.
+    model_path: str | None = Field(default=None, serialization_alias="model-path")
+    served_model_name: str | None = Field(default=None, serialization_alias="served-model-name")
+
     gpu_memory_utilization: float | list[float] | None = Field(
-        default=None,
+        default=0.8,
         serialization_alias="gpu-memory-utilization",
         validation_alias=AliasChoices("gpu-memory-utilization", "gpu_memory_utilization"),
     )
     pipeline_parallel_size: int | list[int] | None = Field(
-        default=None,
+        default=1,
         serialization_alias="pipeline-parallel-size",
         validation_alias=AliasChoices("pipeline-parallel-size", "pipeline_parallel_size"),
     )
     tensor_parallel_size: int | list[int] | None = Field(
-        default=None,
+        default=1,
         serialization_alias="tensor-parallel-size",
         validation_alias=AliasChoices("tensor-parallel-size", "tensor_parallel_size"),
     )
+    data_parallel_size: int | list[int] | None = Field(
+        default=None,
+        serialization_alias="data-parallel-size",
+        validation_alias=AliasChoices("data-parallel-size", "data_parallel_size"),
+    )
 
 
 class WorkerConfig(BaseModel):
     """Configuration for workers."""
 
-    model_config = ConfigDict(extra="allow", populate_by_name=True)
+    model_config = ConfigDict(extra="forbid", populate_by_name=True)
+
+    cmd: str
+    worker_initialized_regex: str
+    multiple_workers_per_node: bool = False
 
     num_nodes: int | list[int] = Field(
         default=1, serialization_alias="num-nodes", validation_alias=AliasChoices("num-nodes", "num_nodes")
@@ -117,58 +131,79 @@ class WorkerConfig(BaseModel):
     )
 
 
-class PrefillWorkerArgs(WorkerBaseArgs):
-    """Arguments for prefill worker."""
-
-    pass
-
-
-class DecodeWorkerArgs(WorkerBaseArgs):
-    """Arguments for decode worker."""
-
-    pass
-
-
 class AIDynamoArgs(BaseModel):
     """Arguments for AI Dynamo setup."""
 
-    model_config = ConfigDict(extra="allow", populate_by_name=True)
+    model_config = ConfigDict(extra="forbid", populate_by_name=True)
 
     model: str = "Qwen/Qwen3-0.6B"
-    backend: str = "vllm"
+    backend: Literal["vllm", "sglang", "sglang_dsr1"] = "vllm"
     connector: Optional[str | list[str]] = None
     workspace_path: str = Field(
         default="/workspace",
         serialization_alias="workspace-path",
         validation_alias=AliasChoices("workspace-path", "workspace_path"),
     )
+    ingress_cmd: str = Field(
+        default="python -m dynamo.frontend --router-mode kv",
+        serialization_alias="ingress-cmd",
+        validation_alias=AliasChoices("ingress-cmd", "ingress_cmd"),
+    )
+    node_setup_cmd: str = Field(
+        default="/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;",
+        serialization_alias="node-setup-cmd",
+        validation_alias=AliasChoices("node-setup-cmd", "node_setup_cmd"),
+    )
     port: int = Field(
         default=8000,
         description="Dynamo frontend HTTP API port",
     )
+    etcd_cmd: str = Field(
+        default="etcd --log-level info --data-dir /tmp/etcd",
+        serialization_alias="etcd-cmd",
+        validation_alias=AliasChoices("etcd-cmd", "etcd_cmd"),
+    )
     etcd_port: int = Field(
         default=2379,
         serialization_alias="etcd-port",
         validation_alias=AliasChoices("etcd-port", "etcd_port"),
     )
+    nats_cmd: str = Field(
+        default="nats-server -js",
+        serialization_alias="nats-cmd",
+        validation_alias=AliasChoices("nats-cmd", "nats_cmd"),
+    )
     nats_port: int = Field(
         default=4222,
         serialization_alias="nats-port",
         validation_alias=AliasChoices("nats-port", "nats_port"),
     )
-    decode_worker: WorkerConfig = Field(default_factory=WorkerConfig)
-    decode_cmd: str = Field(
-        default="python3 -m dynamo.vllm",
-        serialization_alias="decode-cmd",
-        validation_alias=AliasChoices("decode-cmd", "decode_cmd"),
+
+    decode_worker: WorkerConfig = WorkerConfig(
+        cmd="python3 -m dynamo.vllm",
+        worker_initialized_regex="VllmWorker.*has.been.initialized",
     )
-    prefill_worker: WorkerConfig = Field(default_factory=WorkerConfig)
-    prefill_cmd: str = Field(
-        default="python3 -m dynamo.vllm --is-prefill-worker",
-        serialization_alias="prefill-cmd",
-        validation_alias=AliasChoices("prefill-cmd", "prefill_cmd"),
+    prefill_worker: WorkerConfig = WorkerConfig(
+        cmd="python3 -m dynamo.vllm --is-prefill-worker",
+        worker_initialized_regex="VllmWorker.*has.been.initialized",
     )
 
+    @model_validator(mode="after")
+    def populate_prefill_decode_args(self) -> "AIDynamoArgs":
+        """Populate prefill/decode args."""
+        if self.backend.lower() == "vllm":
+            self.prefill_worker.args.model = self.model
+            self.decode_worker.args.model = self.model
+        elif self.backend.lower() in ["sglang", "sglang_dsr1"]:
+            self.prefill_worker.args.model_path = self.model
+            self.decode_worker.args.model_path = self.model
+            self.prefill_worker.args.served_model_name = self.model
+            self.decode_worker.args.served_model_name = self.model
+        else:
+            raise ValueError(f"Invalid backend: {self.backend}")
+
+        return self
+
 
 class LMCacheArgs(BaseModel):
     """Arguments for LMCache."""
@@ -182,7 +217,6 @@ class LMCacheArgs(BaseModel):
     extra_config_enable_nixl_storage: bool = True
     extra_config_nixl_backend: str = "GDS_MT"
     extra_config_nixl_file_pool_size: int = 64
-    extra_config_nixl_path: str = "%CACHEDIR%"
 
     # LMCache controller configuration
     enable_controller: bool = True
@@ -195,13 +229,12 @@ class LMCacheArgs(BaseModel):
 class LMCache(BaseModel):
     """LMCache configuration."""
 
-    model_config = ConfigDict(extra="allow")
+    model_config = ConfigDict(extra="forbid")
 
     controller_cmd: str = "lmcache_controller --host localhost --port 9000 --monitor-port 9001"
-    repo: Optional[GitRepo] = GitRepo(
-        url="git@github.com:LMCache/LMCache.git",
-        commit="ab8530993992db873869ba882320953582d94309",
-        mount_as="/git/LMCache",
+    repo: GitRepo = GitRepo(
+        url="https://github.com/LMCache/LMCache.git",
+        commit="ab8530993992db873869ba882320953582d94309"
     )
 
     args: LMCacheArgs = Field(default_factory=LMCacheArgs)
@@ -211,6 +244,9 @@ class LMCache(BaseModel):
         validation_alias=AliasChoices("extra-args", "extra_args"),
     )
 
+    @property
+    def installables(self) -> list[Installable]:
+        return [self.repo]
 
 class GenAIPerf(Workload):
     """Workload configuration for GenAI performance profiling."""
@@ -221,51 +257,67 @@ class GenAIPerf(Workload):
     cmd: str = "genai-perf profile"
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
 
+    @property
+    def installables(self) -> list[Installable]:
+        return [self.script]
+
 
 class Constraints(BaseModel):
     """Constraints for validation of AI Dynamo configurations when using DSE."""
 
-    model_config = ConfigDict(extra="allow")
+    model_config = ConfigDict(extra="forbid")
 
     prefill_tp_le_decode_tp: bool = True
     tp_times_pp_le_gpus_per_node: bool = True
-    prefill_decode_nodes_le_total_nodes: bool = True
 
 
 class AIDynamoCmdArgs(CmdArgs):
     """Arguments for AI Dynamo."""
 
+    model_config = ConfigDict(extra="forbid")
+
     docker_image_url: str
-    hf_home_path: Optional[str] = Field(default=None, serialization_alias="hf_home_path")
-    storage_cache_dir: Optional[str | list[str]] = Field(default=None, serialization_alias="storage_cache_dir")
-    num_nodes: int = 1
-    gpus_per_node: int = 8
+    storage_cache_dir: Optional[str | list[str]] = Field(default="/tmp/dynamo", serialization_alias="storage_cache_dir")
     dynamo: AIDynamoArgs
     lmcache: LMCache = Field(default_factory=LMCache)
     genai_perf: GenAIPerf = Field(default_factory=GenAIPerf)
-    workloads: str = "genai_perf.sh"
+
+    @property
+    def installables(self) -> list[Installable]:
+        return [
+            *self.lmcache.installables,
+            *self.genai_perf.installables,
+        ]
 
 
 class AIDynamoTestDefinition(TestDefinition):
     """Test definition for AI Dynamo."""
 
+    model_config = ConfigDict(extra="forbid")
+
     cmd_args: AIDynamoCmdArgs
     _docker_image: Optional[DockerImage] = None
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/ai_dynamo.sh")
-    genai_perf_script: File = File(Path(__file__).parent.parent / "ai_dynamo/genai_perf.sh")
-    dynamo_repo: GitRepo = GitRepo(
+    repo: GitRepo = GitRepo(
         url="https://github.com/ai-dynamo/dynamo.git",
-        commit="f7e468c7e8ff0d1426db987564e60572167e8464",
-        mount_as="/git/dynamo",
+        commit="f7e468c7e8ff0d1426db987564e60572167e8464"
     )
     _hf_model: HFModel | None = None
     constraints: Constraints = Constraints()
+    workloads: list[str] = Field(default=["genai_perf.sh"])
+
+    success_marker: str = "success-marker.txt"
+    failure_marker: str = "failure-marker.txt"
 
-    def success_marker(self) -> str:
-        return "success-marker.txt"
+    @model_validator(mode="after")
+    def workload_scripts(self) -> "AIDynamoTestDefinition":
+        """Populate prefill/decode args."""
+        workload_map = self.get_workload_map()
+        for workload in self.workloads:
+            if workload not in workload_map:
+                raise ValueError(f"Invalid workload: {workload}. Available workloads: {list(workload_map.keys())}")
 
-    def failure_marker(self) -> str:
-        return "failure-marker.txt"
+        return self
 
     def get_workload_map(self) -> dict[str, Workload]:
         """Get a map of workload scripts to workload objects."""
@@ -273,23 +325,6 @@ def get_workload_map(self) -> dict[str, Workload]:
             self.cmd_args.genai_perf.script.src.name: self.cmd_args.genai_perf,
         }
 
-    @model_validator(mode="after")
-    def validate_test_definition(self) -> "AIDynamoTestDefinition":
-        """Validate test definition."""
-        # Populate git_repos list with all git repositories used by this test definition.
-        self.git_repos = [self.dynamo_repo]
-        if self.cmd_args.lmcache.repo:
-            self.git_repos.append(self.cmd_args.lmcache.repo)
-
-        workloads = self.cmd_args.workloads.split(",")
-        for workload in workloads:
-            if workload not in [
-                self.cmd_args.genai_perf.script.src.name,
-            ]:
-                raise ValueError(f"Invalid workload script: {workload}")
-
-        return self
-
     @property
     def docker_image(self) -> DockerImage:
         if not self._docker_image:
@@ -306,36 +341,38 @@ def hf_model(self) -> HFModel:
     @property
     def installables(self) -> list[Installable]:
         """Get all installables for this test definition."""
-        result = [
+        return [
             self.docker_image,
+            self.repo,
             self.script,
-            # self.hf_model,
-            self.genai_perf_script,
-            *self.git_repos,
+            self.hf_model,
+            *self.cmd_args.installables,
         ]
 
-        return result
-
     def was_run_successful(self, tr: TestRun) -> JobStatusResult:
         output_path = tr.output_path
         result = True
         workload_map = self.get_workload_map()
-        failure_marker = output_path / self.failure_marker()
-        success_marker = output_path / self.success_marker()
+        failure_marker = output_path / self.failure_marker
+        success_marker = output_path / self.success_marker
 
         if failure_marker.exists():
-            return JobStatusResult(False, error_message=f"Failure marker file found with contents: \n{failure_marker.read_text()}")
+            contents = failure_marker.read_text()
+            return JobStatusResult(False, error_message=f"Failure marker found:\n{contents}")
 
         if not success_marker.exists():
             return JobStatusResult(False, error_message=f"Success marker file not found: {success_marker.absolute()}")
 
-        for workload in self.cmd_args.workloads.split(","):
-            if not workload_map.get(workload):
+        for workload in self.workloads:
+            if workload not in workload_map:
                 logging.info(f"Workload {workload} not found in workload map")
                 result = False
                 continue
             report_name = workload_map[workload].report_name
-            assert report_name is not None
+            if report_name is None:
+                logging.warning(f"Workload {workload} has no report_name configured")
+                result = False
+                continue
             workload_csv_file = output_path / report_name
             if not workload_csv_file.exists():
                 logging.info(f"Result file ({workload_csv_file.absolute()}) not found for workload: {workload}")
@@ -345,35 +382,31 @@ def was_run_successful(self, tr: TestRun) -> JobStatusResult:
 
         return JobStatusResult(result)
 
-    def constraint_check(self, tr: TestRun) -> bool:
+    def constraint_check(self, tr: TestRun, system: Optional[System]) -> bool:
         prefill_worker = tr.test.cmd_args.dynamo.prefill_worker
         decode_worker = tr.test.cmd_args.dynamo.decode_worker
 
-        prefill_tp = prefill_worker.args.tensor_parallel_size if prefill_worker else 1
-        decode_tp = decode_worker.args.tensor_parallel_size if decode_worker else 1
-        prefill_pp = prefill_worker.args.pipeline_parallel_size if prefill_worker else 1
-        decode_pp = decode_worker.args.pipeline_parallel_size if decode_worker else 1
-        prefill_nodes = prefill_worker.num_nodes if prefill_worker else 0
-        decode_nodes = decode_worker.num_nodes if decode_worker else 1
+        prefill_tp = prefill_worker.args.tensor_parallel_size
+        prefill_pp = prefill_worker.args.pipeline_parallel_size
+
+        decode_tp = decode_worker.args.tensor_parallel_size
+        decode_pp = decode_worker.args.pipeline_parallel_size
 
         if self.constraints.prefill_tp_le_decode_tp and prefill_tp > decode_tp:
             logging.info("constraint_check failed for: prefill_tp_le_decode_tp")
             return False
         logging.info("constraint_check passed for: prefill_tp_le_decode_tp")
 
-        gpus_per_node = tr.test.cmd_args.gpus_per_node
-        if self.constraints.tp_times_pp_le_gpus_per_node and (
+        gpus_per_node = 0
+        slurm_system = cast(SlurmSystem, system)
+        if slurm_system and slurm_system.gpus_per_node:
+            gpus_per_node = slurm_system.gpus_per_node
+
+        if gpus_per_node > 0 and self.constraints.tp_times_pp_le_gpus_per_node and (
             prefill_tp * prefill_pp > gpus_per_node or decode_tp * decode_pp > gpus_per_node
         ):
             logging.info("constraint_check failed for: tp_times_pp_le_gpus_per_node")
             return False
         logging.info("constraint_check passed for: tp_times_pp_le_gpus_per_node")
 
-        num_nodes = tr.test.cmd_args.num_nodes
-        nodes_check = self.constraints.prefill_decode_nodes_le_total_nodes
-        if nodes_check and prefill_nodes + decode_nodes > num_nodes:
-            logging.info("constraint_check failed for: prefill_decode_nodes_le_total_nodes")
-            return False
-        logging.info("constraint_check passed for: prefill_decode_nodes_le_total_nodes")
-
         return True
diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
index d0eb05564..aa85b20f9 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh
@@ -3,7 +3,7 @@
 # CloudAI params
 RESULTS_DIR="/cloudai_run_results"
 INSTALL_DIR="/cloudai_install"
-STORAGE_CACHE_DIR="/cloudai_install/storage_cache"
+STORAGE_CACHE_DIR_BASE="/cloudai_install/storage_cache"
 HUGGINGFACE_HOME="/root/.cache/huggingface"
 DONE_MARKER="./success-marker.txt"
 FATAL_ERROR_MARKER="./failure-marker.txt"
@@ -50,9 +50,9 @@ dynamo_args["frontend-node"]=""
 
 dynamo_args["etcd-cmd"]="etcd --log-level debug"
 dynamo_args["nats-cmd"]="nats-server -js"
-dynamo_args["worker-error-pattern"]="zmq.error.ZMQError:.Address.already.in.use|UCX.*ERROR|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|EngineDeadError|EngineCore.encountered.an.issue"
+dynamo_args["worker-error-pattern"]="zmq.error.ZMQError:.Address.already.in.use|ERROR.core.run_engine_core:.EngineCore.failed.to.start|ERROR.multiproc_executor.worker_busy_loop:.WorkerProc.hit.an.exception|ValueError:.a.python.*async.generator:.EngineDeadError:.EngineCore.encountered.an.issue|ZeroDivisionError:.integer.division.or.modulo.by.zero|ERROR.core.run_engine_core:.EngineCore.encountered.a.fatal.error|Exception:.Failed.to.fetch.model|ERROR.*Engine.core.proc.EngineCore_.*died.unexpectedly|RuntimeError:.Engine.core.initialization.failed."
 
-# sglang-specific optional ports. Ignored by vllm.
+# sglang_dsr1-specific optional ports. Ignored by vllm.
 dynamo_args["sgl-http-port"]=9001
 dynamo_args["prefill-port"]=30011
 dynamo_args["decode-port"]=30021
@@ -62,13 +62,9 @@ function log()
   echo -e "[$(date +%F\ %T) $(hostname)]: $*"
 }
 
-function min()
-{
-  echo "$(( $1 < $2 ? $1 : $2 ))"
-}
-
 _is_vllm() { [[ "${dynamo_args["backend"]}" == "vllm" ]]; }
 _is_sglang() { [[ "${dynamo_args["backend"]}" == "sglang" ]]; }
+_is_sglang_dsr1() { [[ "${dynamo_args["backend"]}" == "sglang_dsr1" ]]; }
 
 _csv_len() { grep -oE '[^,]+' <<< "$1" | wc -l; }
 
@@ -102,9 +98,10 @@ _resolve_host_ip() {
   echo "$ip"
 }
 
-_apply_sglang_section_args() {
+_apply_sglang_dsr1_section_args() {
   local self="$(_current_node_name)"
   local gpn="$(_gpus_per_node)"
+  local deepep_path="${dynamo["repo"]}/components/backends/sglang/configs/deepseek_r1/wideep/deepep.json"
 
   # prefill group
   local prefill_nodes="${prefill_config["num-nodes"]}"
@@ -132,11 +129,9 @@ _apply_sglang_section_args() {
   decode_args["--tp-size"]="${decode_args["--tp-size"]:-${decode_total_gpus}}"
   decode_args["--dp-size"]="${decode_args["--dp-size"]:-${decode_total_gpus}}"
 
-  if [[ -n "${dynamo_args["deepep-config"]:-}" ]]; then
-    [[ -f "${dynamo_args["deepep-config"]}" ]] || log "WARN: deepep-config not found: ${dynamo_args["deepep-config"]}"
-    prefill_args["--deepep-config"]="${dynamo_args["deepep-config"]}"
-    decode_args["--deepep-config"]="${dynamo_args["deepep-config"]}"
-  fi
+  [[ -f "$deepep_path" ]] || log "WARN: deepep-config not found: ${dynamo_args["deepep-config"]}"
+  prefill_args["--deepep-config"]="${deepep_path}"
+  decode_args["--deepep-config"]="${deepep_path}"
 
   unset 'prefill_args["--model"]'
   unset 'decode_args["--model"]'
@@ -152,8 +147,6 @@ _parse_cli_pairs() {
         dynamo_args["workloads"]="$2" ;;
       --dynamo-*)
         dynamo_args["${key#--dynamo-}"]="$2" ;;
-      --workloads)
-        dynamo_args["workloads"]="$2" ;;
       --prefill-args-*)
         prefill_args["--${key#--prefill-args-}"]="$2" ;;
       --prefill-*)
@@ -173,7 +166,7 @@ _parse_cli_pairs() {
       --hf-home)
         HUGGINGFACE_HOME="$2" ;;
       --storage-cache-dir)
-        STORAGE_CACHE_DIR="$2" ;;
+        STORAGE_CACHE_DIR_BASE="$2" ;;
       --results-dir)
         RESULTS_DIR="$2" ;;
       --install-dir)
@@ -249,23 +242,6 @@ _set_nodelists()
   fi
 }
 
-_set_backend_defaults() {
-  case "${dynamo_args["backend"]}" in
-    vllm)
-      :
-      ;;
-    sglang)
-      dynamo_args["prefill-cmd"]="python3 -m dynamo.sglang.worker"
-      dynamo_args["decode-cmd"]="python3 -m dynamo.sglang.decode_worker"
-      dynamo_args["ingress-cmd"]="python3 -m dynamo.frontend"
-      ;;
-    *)
-      log "ERROR: Unknown backend '${dynamo_args["backend"]}'"
-      exit 1
-      ;;
-  esac
-}
-
 _has_connector() {
   # Check if a specific connector is in the comma-separated connector list.
   local needle="$1"
@@ -295,19 +271,19 @@ _patch_dynamo_args() {
 }
 
 _patch_section_args() {
-  if _is_sglang; then
-    _apply_sglang_section_args
+  if _is_sglang_dsr1; then
+    _apply_sglang_dsr1_section_args
   fi
 }
 
-_compute_worker_allocation_sglang() {
+_compute_worker_allocation_sglang_dsr1() {
   local num_gpus="$(_gpus_per_node)"
   if [[ $num_gpus -eq 0 ]]; then
     log "ERROR: No GPUs found in CUDA_VISIBLE_DEVICES"
     exit 1
   fi
 
-  # sglang: one worker per node using all GPUs
+  # sglang_dsr1: one worker per node using all GPUs
   prefill_config["gpus-per-worker"]=$num_gpus
   decode_config["gpus-per-worker"]=$num_gpus
   prefill_config["workers-per-node"]=1
@@ -350,8 +326,8 @@ _compute_worker_allocation_vllm() {
 }
 
 _compute_worker_allocation() {
-  if _is_sglang; then
-    _compute_worker_allocation_sglang
+  if _is_sglang_dsr1; then
+    _compute_worker_allocation_sglang_dsr1
   else
     _compute_worker_allocation_vllm
   fi
@@ -384,7 +360,6 @@ function parse_args()
 {
   _parse_cli_pairs "$@"
   _set_nodelists
-  _set_backend_defaults
   _patch_dynamo_args
 
   _patch_section_args
@@ -424,8 +399,11 @@ function array_to_args()
 }
 
 _detect_fatal_once() {
-  # Only treat as fatal on vllm
-  _is_vllm || return 0
+  # Only treat as fatal on vllm and sglang
+  if _is_sglang_dsr1; then
+    return 0
+  fi
+
   local n=0
   # Worker logs and UCX logs
   n=$(( n + $(grep -E "${dynamo_args["worker-error-pattern"]}" "${RESULTS_DIR}"/dynamo_*.log 2>/dev/null | wc -l || true) ))
@@ -480,7 +458,7 @@ _count_initialized_decode() {
 }
 
 _expected_ready_prefill() {
-  if _is_sglang; then
+  if _is_sglang_dsr1; then
     echo 1
   else
     echo "$(_total_workers_prefill)"
@@ -488,7 +466,7 @@ _expected_ready_prefill() {
 }
 
 _expected_ready_decode() {
-  if _is_sglang; then
+  if _is_sglang_dsr1; then
     echo 1
   else
     echo "$(_total_workers_decode)"
@@ -540,7 +518,7 @@ _is_genai_perf_workload() {
 }
 
 _init_runtime_env() {
-  if _is_vllm; then
+  if _is_vllm || _is_sglang; then
     export HF_HOME="${HUGGINGFACE_HOME}"
     hf cache scan
   fi
@@ -642,7 +620,7 @@ validate_environment() {
 
   # Directories
   _ensure_dir_writable "$RESULTS_DIR"
-  if _is_vllm; then
+  if _is_vllm || _is_sglang; then
     _ensure_dir_writable "$HUGGINGFACE_HOME"
   fi
 
@@ -733,7 +711,7 @@ function launch_ingress()
 }
 
 launch_sgl_http_server() {
-  local script_path="${dynamo_args["sgl-http-server-script"]}"
+  local script_path="${dynamo_args["repo"]}/components/backends/sglang/src/dynamo/sglang/utils/sgl_http_server.py"
   local port="${dynamo_args["sgl-http-port"]}"
   if [[ -n "${script_path}" && -f "${script_path}" ]]; then
     log "Starting SGL HTTP server: ${script_path} --ns dynamo --port ${port}"
@@ -930,8 +908,7 @@ EOF
 function setup_storage_cache_dir()
 {
   local connector="$1"
-  # Use a global variable that can be exported
-  STORAGE_CACHE_DIR="$STORAGE_CACHE_DIR/${TEST_USER}/${dynamo_args["frontend-node"]}/${connector}/cache"
+  STORAGE_CACHE_DIR="${STORAGE_CACHE_DIR_BASE}/${TEST_USER}/${dynamo_args["frontend-node"]}/${connector}/cache"
   rm -rf "${STORAGE_CACHE_DIR}"
   mkdir -p "${STORAGE_CACHE_DIR}"
   chmod 755 "${STORAGE_CACHE_DIR}"
@@ -958,15 +935,17 @@ function setup_lmcache()
   fi
 
   _require_cmd uv
-  log "Setting up LMCache; installing LMCache using: uv pip install $lmcache_path"
   local lmcache_path="${lmcache_config["repo"]}"
-  uv pip install -e $lmcache_path
+  log "Setting up LMCache; installing LMCache using: uv pip install $lmcache_path"
+  uv pip install -e "$lmcache_path"
 
   setup_storage_cache_dir "lmcache"
 
   export LMCACHE_CONFIG_FILE=$RESULTS_DIR/lmcache-nixl-config.yaml
   rm -f $LMCACHE_CONFIG_FILE
 
+  lmcache_args["extra_config_nixl_path"]="$STORAGE_CACHE_DIR"
+
   for key in "${!lmcache_args[@]}"; do
     shopt -s nocasematch
     if [[ "$key" == "extra_config"* ]]; then
@@ -983,7 +962,6 @@ function setup_lmcache()
     if [[ "$key" == "extra_config"* ]]; then
       nkey="${key#extra_config_}"
       val="${lmcache_args[$key]}"
-      val=${val//%CACHEDIR%/${STORAGE_CACHE_DIR}}
       echo "    $nkey: $val" >> $LMCACHE_CONFIG_FILE
     fi
   done
@@ -1073,11 +1051,11 @@ function main()
 
   validate_environment
 
-  if _is_vllm; then
-    cd ${dynamo_args["workspace-path"]}
+  if _is_vllm || _is_sglang; then
+    cd "${dynamo_args["workspace-path"]}" || { log "ERROR: Failed to cd to ${dynamo_args["workspace-path"]}"; exit 1; }
   fi
 
-  cd $RESULTS_DIR
+  cd "$RESULTS_DIR" || { log "ERROR: Failed to cd to $RESULTS_DIR"; exit 1; }
 
   log_gpu_utilization &
 
@@ -1090,7 +1068,7 @@ function main()
     launch_nats &
     wait_for_etcd
     launch_ingress &
-    if _is_sglang; then
+    if _is_sglang_dsr1; then
       launch_sgl_http_server
     fi
   fi
diff --git a/src/cloudai/workloads/ai_dynamo/genai_perf.sh b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
index d75e8b82f..6762e4a71 100644
--- a/src/cloudai/workloads/ai_dynamo/genai_perf.sh
+++ b/src/cloudai/workloads/ai_dynamo/genai_perf.sh
@@ -6,8 +6,6 @@
 result_dir=""
 report_name="genai_perf_report.csv"
 gpus_per_node=1
-port=""
-repo=""
 cmd=""
 extra_args=""
 declare -A genai_perf_args
@@ -34,10 +32,12 @@ function parse_genai_perf_args()
 
 function process_args()
 {
+  local url=""
+  local port=""
   while [[ $# -gt 0 ]]; do
     case "$1" in
       --model)
-        model="$2"
+        genai_perf_args["--model"]="$2"
         shift 2
         ;;
       --url)
@@ -49,7 +49,7 @@ function process_args()
         shift 2
         ;;
       --endpoint)
-        endpoint="$2"
+        genai_perf_args["--endpoint"]="$2"
         shift 2
         ;;
       --result_dir)
@@ -90,10 +90,11 @@ function process_args()
     esac
   done
 
+  genai_perf_args["--url"]="$url:$port"
+  genai_perf_args["--artifact-dir"]="$result_dir/genai_perf_artifacts"
+  genai_perf_args["--profile-export-file"]="profile.json"
+
   log """Parsed args:
-    model: $model
-    url: $url
-    port: $port
     result_dir: $result_dir
     install_dir: $install_dir
     report_name: $report_name
@@ -127,8 +128,6 @@ function main()
 {
   process_args "$@"
 
-  report_file=$result_dir/$report_name
-
   # Combine genai_perf_args (key-value pairs) and extra_args
   cmdline_args=""
   for key in "${!genai_perf_args[@]}"; do
diff --git a/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py b/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
index bd7f49cbe..24c7f9ae1 100644
--- a/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/kubernetes_json_gen_strategy.py
@@ -47,7 +47,7 @@ def gen_decode_dict(self) -> dict[str, Any]:
         tdef = cast(AIDynamoTestDefinition, self.test_run.test)
 
         decode_cfg = self._get_base_service_dict()
-        decode_cfg["extraPodSpec"]["mainContainer"]["command"] = tdef.cmd_args.dynamo.decode_cmd.split()
+        decode_cfg["extraPodSpec"]["mainContainer"]["command"] = tdef.cmd_args.dynamo.decode_worker.cmd.split()
 
         args = ["--model", tdef.cmd_args.dynamo.model]
         if tdef.cmd_args.dynamo.prefill_worker:
@@ -68,7 +68,7 @@ def gen_prefill_dict(self) -> dict[str, Any]:
 
         prefill_cfg = self._get_base_service_dict()
         prefill_cfg["subComponentType"] = "prefill"
-        prefill_cfg["extraPodSpec"]["mainContainer"]["command"] = tdef.cmd_args.dynamo.prefill_cmd.split()
+        prefill_cfg["extraPodSpec"]["mainContainer"]["command"] = tdef.cmd_args.dynamo.prefill_worker.cmd.split()
 
         prefill_cfg["extraPodSpec"]["mainContainer"]["args"] = [
             "--model",
diff --git a/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py b/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
index c9bef344b..0160d6b12 100644
--- a/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/report_generation_strategy.py
@@ -18,20 +18,16 @@
 
 import logging
 from pathlib import Path
-from typing import TYPE_CHECKING
-
-import pandas as pd
 
 from cloudai.core import METRIC_ERROR, ReportGenerationStrategy
 
-if TYPE_CHECKING:
-    pass
-
 
 class AIDynamoReportGenerationStrategy(ReportGenerationStrategy):
     """Strategy for generating reports from AI Dynamo run directories."""
 
     def extract_metric_from_csv(self, csv_file: Path, metric_name: str, metric_type: str) -> float:
+        import pandas as pd
+
         df = pd.read_csv(csv_file)
         if metric_type not in df.columns:
             logging.info(f"Metric type: {metric_type} not in CSV file: {df.columns}")
diff --git a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
index 06c552a17..39bc291a5 100644
--- a/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
+++ b/src/cloudai/workloads/ai_dynamo/slurm_command_gen_strategy.py
@@ -15,12 +15,15 @@
 # limitations under the License.
 
 import logging
-from pathlib import Path, PosixPath
+from pathlib import Path
 from typing import List, cast
 
+from pydantic import BaseModel, TypeAdapter, ValidationError
+
+from cloudai.core import File, GitRepo
 from cloudai.systems.slurm import SlurmCommandGenStrategy
 
-from .ai_dynamo import AIDynamoTestDefinition, BaseModel
+from .ai_dynamo import AIDynamoTestDefinition
 
 
 class AIDynamoSlurmCommandGenStrategy(SlurmCommandGenStrategy):
@@ -29,13 +32,9 @@ class AIDynamoSlurmCommandGenStrategy(SlurmCommandGenStrategy):
     def _container_mounts(self) -> list[str]:
         td = cast(AIDynamoTestDefinition, self.test_run.test)
 
-        result = list[str]()
+        result = []
 
-        logging.info(f"hf_home_path: {td.cmd_args.hf_home_path}")
         logging.info(f"storage_cache_dir: {td.cmd_args.storage_cache_dir}")
-        if td.cmd_args.hf_home_path:
-            result.append(f"{td.cmd_args.hf_home_path}:{td.cmd_args.hf_home_path}")
-
         if td.cmd_args.storage_cache_dir:
             result.append(f"{td.cmd_args.storage_cache_dir}:{td.cmd_args.storage_cache_dir}")
 
@@ -50,42 +49,53 @@ def image_path(self) -> str | None:
     def _get_toml_args(self, base_model: BaseModel, prefix: str, exclude: List[str] | None = None) -> List[str]:
         args = []
         exclude = exclude or []
+        git_repo_adapter = TypeAdapter(GitRepo)
+        file_adapter = TypeAdapter(File)
         toml_args = base_model.model_dump(by_alias=True, exclude=set(exclude), exclude_none=True)
         for k, v in toml_args.items():
             if isinstance(v, dict):
-                if "url" in v and "commit" in v and "mount_as" in v:
-                    args.extend([f'{prefix}{k} "{v["mount_as"]}"'])
-                elif "src" in v and isinstance(v["src"], PosixPath):
-                    args.extend([f'{prefix}{k} "{v["src"].name}"'])
-                else:
-                    args.append(f'{prefix}{k} "{v}"')
-            else:
-                args.append(f'{prefix}{k} "{v}"')
+                try:
+                    repo = git_repo_adapter.validate_python(v)
+                    if repo.installed_path:
+                        args.extend([f'{prefix}{k} "{repo.installed_path.absolute()}"'])
+                    continue
+                except ValidationError:
+                    pass
+                try:
+                    file_obj = file_adapter.validate_python(v)
+                    if file_obj.installed_path:
+                        args.extend([f'{prefix}{k} "{file_obj.installed_path.absolute()}"'])
+                    continue
+                except ValidationError:
+                    pass
+            args.append(f'{prefix}{k} "{v}"')
 
         return args
 
     def _get_nested_toml_args(self, base_model: BaseModel, prefix: str) -> List[str]:
         result = self._get_toml_args(base_model, prefix, exclude=["args"])
 
-        if hasattr(base_model, "args") and (nested_args := getattr(base_model, "args", None)) is not None:
+        if (nested_args := getattr(base_model, "args", None)) is not None:
             result.extend(self._get_toml_args(nested_args, prefix + "args-"))
 
         return result
 
     def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
+        assert td.repo.installed_path
         args = [
             "--user $USER",
-            f"--install-dir {self.container_install_path}",
-            f"--results-dir {self.container_results_path}",
-            f"--dynamo-repo {td.dynamo_repo.container_mount}",
-            f"--workloads {td.cmd_args.workloads}",
-            f"--failure-marker {self.container_results_path}/{td.failure_marker()}",
-            f"--success-marker {self.container_results_path}/{td.success_marker()}",
+            f"--install-dir {self.system.install_path.absolute()}",
+            f"--results-dir {self.test_run.output_path.absolute()}",
+            f"--dynamo-repo {td.repo.installed_path.absolute()}",
+            f"--hf-home {self.system.hf_home_path.absolute()}",
+            f"--workloads {','.join(td.workloads)}",
+            f"--failure-marker {self.test_run.output_path.absolute()}/{td.failure_marker}",
+            f"--success-marker {self.test_run.output_path.absolute()}/{td.success_marker}",
         ]
-        if td.cmd_args.hf_home_path:
-            args.append(f"--hf-home {td.cmd_args.hf_home_path}")
+
         if td.cmd_args.storage_cache_dir:
             args.append(f"--storage-cache-dir {td.cmd_args.storage_cache_dir}")
+
         args.extend(
             self._get_toml_args(
                 td.cmd_args.dynamo,
@@ -97,21 +107,6 @@ def _gen_script_args(self, td: AIDynamoTestDefinition) -> List[str]:
             )
         )
 
-        # Add backend-specific args
-        if td.cmd_args.dynamo.backend == "sglang":
-            dynamo_repo_path = td.dynamo_repo.container_mount
-            deepep_path = f"{dynamo_repo_path}/components/backends/sglang/configs/deepseek_r1/wideep/deepep.json"
-            sgl_http_server_path = (
-                f"{dynamo_repo_path}/components/backends/sglang/src/dynamo/sglang/utils/sgl_http_server.py"
-            )
-
-            args.extend(
-                [
-                    f'--dynamo-sgl-http-server-script "{sgl_http_server_path!s}"',
-                    f'--dynamo-deepep-config "{deepep_path!s}"',
-                ]
-            )
-
         if td.cmd_args.dynamo.prefill_worker:
             args.extend(self._get_nested_toml_args(td.cmd_args.dynamo.prefill_worker, "--prefill-"))
         args.extend(self._get_nested_toml_args(td.cmd_args.dynamo.decode_worker, "--decode-"))
@@ -134,11 +129,10 @@ def _gen_srun_command(self) -> str:
                 *([] if not node_list else [f"--nodelist={','.join(node_list)}"]),
                 f"--ntasks={num_nodes}",
                 "--ntasks-per-node=1",
-                "--export=ALL",
                 f"--output={out_dir / 'node-%n-stdout.txt'}",
                 f"--error={out_dir / 'node-%n-stderr.txt'}",
                 "bash",
-                f"{self.container_install_path}/{td.script.src.name}",
+                f"{td.script.installed_path.absolute()!s}",
             ]
         )
         srun_cmd.extend(self._gen_script_args(td))
@@ -188,8 +182,8 @@ def get_cached_nodes_spec(self) -> tuple[int, list[str]]:
         decode_n = td.cmd_args.dynamo.decode_worker.num_nodes
         decode_nodes = td.cmd_args.dynamo.decode_worker.nodes
 
-        assert isinstance(prefill_n, int), "dynamo.num_prefill_nodes must be an integer"
-        assert isinstance(decode_n, int), "dynamo.num_decode_nodes must be an integer"
+        assert isinstance(prefill_n, int), "prefill_worker.num_nodes must be an integer"
+        assert isinstance(decode_n, int), "decode_worker.num_nodes must be an integer"
 
         if prefill_nodes and decode_nodes:
             self.test_run.nodes = prefill_nodes.split(",") + decode_nodes.split(",") + self.test_run.nodes
diff --git a/src/cloudai/workloads/megatron_bridge/megatron_bridge.py b/src/cloudai/workloads/megatron_bridge/megatron_bridge.py
index ef07b8b29..072f8d908 100644
--- a/src/cloudai/workloads/megatron_bridge/megatron_bridge.py
+++ b/src/cloudai/workloads/megatron_bridge/megatron_bridge.py
@@ -167,7 +167,7 @@ def installables(self) -> list[Installable]:
             items.insert(0, self.docker_image)
         return items
 
-    def constraint_check(self, tr) -> bool:  # type: ignore[override]  # noqa: C901
+    def constraint_check(self, tr, system=None) -> bool:  # type: ignore[override]  # noqa: C901
         num_gpus = cast(int, self.cmd_args.num_gpus)
 
         def _as_int(val: Optional[Union[int, List[int]]]) -> Optional[int]:
diff --git a/src/cloudai/workloads/nemo_run/nemo_run.py b/src/cloudai/workloads/nemo_run/nemo_run.py
index b0094ea9b..b1803d8f1 100644
--- a/src/cloudai/workloads/nemo_run/nemo_run.py
+++ b/src/cloudai/workloads/nemo_run/nemo_run.py
@@ -144,7 +144,7 @@ def installables(self) -> list[Installable]:
         """Get list of installable objects."""
         return [self.docker_image, self.script]
 
-    def constraint_check(self, tr: TestRun) -> bool:
+    def constraint_check(self, tr: TestRun, system=None) -> bool:
         """Check constraints for NeMoRun."""
         tp = cast(int, self.cmd_args.trainer.strategy.tensor_model_parallel_size)
         pp = cast(int, self.cmd_args.trainer.strategy.pipeline_model_parallel_size)
diff --git a/src/cloudai/workloads/nixl_perftest/nixl_perftest.py b/src/cloudai/workloads/nixl_perftest/nixl_perftest.py
index b96ccd520..86e3b77ab 100644
--- a/src/cloudai/workloads/nixl_perftest/nixl_perftest.py
+++ b/src/cloudai/workloads/nixl_perftest/nixl_perftest.py
@@ -107,7 +107,7 @@ def docker_image(self) -> DockerImage:
     def installables(self) -> list[Installable]:
         return [*self.git_repos, self.docker_image]
 
-    def constraint_check(self, tr: TestRun) -> bool:
+    def constraint_check(self, tr: TestRun, system=None) -> bool:
         decode_tp = int(tr.test.cmd_args.decode_tp)
         decode_nodes = int(tr.test.cmd_args.num_decode_nodes)
         prefill_tp = int(tr.test.cmd_args.prefill_tp)
diff --git a/tests/ref_data/ai-dynamo.sbatch b/tests/ref_data/ai-dynamo.sbatch
index 08dd3899b..fbcd6414d 100644
--- a/tests/ref_data/ai-dynamo.sbatch
+++ b/tests/ref_data/ai-dynamo.sbatch
@@ -10,45 +10,60 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,/tmp/dynamo:/tmp/dynamo --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N2 --container-image=nvcr.io/nvidia/ai-dynamo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,/tmp/dynamo:/tmp/dynamo --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 srun \
   --export=ALL \
   --mpi=pmix \
   -N2 \
   --container-image=nvcr.io/nvidia/ai-dynamo:24.09 \
-  --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__:/git/dynamo,__INSTALL_DIR__/LMCache__ab8530993992db873869ba882320953582d94309:/git/LMCache \
+  --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,/tmp/dynamo:/tmp/dynamo \
   --nodes=2 \
   --ntasks=2 \
   --ntasks-per-node=1 \
-  --export=ALL \
   --output=__OUTPUT_DIR__/output/node-%n-stdout.txt \
   --error=__OUTPUT_DIR__/output/node-%n-stderr.txt \
   bash \
-  /cloudai_install/ai_dynamo.sh \
+  __CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/ai_dynamo.sh \
   --user $USER \
-  --install-dir /cloudai_install \
-  --results-dir /cloudai_run_results \
-  --dynamo-repo /git/dynamo \
+  --install-dir __INSTALL_DIR__ \
+  --results-dir __OUTPUT_DIR__/output \
+  --dynamo-repo __INSTALL_DIR__ \
+  --hf-home __INSTALL_DIR__/huggingface \
   --workloads genai_perf.sh \
-  --failure-marker /cloudai_run_results/failure-marker.txt \
-  --success-marker /cloudai_run_results/success-marker.txt \
+  --failure-marker __OUTPUT_DIR__/output/failure-marker.txt \
+  --success-marker __OUTPUT_DIR__/output/success-marker.txt \
+  --storage-cache-dir /tmp/dynamo \
   --dynamo-model "model" \
   --dynamo-backend "vllm" \
   --dynamo-workspace-path "/workspace" \
+  --dynamo-ingress-cmd "python -m dynamo.frontend --router-mode kv" \
+  --dynamo-node-setup-cmd "/usr/local/ucx/bin/ucx_info -d |grep Transport | sort -u;" \
   --dynamo-port "8000" \
+  --dynamo-etcd-cmd "etcd --log-level info --data-dir /tmp/etcd" \
   --dynamo-etcd-port "2379" \
+  --dynamo-nats-cmd "nats-server -js" \
   --dynamo-nats-port "4222" \
-  --dynamo-decode-cmd "python3 -m dynamo.vllm" \
-  --dynamo-prefill-cmd "python3 -m dynamo.vllm --is-prefill-worker" \
+  --prefill-cmd "python3 -m dynamo.vllm --is-prefill-worker" \
+  --prefill-worker_initialized_regex "VllmWorker.*has.been.initialized" \
+  --prefill-multiple_workers_per_node "False" \
   --prefill-num-nodes "1" \
-  --prefill-ServiceArgs "{'workers': 1, 'resources': {'gpu': '8'}}" \
+  --prefill-args-model "model" \
+  --prefill-args-gpu-memory-utilization "0.8" \
+  --prefill-args-pipeline-parallel-size "1" \
+  --prefill-args-tensor-parallel-size "1" \
+  --decode-cmd "python3 -m dynamo.vllm" \
+  --decode-worker_initialized_regex "VllmWorker.*has.been.initialized" \
+  --decode-multiple_workers_per_node "False" \
   --decode-num-nodes "1" \
-  --decode-ServiceArgs "{'workers': 1, 'resources': {'gpu': '8'}}" \
+  --decode-args-model "model" \
+  --decode-args-gpu-memory-utilization "0.8" \
+  --decode-args-pipeline-parallel-size "1" \
+  --decode-args-tensor-parallel-size "1" \
   --lmcache-controller_cmd "lmcache_controller --host localhost --port 9000 --monitor-port 9001" \
-  --lmcache-repo "/git/LMCache" \
+  --lmcache-repo "__INSTALL_DIR__" \
   --lmcache-args-chunk_size "256" \
   --lmcache-args-local_cpu "False" \
   --lmcache-args-nixl_buffer_size "10737418240" \
@@ -56,7 +71,6 @@ srun \
   --lmcache-args-extra_config_enable_nixl_storage "True" \
   --lmcache-args-extra_config_nixl_backend "GDS_MT" \
   --lmcache-args-extra_config_nixl_file_pool_size "64" \
-  --lmcache-args-extra_config_nixl_path "%CACHEDIR%" \
   --lmcache-args-enable_controller "True" \
   --lmcache-args-lmcache_instance_id "lmcache_default_instance" \
   --lmcache-args-controller_url "localhost:9001" \
@@ -64,7 +78,7 @@ srun \
   --lmcache-args-distributed_url "localhost:8789" \
   --genai_perf-name "genai_perf" \
   --genai_perf-cmd "genai-perf profile" \
-  --genai_perf-script "genai_perf.sh" \
+  --genai_perf-script "__CLOUDAI_DIR__/src/cloudai/workloads/ai_dynamo/genai_perf.sh" \
   --genai_perf-report-name "genai_perf_report.csv" \
   --genai_perf-streaming "True" \
   --genai_perf-extra-inputs "{"temperature": 0.7, "max_tokens": 128}" \
diff --git a/tests/ref_data/ddlb.sbatch b/tests/ref_data/ddlb.sbatch
index a8d413577..3692e68c9 100644
--- a/tests/ref_data/ddlb.sbatch
+++ b/tests/ref_data/ddlb.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python ddlb/cli/benchmark.py --primitive tp_columnwise -m 1024 -n 128 -k 1024 --dtype float16 --num-iterations 50 --num-warmups 5 --impl pytorch;backend=nccl;order=AG_before"
+srun --export=ALL --mpi=pmix -N1 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python ddlb/cli/benchmark.py --primitive tp_columnwise -m 1024 -n 128 -k 1024 --dtype float16 --num-iterations 50 --num-warmups 5 --impl pytorch;backend=nccl;order=AG_before"
diff --git a/tests/ref_data/deepep-benchmark.sbatch b/tests/ref_data/deepep-benchmark.sbatch
index f3eb086e2..97787ad4e 100644
--- a/tests/ref_data/deepep-benchmark.sbatch
+++ b/tests/ref_data/deepep-benchmark.sbatch
@@ -20,8 +20,8 @@ echo Num Nodes: ${#nodes[@]}
 echo Head Node IP: $head_node_ip
 
 
-srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results bash -c "source __OUTPUT_DIR__/output/env_vars.sh; torchrun --nnodes=2 --nproc_per_node=1 --rdzv_id=$RANDOM --rdzv_backend=c10d --rdzv_endpoint=$head_node_ip:29500 /workspace/dp-benchmark/benchmark/benchmark.py __OUTPUT_DIR__/output/config.yaml"
+srun --export=ALL --mpi=pmix -N2 --container-image=docker/image:url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/workspace/dp-benchmark/results bash -c "source __OUTPUT_DIR__/output/env_vars.sh; torchrun --nnodes=2 --nproc_per_node=1 --rdzv_id=$RANDOM --rdzv_backend=c10d --rdzv_endpoint=$head_node_ip:29500 /workspace/dp-benchmark/benchmark/benchmark.py __OUTPUT_DIR__/output/config.yaml"
diff --git a/tests/ref_data/gpt-no-hook.sbatch b/tests/ref_data/gpt-no-hook.sbatch
index 155e373fe..d03df1938 100644
--- a/tests/ref_data/gpt-no-hook.sbatch
+++ b/tests/ref_data/gpt-no-hook.sbatch
@@ -12,9 +12,9 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export COMBINE_THRESHOLD=1
 export PER_GPU_COMBINE_THRESHOLD=0
 export XLA_FLAGS="--xla_gpu_all_gather_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_all_reduce_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_reduce_scatter_combine_threshold_bytes=$PER_GPU_COMBINE_THRESHOLD"
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 echo "Loading container with srun command"
     srun --mpi=none --container-image=https://docker/url --container-name=cont true
@@ -26,5 +26,5 @@ echo "Loading container with srun command"
     -o __OUTPUT_DIR__/output/output-%j-%n-%t.txt \
     -e __OUTPUT_DIR__/output/error-%j-%n-%t.txt \
     --container-name=cont \
-    --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
+    --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
     /opt/paxml/workspace/run.sh
diff --git a/tests/ref_data/gpt-pre-test.sbatch b/tests/ref_data/gpt-pre-test.sbatch
index ed28eb1a7..85a54de35 100644
--- a/tests/ref_data/gpt-pre-test.sbatch
+++ b/tests/ref_data/gpt-pre-test.sbatch
@@ -12,11 +12,11 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export COMBINE_THRESHOLD=1
 export PER_GPU_COMBINE_THRESHOLD=0
 export XLA_FLAGS="--xla_gpu_all_gather_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_all_reduce_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_reduce_scatter_combine_threshold_bytes=$PER_GPU_COMBINE_THRESHOLD"
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output/pre_test/nccl:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output/pre_test/nccl bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
+srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output/pre_test/nccl,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
 SUCCESS_0=$(grep -q "Avg bus bandwidth" __OUTPUT_DIR__/output/pre_test/nccl/stdout.txt && echo 1 || echo 0)
 PRE_TEST_SUCCESS=$( [ $SUCCESS_0 -eq 1 ] && echo 1 || echo 0 )
 if [ $PRE_TEST_SUCCESS -eq 1 ]; then
@@ -30,6 +30,6 @@ if [ $PRE_TEST_SUCCESS -eq 1 ]; then
     -o __OUTPUT_DIR__/output/output-%j-%n-%t.txt \
     -e __OUTPUT_DIR__/output/error-%j-%n-%t.txt \
     --container-name=cont \
-    --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
+    --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
     /opt/paxml/workspace/run.sh
 fi
\ No newline at end of file
diff --git a/tests/ref_data/grok-no-hook.sbatch b/tests/ref_data/grok-no-hook.sbatch
index 03ff5c195..58ccf3186 100644
--- a/tests/ref_data/grok-no-hook.sbatch
+++ b/tests/ref_data/grok-no-hook.sbatch
@@ -12,9 +12,9 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export COMBINE_THRESHOLD=1
 export PER_GPU_COMBINE_THRESHOLD=0
 export XLA_FLAGS="--xla_disable_hlo_passes=rematerialization --xla_dump_hlo_pass_re=.* --xla_gpu_all_gather_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_all_reduce_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_enable_all_gather_combine_by_dim=false --xla_gpu_enable_highest_priority_async_stream=true --xla_gpu_enable_latency_hiding_scheduler=true --xla_gpu_enable_pipelined_all_gather=true --xla_gpu_enable_pipelined_all_reduce=true --xla_gpu_enable_pipelined_reduce_scatter=true --xla_gpu_enable_reduce_scatter_combine_by_dim=false --xla_gpu_enable_triton_gemm=false --xla_gpu_enable_triton_softmax_fusion=false --xla_gpu_enable_while_loop_double_buffering=true --xla_gpu_graph_level=0 --xla_gpu_pgle_profile_file_or_directory_path=/opt/paxml/workspace/pgle_output_profile.pbtxt --xla_gpu_reduce_scatter_combine_threshold_bytes=$PER_GPU_COMBINE_THRESHOLD --xla_gpu_run_post_layout_collective_pipeliner=false --xla_gpu_use_memcpy_local_p2p=false"
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 echo "Loading container with srun command"
     srun --mpi=none --container-image=https://docker/url --container-name=cont true
@@ -26,5 +26,5 @@ echo "Loading container with srun command"
     -o __OUTPUT_DIR__/output/output-%j-%n-%t.txt \
     -e __OUTPUT_DIR__/output/error-%j-%n-%t.txt \
     --container-name=cont \
-    --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
+    --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
     /opt/paxml/workspace/run.sh
diff --git a/tests/ref_data/grok-pre-test.sbatch b/tests/ref_data/grok-pre-test.sbatch
index 8567fb370..6b9b768d1 100644
--- a/tests/ref_data/grok-pre-test.sbatch
+++ b/tests/ref_data/grok-pre-test.sbatch
@@ -12,11 +12,11 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export COMBINE_THRESHOLD=1
 export PER_GPU_COMBINE_THRESHOLD=0
 export XLA_FLAGS="--xla_disable_hlo_passes=rematerialization --xla_dump_hlo_pass_re=.* --xla_gpu_all_gather_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_all_reduce_combine_threshold_bytes=$COMBINE_THRESHOLD --xla_gpu_enable_all_gather_combine_by_dim=false --xla_gpu_enable_highest_priority_async_stream=true --xla_gpu_enable_latency_hiding_scheduler=true --xla_gpu_enable_pipelined_all_gather=true --xla_gpu_enable_pipelined_all_reduce=true --xla_gpu_enable_pipelined_reduce_scatter=true --xla_gpu_enable_reduce_scatter_combine_by_dim=false --xla_gpu_enable_triton_gemm=false --xla_gpu_enable_triton_softmax_fusion=false --xla_gpu_enable_while_loop_double_buffering=true --xla_gpu_graph_level=0 --xla_gpu_pgle_profile_file_or_directory_path=/opt/paxml/workspace/pgle_output_profile.pbtxt --xla_gpu_reduce_scatter_combine_threshold_bytes=$PER_GPU_COMBINE_THRESHOLD --xla_gpu_run_post_layout_collective_pipeliner=false --xla_gpu_use_memcpy_local_p2p=false"
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output/pre_test/nccl:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output/pre_test/nccl bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
+srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output/pre_test/nccl,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
 SUCCESS_0=$(grep -q "Avg bus bandwidth" __OUTPUT_DIR__/output/pre_test/nccl/stdout.txt && echo 1 || echo 0)
 PRE_TEST_SUCCESS=$( [ $SUCCESS_0 -eq 1 ] && echo 1 || echo 0 )
 if [ $PRE_TEST_SUCCESS -eq 1 ]; then
@@ -30,6 +30,6 @@ if [ $PRE_TEST_SUCCESS -eq 1 ]; then
     -o __OUTPUT_DIR__/output/output-%j-%n-%t.txt \
     -e __OUTPUT_DIR__/output/error-%j-%n-%t.txt \
     --container-name=cont \
-    --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
+    --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:/opt/paxml/workspace/ \
     /opt/paxml/workspace/run.sh
 fi
\ No newline at end of file
diff --git a/tests/ref_data/megatron-run.sbatch b/tests/ref_data/megatron-run.sbatch
index 02c99045b..8ee63aa2d 100644
--- a/tests/ref_data/megatron-run.sbatch
+++ b/tests/ref_data/megatron-run.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,$PWD --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,$PWD --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,$PWD --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,$PWD --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,$PWD bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python __CLOUDAI_DIR__/run.py --global-batch-size 16 --hidden-size 4096 --max-position-embeddings 4096 --num-attention-heads 32 --num-layers 32 --pipeline-model-parallel-size 1 --seq-length 4096 --tensor-model-parallel-size 2 --save __CLOUDAI_DIR__ --load __CLOUDAI_DIR__ --tokenizer-model __CLOUDAI_DIR__/model.m"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/megatron:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,$PWD bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python __CLOUDAI_DIR__/run.py --global-batch-size 16 --hidden-size 4096 --max-position-embeddings 4096 --num-attention-heads 32 --num-layers 32 --pipeline-model-parallel-size 1 --seq-length 4096 --tensor-model-parallel-size 2 --save __CLOUDAI_DIR__ --load __CLOUDAI_DIR__ --tokenizer-model __CLOUDAI_DIR__/model.m"
diff --git a/tests/ref_data/nccl.sbatch b/tests/ref_data/nccl.sbatch
index 8f7434b61..ca26f4f04 100644
--- a/tests/ref_data/nccl.sbatch
+++ b/tests/ref_data/nccl.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output bash -c "source __OUTPUT_DIR__/output/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
diff --git a/tests/ref_data/nemo-run-no-hook.sbatch b/tests/ref_data/nemo-run-no-hook.sbatch
index f035bd895..da85f3e60 100644
--- a/tests/ref_data/nemo-run-no-hook.sbatch
+++ b/tests/ref_data/nemo-run-no-hook.sbatch
@@ -11,8 +11,8 @@
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 export CLOUDAI_NEMO_TASK=pretrain
 export CLOUDAI_NEMO_RECIPE=llama_3b
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
diff --git a/tests/ref_data/nemo-run-pre-test.sbatch b/tests/ref_data/nemo-run-pre-test.sbatch
index 7123a8e67..1987394c3 100644
--- a/tests/ref_data/nemo-run-pre-test.sbatch
+++ b/tests/ref_data/nemo-run-pre-test.sbatch
@@ -11,13 +11,13 @@
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 export CLOUDAI_NEMO_TASK=pretrain
 export CLOUDAI_NEMO_RECIPE=llama_3b
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output/pre_test/nccl:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output/pre_test/nccl bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
+srun --output=__OUTPUT_DIR__/output/pre_test/nccl/stdout.txt --error=__OUTPUT_DIR__/output/pre_test/nccl/stderr.txt --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output/pre_test/nccl,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/pre_test/nccl/env_vars.sh; all_reduce_perf_mpi --nthreads 1 --ngpus 1 --minbytes 32M --maxbytes 32M --stepbytes 1M --op sum --datatype float --root 0 --iters 20 --warmup_iters 5 --agg_iters 1 --average 1 --parallel_init 0 --check 1 --blocking 0 --cudagraph 0"
 SUCCESS_0=$(grep -q "Avg bus bandwidth" __OUTPUT_DIR__/output/pre_test/nccl/stdout.txt && echo 1 || echo 0)
 PRE_TEST_SUCCESS=$( [ $SUCCESS_0 -eq 1 ] && echo 1 || echo 0 )
 if [ $PRE_TEST_SUCCESS -eq 1 ]; then
-    srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
+    srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
 fi
\ No newline at end of file
diff --git a/tests/ref_data/nemo-run-vboost.sbatch b/tests/ref_data/nemo-run-vboost.sbatch
index 8e1979c94..4c2ab861e 100644
--- a/tests/ref_data/nemo-run-vboost.sbatch
+++ b/tests/ref_data/nemo-run-vboost.sbatch
@@ -14,8 +14,8 @@ export CLOUDAI_NEMO_TASK=pretrain
 export CLOUDAI_NEMO_RECIPE=llama_3b
 srun --ntasks=1 --output=__OUTPUT_DIR__/output/vboost.out --error=__OUTPUT_DIR__/output/vboost.err bash -c "sudo nvidia-smi boost-slider --vboost 1"
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/nemo:24.09 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__CLOUDAI_DIR__/src/cloudai/workloads/nemo_run:/cloudai_workspace bash -c "source __OUTPUT_DIR__/output/env_vars.sh; python /cloudai_install/cloudai_nemorun.py --factory llama_3b -y trainer.max_steps=100 trainer.val_check_interval=1000 trainer.num_nodes=1 trainer.strategy.tensor_model_parallel_size=1 trainer.strategy.pipeline_model_parallel_size=1 trainer.strategy.context_parallel_size=2 trainer.devices=8 data.seq_length=8192 data.micro_batch_size=1 data.global_batch_size=1 data.num_train_samples=100"
diff --git a/tests/ref_data/nixl-kvbench.sbatch b/tests/ref_data/nixl-kvbench.sbatch
index 817b0eacb..06167b7e6 100644
--- a/tests/ref_data/nixl-kvbench.sbatch
+++ b/tests/ref_data/nixl-kvbench.sbatch
@@ -12,20 +12,20 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export NIXL_ETCD_NAMESPACE=/nixl/kvbench/$(uuidgen)
 export NIXL_ETCD_ENDPOINTS="$SLURM_JOB_MASTER_NODE:2379"
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
-srun --export=ALL --mpi=pmix -N2 --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N2 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N2 --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N2 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
 etcd_pid=$!
 timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1; do sleep 1; done" || {
    echo "ETCD ($NIXL_ETCD_ENDPOINTS) was unreachable after 60 seconds";
    exit 1
  }
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS" &
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS" &
 sleep 15
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS"
-kill -TERM $etcd_pid
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS"
+kill -9 $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/ref_data/nixl-perftest.sbatch b/tests/ref_data/nixl-perftest.sbatch
index 6b4d2ba88..a02ee5de5 100644
--- a/tests/ref_data/nixl-perftest.sbatch
+++ b/tests/ref_data/nixl-perftest.sbatch
@@ -12,19 +12,19 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 export NIXL_ETCD_NAMESPACE=/nixl/kvbench/$(uuidgen)
 export NIXL_ETCD_ENDPOINTS="$SLURM_JOB_MASTER_NODE:2379"
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
-srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks-per-node=1 --ntasks=1 -N1 bash -c "python /workspace/nixl/benchmark/kvbench/test/inference_workload_matgen.py generate --num-user-requests=2 --batch-size=1 --num-prefill-nodes=1 --num-decode-nodes=1 --results-dir=__OUTPUT_DIR__/output/matrices --prefill-tp=1 --prefill-pp=1 --prefill-cp=1 --decode-tp=1 --decode-pp=1 --decode-cp=1 --model=model-name"
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks-per-node=1 --ntasks=1 -N1 bash -c "python /workspace/nixl/benchmark/kvbench/test/inference_workload_matgen.py generate --num-user-requests=2 --batch-size=1 --num-prefill-nodes=1 --num-decode-nodes=1 --results-dir=__OUTPUT_DIR__/output/matrices --prefill-tp=1 --prefill-pp=1 --prefill-cp=1 --decode-tp=1 --decode-pp=1 --decode-cp=1 --model=model-name"
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
 etcd_pid=$!
 timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1; do sleep 1; done" || {
    echo "ETCD ($NIXL_ETCD_ENDPOINTS) was unreachable after 60 seconds";
    exit 1
  }
-srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --overlap bash -c "source __OUTPUT_DIR__/output/env_vars.sh;  python /workspace/nixl/benchmark/kvbench/main.py sequential-ct-perftest __OUTPUT_DIR__/output/matrices/metadata.yaml --json-output-path=__OUTPUT_DIR__/output/results.json "
-kill -TERM $etcd_pid
+srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap bash -c "source __OUTPUT_DIR__/output/env_vars.sh;  python /workspace/nixl/benchmark/kvbench/main.py sequential-ct-perftest __OUTPUT_DIR__/output/matrices/metadata.yaml --json-output-path=__OUTPUT_DIR__/output/results.json "
+kill -9 $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/ref_data/nixl_bench.sbatch b/tests/ref_data/nixl_bench.sbatch
index 9bde93c75..1f862a953 100644
--- a/tests/ref_data/nixl_bench.sbatch
+++ b/tests/ref_data/nixl_bench.sbatch
@@ -16,16 +16,16 @@ srun --export=ALL --mpi=pmix -N2 --output=__OUTPUT_DIR__/output/mapping-stdout.t
 
 srun --export=ALL --mpi=pmix -N2 --ntasks=2 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/etcd.log --overlap --ntasks-per-node=1 --ntasks=1 --nodelist=$SLURM_JOB_MASTER_NODE -N1 etcd --listen-client-urls=http://0.0.0.0:2379 --advertise-client-urls=http://$SLURM_JOB_MASTER_NODE:2379 --listen-peer-urls=http://0.0.0.0:2380 --initial-advertise-peer-urls=http://$SLURM_JOB_MASTER_NODE:2380 --initial-cluster="default=http://$SLURM_JOB_MASTER_NODE:2380" --initial-cluster-state=new  &
 etcd_pid=$!
 timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1; do sleep 1; done" || {
    echo "ETCD ($NIXL_ETCD_ENDPOINTS) was unreachable after 60 seconds";
    exit 1
  }
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__INSTALL_DIR__:/cloudai_install,__OUTPUT_DIR__/output --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX" &
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX" &
 sleep 15
-srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__INSTALL_DIR__:/cloudai_install,__OUTPUT_DIR__/output --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX"
-kill -TERM $etcd_pid
+srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX"
+kill -9 $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/ref_data/osu-bench.sbatch b/tests/ref_data/osu-bench.sbatch
index 2abd0bd55..c81c09e54 100644
--- a/tests/ref_data/osu-bench.sbatch
+++ b/tests/ref_data/osu-bench.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output bash -c "source __OUTPUT_DIR__/output/env_vars.sh; /opt/hpcx/ompi/tests/osu-micro-benchmarks/osu_allreduce --message-size 1024 --iterations 10 --full"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/env_vars.sh; /opt/hpcx/ompi/tests/osu-micro-benchmarks/osu_allreduce --message-size 1024 --iterations 10 --full"
diff --git a/tests/ref_data/sleep.sbatch b/tests/ref_data/sleep.sbatch
index 9dbea847f..6f433e3cf 100644
--- a/tests/ref_data/sleep.sbatch
+++ b/tests/ref_data/sleep.sbatch
@@ -12,6 +12,6 @@ export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head
 
 srun --export=ALL --mpi=pmix -N1 --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __OUTPUT_DIR__/install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 srun --export=ALL --mpi=pmix -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; sleep 5"
diff --git a/tests/ref_data/slurm_container.sbatch b/tests/ref_data/slurm_container.sbatch
index 586cad22c..e8c8c278c 100644
--- a/tests/ref_data/slurm_container.sbatch
+++ b/tests/ref_data/slurm_container.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output bash -c "source __OUTPUT_DIR__/output/env_vars.sh; pwd ; ls"
+srun --export=ALL --mpi=pmix -N1 --container-image=https://docker/url --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/env_vars.sh; pwd ; ls"
diff --git a/tests/ref_data/triton-inference.sbatch b/tests/ref_data/triton-inference.sbatch
index 876319939..0bb938c3b 100644
--- a/tests/ref_data/triton-inference.sbatch
+++ b/tests/ref_data/triton-inference.sbatch
@@ -17,10 +17,10 @@ export NIM_MODEL_NAME=__OUTPUT_DIR__/output
 export NIM_CACHE_PATH=__OUTPUT_DIR__/output
 srun --export=ALL --mpi=pmix -N3 --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N3 --ntasks=3 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __OUTPUT_DIR__/install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N3 --ntasks=3 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix --container-image=nvcr.io/nim/deepseek-ai/deepseek-r1:1.7.2 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:ro,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:rw,__OUTPUT_DIR__/output/start_server_wrapper.sh:/opt/nim/start_server_wrapper.sh:ro --nodes=2 --ntasks=2 --ntasks-per-node=1 /opt/nim/start_server_wrapper.sh &
+srun --export=ALL --mpi=pmix --container-image=nvcr.io/nim/deepseek-ai/deepseek-r1:1.7.2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:ro,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:rw,__OUTPUT_DIR__/output/start_server_wrapper.sh:/opt/nim/start_server_wrapper.sh:ro --nodes=2 --ntasks=2 --ntasks-per-node=1 /opt/nim/start_server_wrapper.sh &
 
 sleep 3300
 
-srun --export=ALL --mpi=pmix --container-image=nvcr.io/nvidia/tritonserver:25.01-py3-sdk --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:ro,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:rw,__OUTPUT_DIR__/output/start_server_wrapper.sh:/opt/nim/start_server_wrapper.sh:ro --nodes=1 --ntasks=1 genai-perf profile -m model --endpoint-type chat --service-kind openai --streaming -u $SLURM_JOB_MASTER_NODE:8000 --num-prompts 20 --synthetic-input-tokens-mean 128 --synthetic-input-tokens-stddev 0 --concurrency 1 --output-tokens-mean 128 --extra-inputs max_tokens:128 --extra-inputs min_tokens:128 --extra-inputs ignore_eos:true --artifact-dir /cloudai_run_results --tokenizer tok -- -v --max-threads 1 --request-count 20
+srun --export=ALL --mpi=pmix --container-image=nvcr.io/nvidia/tritonserver:25.01-py3-sdk --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:ro,__OUTPUT_DIR__/output:__OUTPUT_DIR__/output:rw,__OUTPUT_DIR__/output/start_server_wrapper.sh:/opt/nim/start_server_wrapper.sh:ro --nodes=1 --ntasks=1 genai-perf profile -m model --endpoint-type chat --service-kind openai --streaming -u $SLURM_JOB_MASTER_NODE:8000 --num-prompts 20 --synthetic-input-tokens-mean 128 --synthetic-input-tokens-stddev 0 --concurrency 1 --output-tokens-mean 128 --extra-inputs max_tokens:128 --extra-inputs min_tokens:128 --extra-inputs ignore_eos:true --artifact-dir /cloudai_run_results --tokenizer tok -- -v --max-threads 1 --request-count 20
diff --git a/tests/ref_data/ucc.sbatch b/tests/ref_data/ucc.sbatch
index 2f5d7e458..48d3f8c67 100644
--- a/tests/ref_data/ucc.sbatch
+++ b/tests/ref_data/ucc.sbatch
@@ -10,8 +10,8 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output bash -c "source __OUTPUT_DIR__/output/env_vars.sh; /opt/hpcx/ucc/bin/ucc_perftest -c alltoall -b 1 -e 8M -m cuda -F"
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io#nvidia/pytorch:24.02-py3 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface bash -c "source __OUTPUT_DIR__/output/env_vars.sh; /opt/hpcx/ucc/bin/ucc_perftest -c alltoall -b 1 -e 8M -m cuda -F"
diff --git a/tests/ref_data/vllm-disagg.sbatch b/tests/ref_data/vllm-disagg.sbatch
index 78d2cf613..105c92b05 100644
--- a/tests/ref_data/vllm-disagg.sbatch
+++ b/tests/ref_data/vllm-disagg.sbatch
@@ -10,9 +10,9 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 export CUDA_VISIBLE_DEVICES=0,1,2,3
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 cleanup() {
     echo "Cleaning up PIDs: PREFILL_PID=$PREFILL_PID DECODE_PID=$DECODE_PID PROXY_PID=$PROXY_PID"
@@ -47,14 +47,14 @@ DECODE_NIXL_PORT=$((5557 + PORT_OFFSET + 4))
 echo "Starting vLLM instances..."
 export CUDA_VISIBLE_DEVICES="0,1"
 export VLLM_NIXL_SIDE_CHANNEL_PORT=$PREFILL_NIXL_PORT
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-prefill.log \
     vllm serve Qwen/Qwen3-0.6B --port 8100 --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_producer"}' &
 PREFILL_PID=$!
 
 export CUDA_VISIBLE_DEVICES="2,3"
 export VLLM_NIXL_SIDE_CHANNEL_PORT=$DECODE_NIXL_PORT
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-decode.log \
     vllm serve Qwen/Qwen3-0.6B --port 8200 --kv-transfer-config '{"kv_connector":"NixlConnector","kv_role":"kv_consumer"}' &
 DECODE_PID=$!
@@ -65,12 +65,12 @@ wait_for_health "http://${NODE}:8100/health" || exit 1
 wait_for_health "http://${NODE}:8200/health" || exit 1
 
 echo "Starting proxy..."
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-proxy.log \
     python3 /opt/vllm/tests/v1/kv_connector/nixl_integration/toy_proxy_server.py --port 8000 --prefiller-hosts 0.0.0.0 --prefiller-ports 8100 --decoder-hosts 0.0.0.0 --decoder-ports 8200 &
 PROXY_PID=$!
 
 echo "Running benchmark..."
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-bench.log \
     vllm bench serve --model Qwen/Qwen3-0.6B --base-url http://0.0.0.0:8000 --random-input-len 16 --random-output-len 128 --max-concurrency 16 --num-prompts 30 --result-dir __OUTPUT_DIR__/output --result-filename vllm-bench.json --save-result
diff --git a/tests/ref_data/vllm.sbatch b/tests/ref_data/vllm.sbatch
index 9d0c99be1..ddb3f7e92 100644
--- a/tests/ref_data/vllm.sbatch
+++ b/tests/ref_data/vllm.sbatch
@@ -10,9 +10,9 @@
 
 export SLURM_JOB_MASTER_NODE=$(scontrol show hostname $SLURM_JOB_NODELIST | head -n 1)
 export CUDA_VISIBLE_DEVICES=0
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --output=__OUTPUT_DIR__/output/mapping-stdout.txt --error=__OUTPUT_DIR__/output/mapping-stderr.txt bash -c "echo \$(date): \$(hostname):node \${SLURM_NODEID}:rank \${SLURM_PROCID}."
 
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash /cloudai_install/slurm-metadata.sh
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --ntasks=1 --ntasks-per-node=1 --output=__OUTPUT_DIR__/output/metadata/node-%N.toml --error=__OUTPUT_DIR__/output/metadata/nodes.err bash __INSTALL_DIR__/slurm-metadata.sh
 
 cleanup() {
     echo "Cleaning up PIDs: VLLM_PID=$VLLM_PID"
@@ -39,7 +39,7 @@ wait_for_health() {
 }
 
 echo "Starting vLLM instances..."
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-serve.log \
     vllm serve Qwen/Qwen3-0.6B --port 8000 &
 VLLM_PID=$!
@@ -49,6 +49,6 @@ echo "Waiting for vLLM on $NODE to be ready..."
 wait_for_health "http://${NODE}:8000/health" || exit 1
 
 echo "Running benchmark..."
-srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__OUTPUT_DIR__/output:/cloudai_run_results,__OUTPUT_DIR__/install:/cloudai_install,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
+srun --export=ALL --mpi=pmix -N1 --container-image=nvcr.io/nvidia/vllm:latest --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface,__INSTALL_DIR__/huggingface:/root/.cache/huggingface --overlap --ntasks-per-node=1 --ntasks=1 \
     --output=__OUTPUT_DIR__/output/vllm-bench.log \
     vllm bench serve --model Qwen/Qwen3-0.6B --base-url http://0.0.0.0:8000 --random-input-len 16 --random-output-len 128 --max-concurrency 16 --num-prompts 30 --result-dir __OUTPUT_DIR__/output --result-filename vllm-bench.json --save-result
diff --git a/tests/test_acceptance.py b/tests/test_acceptance.py
index b5ee76bbb..5cc680f33 100644
--- a/tests/test_acceptance.py
+++ b/tests/test_acceptance.py
@@ -447,11 +447,10 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                 name="ai-dynamo",
                 description="AI Dynamo test",
                 test_template_name="ai-dynamo",
-                dynamo_repo=GitRepo(
+                repo=GitRepo(
                     url="https://github.com/ai-dynamo/dynamo.git",
                     commit="f7e468c7e8ff0d1426db987564e60572167e8464",
                     installed_path=slurm_system.install_path,
-                    mount_as="/git/dynamo",
                 ),
                 cmd_args=AIDynamoCmdArgs(
                     docker_image_url="nvcr.io/nvidia/ai-dynamo:24.09",
@@ -460,17 +459,19 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                         backend="vllm",
                         workspace_path="/workspace",
                         prefill_worker=WorkerConfig(
+                            cmd="python3 -m dynamo.vllm --is-prefill-worker",
+                            worker_initialized_regex="VllmWorker.*has.been.initialized",
                             **{
                                 "num-nodes": 1,
                                 "args": WorkerBaseArgs(),
-                                "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                             }
                         ),
                         decode_worker=WorkerConfig(
+                            cmd="python3 -m dynamo.vllm",
+                            worker_initialized_regex="VllmWorker.*has.been.initialized",
                             **{
                                 "num-nodes": 1,
                                 "args": WorkerBaseArgs(),
-                                "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                             }
                         ),
                     ),
@@ -485,7 +486,14 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                             "warmup-request-count": 10,
                         }
                     ),
-                    lmcache=LMCache(args=LMCacheArgs()),
+                    lmcache=LMCache(
+                        args=LMCacheArgs(),
+                        repo=GitRepo(
+                            url="https://github.com/LMCache/LMCache.git",
+                            commit="ab8530993992db873869ba882320953582d94309",
+                            installed_path=slurm_system.install_path,
+                        ),
+                    ),
                 ),
             ),
         ),
@@ -552,9 +560,6 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
             tr.num_nodes = 2
         if request.param == "ai-dynamo":
             tr.num_nodes = 2
-            hf_home = tr.output_path / "hf_home"
-            hf_home.mkdir(parents=True, exist_ok=True)
-            tr.test.cmd_args.huggingface_home_host_path = str(hf_home)
         if request.param == "deepep-benchmark":
             tr.num_nodes = 2
         return tr, f"{request.param}.sbatch", None
diff --git a/tests/test_single_sbatch_runner.py b/tests/test_single_sbatch_runner.py
index 669c8c238..e480575a8 100644
--- a/tests/test_single_sbatch_runner.py
+++ b/tests/test_single_sbatch_runner.py
@@ -31,7 +31,7 @@
 
 
 class MyNCCL(NCCLTestDefinition):
-    def constraint_check(self, tr: TestRun) -> bool:
+    def constraint_check(self, tr: TestRun, system=None) -> bool:
         return "CONSTRAINT" not in tr.test.extra_env_vars
 
 
diff --git a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
index 96039fd85..fa0c97827 100644
--- a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
+++ b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
@@ -15,11 +15,11 @@
 # limitations under the License.
 
 from pathlib import Path
-from typing import cast
 
 import pytest
 
 from cloudai._core.test_scenario import TestRun
+from cloudai.core import GitRepo
 from cloudai.systems.slurm import SlurmSystem
 from cloudai.workloads.ai_dynamo import (
     AIDynamoArgs,
@@ -42,6 +42,8 @@ def cmd_args() -> AIDynamoCmdArgs:
             model="model",
             workspace_path="/workspace",
             prefill_worker=WorkerConfig(
+                cmd="python3 -m dynamo.vllm --is-prefill-worker",
+                worker_initialized_regex="VllmWorker.*has.been.initialized",
                 **{
                     "num-nodes": 1,
                     "args": WorkerBaseArgs(
@@ -50,10 +52,11 @@ def cmd_args() -> AIDynamoCmdArgs:
                             "tensor-parallel-size": 8,
                         }
                     ),
-                    "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                 }
             ),
             decode_worker=WorkerConfig(
+                cmd="python3 -m dynamo.vllm",
+                worker_initialized_regex="VllmWorker.*has.been.initialized",
                 **{
                     "num-nodes": 1,
                     "args": WorkerBaseArgs(
@@ -62,7 +65,6 @@ def cmd_args() -> AIDynamoCmdArgs:
                             "tensor-parallel-size": 8,
                         }
                     ),
-                    "ServiceArgs": {"workers": 1, "resources": {"gpu": "8"}},
                 }
             ),
         ),
@@ -95,8 +97,12 @@ def test_run(tmp_path: Path, cmd_args: AIDynamoCmdArgs) -> TestRun:
         description="desc",
         test_template_name="template",
         cmd_args=cmd_args,
+        repo=GitRepo(
+            url="https://github.com/ai-dynamo/dynamo.git",
+            commit="f7e468c7e8ff0d1426db987564e60572167e8464",
+            installed_path=dynamo_repo_path,
+        ),
     )
-    tdef.dynamo_repo.installed_path = dynamo_repo_path
 
     return TestRun(name="run", test=tdef, nodes=["n0", "n1"], num_nodes=2, output_path=tmp_path)
 
@@ -108,12 +114,12 @@ def strategy(slurm_system: SlurmSystem, test_run: TestRun) -> AIDynamoSlurmComma
 
 def test_container_mounts(strategy: AIDynamoSlurmCommandGenStrategy, test_run: TestRun) -> None:
     mounts = strategy._container_mounts()
-    td = cast(AIDynamoTestDefinition, test_run.test)
 
-    # _container_mounts returns custom mounts including scripts and HF home (git repos are handled by base class)
-    assert mounts == [
-        f"{strategy.system.hf_home_path.absolute()!s}:{td.cmd_args.dynamo.workspace_path}/hf_home",
-    ]
+    td = test_run.test
+    expected = []
+    if td.cmd_args.storage_cache_dir:
+        expected.append(f"{td.cmd_args.storage_cache_dir}:{td.cmd_args.storage_cache_dir}")
+    assert mounts == expected
 
 
 @pytest.mark.parametrize(
diff --git a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
index a6f42a015..67a3b87c4 100644
--- a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
+++ b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
@@ -45,6 +45,8 @@ def dynamo(request: Any) -> AIDynamoTestDefinition:
             docker_image_url="nvcr.io/nvidia/ai-dynamo/vllm-runtime:0.6.1.post1",
             dynamo=AIDynamoArgs(
                 decode_worker=WorkerConfig(
+                    cmd="python3 -m dynamo.vllm",
+                    worker_initialized_regex="VllmWorker.*has.been.initialized",
                     num_nodes=2,
                     args=WorkerBaseArgs(data_parallel_size=1, tensor_parallel_size=1),
                     extra_args="--extra-decode-arg v",
@@ -56,6 +58,8 @@ def dynamo(request: Any) -> AIDynamoTestDefinition:
     )
     if request.param == "disagg":
         dynamo.cmd_args.dynamo.prefill_worker = WorkerConfig(
+            cmd="python3 -m dynamo.vllm --is-prefill-worker",
+            worker_initialized_regex="VllmWorker.*has.been.initialized",
             num_nodes=3, args=WorkerBaseArgs(tensor_parallel_size=1), extra_args="--extra-prefill-arg v"
         )
 
@@ -107,7 +111,7 @@ def test_gen_decode(json_gen: AIDynamoKubernetesJsonGenStrategy) -> None:
     main_container = decode.get("extraPodSpec", {}).get("mainContainer", {})
     assert main_container.get("image") == tdef.cmd_args.docker_image_url
     assert main_container.get("workingDir") == tdef.cmd_args.dynamo.workspace_path
-    assert main_container.get("command") == tdef.cmd_args.dynamo.decode_cmd.split()
+    assert main_container.get("command") == tdef.cmd_args.dynamo.decode_worker.cmd.split()
     assert main_container.get("args") == args
 
     resources = decode.get("resources", {})
@@ -152,7 +156,7 @@ def test_gen_prefill(json_gen: AIDynamoKubernetesJsonGenStrategy) -> None:
     main_container = prefill.get("extraPodSpec", {}).get("mainContainer", {})
     assert main_container.get("image") == tdef.cmd_args.docker_image_url
     assert main_container.get("workingDir") == tdef.cmd_args.dynamo.workspace_path
-    assert main_container.get("command") == tdef.cmd_args.dynamo.prefill_cmd.split()
+    assert main_container.get("command") == tdef.cmd_args.dynamo.prefill_worker.cmd.split()
     assert main_container.get("args") == args
 
     resources = prefill.get("resources", {})
diff --git a/tests/workloads/ai_dynamo/test_report_gen_strategy.py b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
index 37f01d7fb..2674f4a77 100644
--- a/tests/workloads/ai_dynamo/test_report_gen_strategy.py
+++ b/tests/workloads/ai_dynamo/test_report_gen_strategy.py
@@ -55,7 +55,13 @@ def ai_dynamo_tr(tmp_path: Path) -> TestRun:
         test_template_name="t",
         cmd_args=AIDynamoCmdArgs(
             docker_image_url="http://url",
-            dynamo=AIDynamoArgs(prefill_worker=WorkerConfig(args=WorkerBaseArgs())),
+            dynamo=AIDynamoArgs(
+                prefill_worker=WorkerConfig(
+                    cmd="python3 -m dynamo.vllm --is-prefill-worker",
+                    worker_initialized_regex="VllmWorker.*has.been.initialized",
+                    args=WorkerBaseArgs(),
+                ),
+            ),
             genai_perf=GenAIPerf(),
             lmcache=LMCache(args=LMCacheArgs()),
         ),
@@ -66,7 +72,7 @@ def ai_dynamo_tr(tmp_path: Path) -> TestRun:
     (tr.output_path / "genai_perf_report.csv").write_text(csv_content)
     (tr.output_path / "profile_genai_perf.csv").write_text(csv_content)
     (tr.output_path / "profile_genai_perf.json").write_text("mock json content")
-    (tr.output_path / test.success_marker()).touch()
+    (tr.output_path / test.success_marker).touch()
 
     return tr
 
@@ -113,7 +119,7 @@ def test_ai_dynamo_get_metric_invalid(slurm_system: SlurmSystem, ai_dynamo_tr: T
     assert strategy.get_metric("invalid-metric") == METRIC_ERROR
 
     # Empty the CSV file to test error handling
-    (ai_dynamo_tr.output_path / "genai_perf-report.csv").write_text("")
+    (ai_dynamo_tr.output_path / "genai_perf_report.csv").write_text("")
     assert strategy.get_metric("invalid-metric") == METRIC_ERROR
 
 
diff --git a/tests/workloads/nixl_perftest/test_command_gen_strategy_slurm.py b/tests/workloads/nixl_perftest/test_command_gen_strategy_slurm.py
index e4cf21819..d70bcaed5 100644
--- a/tests/workloads/nixl_perftest/test_command_gen_strategy_slurm.py
+++ b/tests/workloads/nixl_perftest/test_command_gen_strategy_slurm.py
@@ -197,4 +197,4 @@ def test_constraint_check(
     nixl_perftest.cmd_args.num_decode_nodes = dec_nodes
     nixl_perftest.cmd_args.prefill_tp = prefill_tp
     nixl_perftest.cmd_args.num_prefill_nodes = prefill_nodes
-    assert nixl_perftest.constraint_check(test_run) is res
+    assert nixl_perftest.constraint_check(test_run, None) is res

From 0b1621dc5de4f7562792fcedccfbbcc3a19a7759 Mon Sep 17 00:00:00 2001
From: Kapil Arya <kapila@nvidia.com>
Date: Fri, 20 Feb 2026 17:51:33 -0800
Subject: [PATCH 4/5] Fix formatting and update nixl ref data after rebase

- Apply ruff formatting to ai_dynamo.py, test files
- Update nixl ref data for kill -9 -> kill -TERM change

Co-authored-by: Cursor <cursoragent@cursor.com>
---
 src/cloudai/workloads/ai_dynamo/ai_dynamo.py        | 13 +++++++------
 tests/ref_data/nixl-kvbench.sbatch                  |  2 +-
 tests/ref_data/nixl-perftest.sbatch                 |  2 +-
 tests/ref_data/nixl_bench.sbatch                    |  2 +-
 tests/test_acceptance.py                            |  4 ++--
 .../ai_dynamo/test_command_gen_strategy_slurm.py    |  4 ++--
 .../ai_dynamo/test_json_gen_strategy_kubernetes.py  |  4 +++-
 7 files changed, 17 insertions(+), 14 deletions(-)

diff --git a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
index 60bd6f9b0..8b0742adf 100644
--- a/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
+++ b/src/cloudai/workloads/ai_dynamo/ai_dynamo.py
@@ -233,8 +233,7 @@ class LMCache(BaseModel):
 
     controller_cmd: str = "lmcache_controller --host localhost --port 9000 --monitor-port 9001"
     repo: GitRepo = GitRepo(
-        url="https://github.com/LMCache/LMCache.git",
-        commit="ab8530993992db873869ba882320953582d94309"
+        url="https://github.com/LMCache/LMCache.git", commit="ab8530993992db873869ba882320953582d94309"
     )
 
     args: LMCacheArgs = Field(default_factory=LMCacheArgs)
@@ -248,6 +247,7 @@ class LMCache(BaseModel):
     def installables(self) -> list[Installable]:
         return [self.repo]
 
+
 class GenAIPerf(Workload):
     """Workload configuration for GenAI performance profiling."""
 
@@ -299,8 +299,7 @@ class AIDynamoTestDefinition(TestDefinition):
     _docker_image: Optional[DockerImage] = None
     script: File = File(Path(__file__).parent.parent / "ai_dynamo/ai_dynamo.sh")
     repo: GitRepo = GitRepo(
-        url="https://github.com/ai-dynamo/dynamo.git",
-        commit="f7e468c7e8ff0d1426db987564e60572167e8464"
+        url="https://github.com/ai-dynamo/dynamo.git", commit="f7e468c7e8ff0d1426db987564e60572167e8464"
     )
     _hf_model: HFModel | None = None
     constraints: Constraints = Constraints()
@@ -402,8 +401,10 @@ def constraint_check(self, tr: TestRun, system: Optional[System]) -> bool:
         if slurm_system and slurm_system.gpus_per_node:
             gpus_per_node = slurm_system.gpus_per_node
 
-        if gpus_per_node > 0 and self.constraints.tp_times_pp_le_gpus_per_node and (
-            prefill_tp * prefill_pp > gpus_per_node or decode_tp * decode_pp > gpus_per_node
+        if (
+            gpus_per_node > 0
+            and self.constraints.tp_times_pp_le_gpus_per_node
+            and (prefill_tp * prefill_pp > gpus_per_node or decode_tp * decode_pp > gpus_per_node)
         ):
             logging.info("constraint_check failed for: tp_times_pp_le_gpus_per_node")
             return False
diff --git a/tests/ref_data/nixl-kvbench.sbatch b/tests/ref_data/nixl-kvbench.sbatch
index 06167b7e6..7487f20bd 100644
--- a/tests/ref_data/nixl-kvbench.sbatch
+++ b/tests/ref_data/nixl-kvbench.sbatch
@@ -25,7 +25,7 @@ timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1;
 srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS" &
 sleep 15
 srun --export=ALL --mpi=pmix --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; path/to/python path/to/kvbench_script.sh profile --backend UCX --etcd_endpoints http://$NIXL_ETCD_ENDPOINTS"
-kill -9 $etcd_pid
+kill -TERM $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/ref_data/nixl-perftest.sbatch b/tests/ref_data/nixl-perftest.sbatch
index a02ee5de5..27488862e 100644
--- a/tests/ref_data/nixl-perftest.sbatch
+++ b/tests/ref_data/nixl-perftest.sbatch
@@ -24,7 +24,7 @@ timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1;
    exit 1
  }
 srun --export=ALL --mpi=pmix -N1 --container-image=url.com/docker:tag --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap bash -c "source __OUTPUT_DIR__/output/env_vars.sh;  python /workspace/nixl/benchmark/kvbench/main.py sequential-ct-perftest __OUTPUT_DIR__/output/matrices/metadata.yaml --json-output-path=__OUTPUT_DIR__/output/results.json "
-kill -9 $etcd_pid
+kill -TERM $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/ref_data/nixl_bench.sbatch b/tests/ref_data/nixl_bench.sbatch
index 1f862a953..cc402c81b 100644
--- a/tests/ref_data/nixl_bench.sbatch
+++ b/tests/ref_data/nixl_bench.sbatch
@@ -25,7 +25,7 @@ timeout 60 bash -c "until curl -s $NIXL_ETCD_ENDPOINTS/health > /dev/null 2>&1;
 srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=0 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX" &
 sleep 15
 srun --export=ALL --mpi=pmix --container-image=url.com/docker:2 --container-mounts=__INSTALL_DIR__,__OUTPUT_DIR__/output,__INSTALL_DIR__/huggingface --overlap --relative=1 --ntasks-per-node=1 --ntasks=1 -N1 bash -c "source __OUTPUT_DIR__/output/env_vars.sh; ./nixlbench --etcd-endpoints http://$NIXL_ETCD_ENDPOINTS --backend UCX"
-kill -9 $etcd_pid
+kill -TERM $etcd_pid
  timeout 60 bash -c "while kill -0 $etcd_pid 2>/dev/null; do sleep 1; done" || {
    echo "Failed to kill ETCD (pid=$etcd_pid) within 60 seconds";
    exit 1
diff --git a/tests/test_acceptance.py b/tests/test_acceptance.py
index 5cc680f33..d4a1610ba 100644
--- a/tests/test_acceptance.py
+++ b/tests/test_acceptance.py
@@ -464,7 +464,7 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                             **{
                                 "num-nodes": 1,
                                 "args": WorkerBaseArgs(),
-                            }
+                            },
                         ),
                         decode_worker=WorkerConfig(
                             cmd="python3 -m dynamo.vllm",
@@ -472,7 +472,7 @@ def test_req(request, slurm_system: SlurmSystem, partial_tr: partial[TestRun]) -
                             **{
                                 "num-nodes": 1,
                                 "args": WorkerBaseArgs(),
-                            }
+                            },
                         ),
                     ),
                     genai_perf=GenAIPerf(
diff --git a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
index fa0c97827..695d54049 100644
--- a/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
+++ b/tests/workloads/ai_dynamo/test_command_gen_strategy_slurm.py
@@ -52,7 +52,7 @@ def cmd_args() -> AIDynamoCmdArgs:
                             "tensor-parallel-size": 8,
                         }
                     ),
-                }
+                },
             ),
             decode_worker=WorkerConfig(
                 cmd="python3 -m dynamo.vllm",
@@ -65,7 +65,7 @@ def cmd_args() -> AIDynamoCmdArgs:
                             "tensor-parallel-size": 8,
                         }
                     ),
-                }
+                },
             ),
         ),
         genai_perf=GenAIPerf(
diff --git a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
index 67a3b87c4..5ff1714cc 100644
--- a/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
+++ b/tests/workloads/ai_dynamo/test_json_gen_strategy_kubernetes.py
@@ -60,7 +60,9 @@ def dynamo(request: Any) -> AIDynamoTestDefinition:
         dynamo.cmd_args.dynamo.prefill_worker = WorkerConfig(
             cmd="python3 -m dynamo.vllm --is-prefill-worker",
             worker_initialized_regex="VllmWorker.*has.been.initialized",
-            num_nodes=3, args=WorkerBaseArgs(tensor_parallel_size=1), extra_args="--extra-prefill-arg v"
+            num_nodes=3,
+            args=WorkerBaseArgs(tensor_parallel_size=1),
+            extra_args="--extra-prefill-arg v",
         )
 
     return dynamo

From 3f97fa7e588257f5ec59896c3ed6ad1547a78ee8 Mon Sep 17 00:00:00 2001
From: Kapil Arya <kapila@nvidia.com>
Date: Fri, 20 Feb 2026 17:55:49 -0800
Subject: [PATCH 5/5] Fixed script ref.

---
 src/cloudai/systems/kubernetes/kubernetes_system.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/cloudai/systems/kubernetes/kubernetes_system.py b/src/cloudai/systems/kubernetes/kubernetes_system.py
index f34408935..ce52d018d 100644
--- a/src/cloudai/systems/kubernetes/kubernetes_system.py
+++ b/src/cloudai/systems/kubernetes/kubernetes_system.py
@@ -300,7 +300,7 @@ def _run_genai_perf(self, job: KubernetesJob) -> None:
         genai_perf_results_path = "/tmp/cloudai/genai-perf"
         frontend_pod = self._get_dynamo_pod_by_role(role="frontend")
 
-        wrapper_script_path = tdef.genai_perf_script.installed_path
+        wrapper_script_path = tdef.cmd_args.genai_perf.script.installed_path
 
         pod_wrapper_path = "/tmp/genai_perf.sh"