[plugin][sglang] register attn backend to sgl by gbyu-amd · Pull Request #5 · zejunchen-zejun/ATOM

gbyu-amd · 2026-02-11T11:57:39Z

There is still an issue with cuda graph mode. Looking into it.

Launch command

We test with Qwen3-235B-A22B-Instruct-2507-FP8 on MI355.

ATOM + Sglang

export AITER_ROPE_FUSED_QKNORM=1

model_path=/data/models/Qwen3-235B-A22B-Instruct-2507-FP8
python3 -m sglang.launch_server \
    --model-path $model_path \
    --host localhost \
    --port 8000 \
    --trust-remote-code \
    --tensor-parallel-size 8 \
    --expert-parallel-size 8 \
    --kv-cache-dtype fp8_e4m3 \
    --mem-fraction-static 0.8 \
    --page-size 1024 \
    --disable-cuda-graph \
    --cuda-graph-max-bs 128 \
    --model-impl atom

Sglang

model_path=/data/models/Qwen3-235B-A22B-Instruct-2507-FP8
python3 -m sglang.launch_server \
    --model-path $model_path \
    --host localhost \
    --port 8000 \
    --trust-remote-code \
    --tensor-parallel-size 8 \
    --expert-parallel-size 8 \
    --kv-cache-dtype fp8_e4m3 \
    --mem-fraction-static 0.8 \
    --cuda-graph-max-bs 128

Accuracy

ATOM + Sglang

local-completions ({'model': '/data/models/Qwen3-235B-A22B-Instruct-2507-FP8', 'base_url': 'http://localhost:8000/v1/completions', 'num_concurrent': 64, 'max_retries': 3, 'tokenized_requests': False}), gen_kwargs: ({}), limit: None, num_fewshot: 3, batch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     3|exact_match|↑  |0.8916|±  |0.0086|
|     |       |strict-match    |     3|exact_match|↑  |0.8749|±  |0.0091|

Sglang

local-completions ({'model': '/data/models/Qwen3-235B-A22B-Instruct-2507-FP8', 'base_url': 'http://localhost:8000/v1/completions', 'num_concurrent': 64, 'max_retries': 3, 'tokenized_requests': False}), gen_kwargs: ({}), limit: None, num_fewshot: 3, batch_size: 1
|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     3|exact_match|↑  |0.8954|±  |0.0084|
|     |       |strict-match    |     3|exact_match|↑  |0.8779|±  |0.0090|

Performance

ATOM + Sglang (eager mode)

Input_Tokens	Output_Tokens	Max_Concurrency	Num_Prompts	Mean_TTFT_ms	Mean_TPOT_ms	OutToken_Throughput	TotToken_Throughput
1024	1024	4	40	232.22	49.18	81.04	162.08
1024	1024	8	80	322.96	49.53	160.64	321.29
1024	1024	16	160	460.02	54.01	294.05	588.09
1024	1024	32	320	756.8	55.15	573.03	1146.06
1024	1024	64	640	1209.78	42.88	1453.59	2907.17
1024	1024	128	1280	1998.49	44.43	2760.51	5521.02

Sglang

Too slow to finish benchmarking. The gsm8k test takes almost 30 mins, while ATOM + Sglang only takes 3 ~ 4 mins.

framework Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

zejunchen-zejun · 2026-02-12T03:45:02Z

atom/config.py

        ), f"kv_cache_block_size ({self.kv_cache_block_size}) must be a multiple of 16 or 1"
        assert 1 <= self.tensor_parallel_size <= 8
-        self.hf_config = get_hf_config(self.model)
+        if is_plugin_mode():


Here we plan to follow the ATOM main branch code for loading hf_config from model.
Here you can have a dedicated PR to ATOM main to make here code be compatible with the different transformers version.

zejunchen-zejun · 2026-02-12T06:56:07Z

atom/models/qwen3_moe.py

-            # Add qk-norm
-            q = self.q_norm(q)
-            k = self.k_norm(k)
+            if is_sglang():


It seems the self.forward_sgl_plugin_mode path can be included into the RadixAttention forward method, otherwise when we enable more models, all of those models need to add sglang forward path

Here is the RadixAttention forward method interface, it has kwargs and we can pass arguments

def forward( self, query: torch.Tensor, key: torch.Tensor, value: torch.Tensor, positions: torch.Tensor = None, q_scale: Optional[torch.Tensor] = None, **kwargs, ):

atom/utils/envs.py

zejunchen-zejun · 2026-02-12T07:15:19Z

atom/model_ops/radix_attention.py

+                key,
+                value,
+                forward_batch=forward_batch,
+                save_kv_cache=not self.use_aiter_rope_fused_qknorm,


if the save_kv_cache is True, the sglang will call official kernel to save kv right?

zejunchen-zejun · 2026-02-12T08:06:31Z

Hi, @gbyu-amd
Yajie said they have upstreamed some optimizations for Qwen-serial models into SGLang, so the performance baseline of SGLang maybe not so bad. Please double confirm with Yajie.

If the cuda graph capture issue cannot be easily solved, don't worry, we can mark it as known limitation

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

zejunchen-zejun · 2026-02-27T02:41:31Z

The destination branch is force rebased, so the destination commit hash is changed.
We need to close this PR and kick off a new one to solve the bad conflict.
new one: #6

zejunchen-zejun and others added 30 commits February 9, 2026 21:57

[feat][plugin] Make ATOM work as plugin for upper

cae53bd

framework Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

a5b5f3f

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

6563083

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

0f05699

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

format ruff

7712e1f

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

ruff format

c203883

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

6bbaade

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

a669441

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

2f8e6ee

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

113e587

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

de036e8

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

f0f0c94

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

dd6e9b3

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

b985b82

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

fix sglang plugin mode acc issue

b9806e0

init vllm-atom, first commit

418d442

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

7c54abe

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

a44bed1

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

43604c9

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

285929a

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

77795eb

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

make lint happy

b13a670

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

31ccb16

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

f226b95

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

b553cd2

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

e1e83d4

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

484e17d

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

36b6fd3

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

b1fb7b6

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

0f0bedc

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

zejunchen-zejun and others added 3 commits February 10, 2026 18:20

add

a051118

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

register attn backend to sgl from ATOM

a00f59e

make format happy

8491ef7

gbyu-amd requested a review from zejunchen-zejun February 11, 2026 11:57

zejunchen-zejun reviewed Feb 12, 2026

View reviewed changes

atom/utils/envs.py Outdated Show resolved Hide resolved

zejunchen-zejun reviewed Feb 12, 2026

View reviewed changes

zejunchen-zejun added 4 commits February 25, 2026 10:31

add

9eb1c19

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

6d14b84

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

2c0a44a

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

add

9498684

Signed-off-by: zejunchen-zejun <zejun.chen@amd.com>

zejunchen-zejun force-pushed the zejun/plugin_for_atom_1223 branch from a051118 to 28017a7 Compare February 27, 2026 01:52

zejunchen-zejun closed this Feb 27, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[plugin][sglang] register attn backend to sgl#5

[plugin][sglang] register attn backend to sgl#5
gbyu-amd wants to merge 37 commits intozejun/plugin_for_atom_1223from
guanbao/sgl_attn_backend

gbyu-amd commented Feb 11, 2026 •

edited

Loading

Uh oh!

zejunchen-zejun Feb 12, 2026

Uh oh!

zejunchen-zejun Feb 12, 2026 •

edited

Loading

Uh oh!

Uh oh!

zejunchen-zejun Feb 12, 2026

Uh oh!

zejunchen-zejun commented Feb 12, 2026 •

edited

Loading

Uh oh!

zejunchen-zejun commented Feb 27, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

gbyu-amd commented Feb 11, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Launch command

ATOM + Sglang

Sglang

Accuracy

ATOM + Sglang

Sglang

Performance

ATOM + Sglang (eager mode)

Sglang

Uh oh!

zejunchen-zejun Feb 12, 2026

Choose a reason for hiding this comment

Uh oh!

zejunchen-zejun Feb 12, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

zejunchen-zejun Feb 12, 2026

Choose a reason for hiding this comment

Uh oh!

zejunchen-zejun commented Feb 12, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

zejunchen-zejun commented Feb 27, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

gbyu-amd commented Feb 11, 2026 •

edited

Loading

zejunchen-zejun Feb 12, 2026 •

edited

Loading

zejunchen-zejun commented Feb 12, 2026 •

edited

Loading