multi-model-process-eval

提供一套统一的代码骨架，用 torch / sglang / vLLM 三类后端跑不同任务（embedding、LLM、VL、Omni）。本仓库以 src/tasks/* 作为任务逻辑层，以 scripts/* 作为可直接运行的脚本入口（含 server 启动脚本与压测脚本）。

快速导航（推荐从这里开始）

总入口与脚本说明：scripts/README.md
Embedding（文本/图像向量 + 合成数据压测）：scripts/embedding/README.md
Qwen3（LLM 压测 + TTFT/TPOT）：scripts/qwen3/README.md
Omni（多模态/音频等 Omni 模型压测）：scripts/omni/README.md
工具脚本（如 FP8->FP16）：scripts/tools/README.md

目录结构

src/data/：数据集与输入构造（如 Yahoo / Flickr8k / synthetic）。
src/tasks/：按任务划分的最小推理逻辑（embedding / qwen3 / vl / omni 等）及对应 backend 适配层。
scripts/：可运行脚本入口与 server 启动脚本（sglang/vllm），按任务分目录。

安装

pip install -r requirements.txt

说明：不同任务/后端对环境要求不同，尤其是 vllm / sglang（CPU vs CUDA、openai 依赖版本等）。建议优先参考对应子目录 README 的“Start servers / Usage”。

常用示例

Embedding：合成固定长度压测

详见 scripts/embedding/README.md。

cd scripts/embedding

# 固定字符长度（默认 MODE=input_len）
MODE=input_len SYNTHETIC_INPUT_LEN=512 MAX_SAMPLES=10000 BACKEND=torch DEVICE=cpu \
  ./run_fix_token_len.sh

# 固定 token 长度
MODE=token_len SYNTHETIC_TOKEN_LEN=64 MAX_SAMPLES=10000 BACKEND=torch DEVICE=cpu \
  ./run_fix_token_len.sh

Embedding：vLLM OpenAI 兼容 HTTP

启动 vLLM embedding server（示例端口 9090）：

cd scripts/embedding/vllm
PORT=9090 ./start_vllm_server.sh

运行 client：

cd scripts/embedding
BASE_URL=http://127.0.0.1:9090 BACKEND=vllm-http \
  MODE=input_len SYNTHETIC_INPUT_LEN=512 MAX_SAMPLES=10000 \
  ./run_fix_token_len.sh

Qwen3：LLM 压测

详见 scripts/qwen3/README.md。

cd scripts/qwen3
./run_qwen3_test.sh

Omni：多模态压测

详见 scripts/omni/README.md。

cd scripts/omni
./run_qwen_omni_synthetic.sh

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
scripts		scripts
src		src
.gitignore		.gitignore
README.md		README.md
requirements-cpu.txt		requirements-cpu.txt
requirements-cuda.txt		requirements-cuda.txt
requirements.txt		requirements.txt
sitecustomize.py		sitecustomize.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

multi-model-process-eval

快速导航（推荐从这里开始）

目录结构

安装

常用示例

Embedding：合成固定长度压测

Embedding：vLLM OpenAI 兼容 HTTP

Qwen3：LLM 压测

Omni：多模态压测

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

epeshared/multi-model-process-eval

Folders and files

Latest commit

History

Repository files navigation

multi-model-process-eval

快速导航（推荐从这里开始）

目录结构

安装

常用示例

Embedding：合成固定长度压测

Embedding：vLLM OpenAI 兼容 HTTP

Qwen3：LLM 压测

Omni：多模态压测

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages