Qwen3-ASR 是阿里巴巴 Qwen 团队推出的自动语音识别(ASR)模型。
- 支持语言: 52 种语言和方言(30 种语言 + 22 种中文方言)
- 模型版本:
- Qwen3-ASR-1.7B (363k 下载量)
- Qwen3-ASR-0.6B (87.9k 下载量) - 轻量版本,适合 CPU
- 性能: 开源 ASR 模型中达到 SOTA,可与最强商业 API 竞争
- 技术特点:
- 基于 Qwen3-Omni 基座模型
- 支持 vLLM 批量推理,流式推理、时间戳预测
- 支持语音、歌声识别
# 直接用 pip 安装
pip install uvcd ~
mkdir -p qwen3-asr
cd qwen3-asr
uv venv venv
source venv/bin/activate
# 安装 qwen-asr 和 modelscope
uv pip install qwen-asr modelscope由于服务器无法访问 HuggingFace,使用 ModelScope 下载:
from modelscope.hub.snapshot_download import snapshot_download
snapshot_download('Qwen/Qwen3-ASR-0.6B', cache_dir='./models')#!/usr/bin/env python3
import torch
from qwen_asr import Qwen3ASRModel
# 加载模型 - 使用本地路径
model = Qwen3ASRModel.from_pretrained(
"./models/Qwen/Qwen3-ASR-0.6B", # 本地模型路径
dtype=torch.float32,
device_map="cpu",
)
# 识别音频
results = model.transcribe(
audio="./examples/test.wav",
language="Chinese" # 或 "Auto" 自动检测
)
# 输出结果
print(f"语言: {results[0].language}")
print(f"文本: {results[0].text}")| 格式 | 说明 |
|---|---|
str |
本地文件路径 / URL / base64 音频字符串 |
(np.ndarray, sr) |
NumPy 音频数组 + 采样率 |
- 采样率: 模型内部统一处理为 16kHz,输入可以是任意采样率,会自动重采样
- 数据类型: 内部转换为 float32 mono 波形,范围归一化到 [-1, 1]
- 语言: 支持 30+ 语言,可使用 "Auto" 自动检测
- 测试音频: examples/test.wav (12秒)
- 检测语言: Chinese (中文)
- 识别文本: 走进霍金市,搭乘红皮列车探访碧海洗浴城,感受千禧年独特魅力。这里封存着时代记忆,见证着城市新生。神霍行,我看行。
Qwen3-ASR-Notes/
├── README.md # 说明文档
├── img/
│ └── 1801336469.jpg # 效果截图
└── examples/
├── qwen3_asr_demo.py # 基础调用示例
└── test.wav # 测试音频
