Qwen3-ASR 语音识别模型使用笔记

效果展示

模型介绍

Qwen3-ASR 是阿里巴巴 Qwen 团队推出的自动语音识别（ASR）模型。

主要特性

支持语言: 52 种语言和方言（30 种语言 + 22 种中文方言）
模型版本:
- Qwen3-ASR-1.7B (363k 下载量)
- Qwen3-ASR-0.6B (87.9k 下载量) - 轻量版本，适合 CPU
性能: 开源 ASR 模型中达到 SOTA，可与最强商业 API 竞争
技术特点:
- 基于 Qwen3-Omni 基座模型
- 支持 vLLM 批量推理，流式推理、时间戳预测
- 支持语音、歌声识别

环境部署

1. 安装 uv 包管理工具

# 直接用 pip 安装
pip install uv

2. 创建虚拟环境并安装依赖

cd ~
mkdir -p qwen3-asr
cd qwen3-asr
uv venv venv
source venv/bin/activate

# 安装 qwen-asr 和 modelscope
uv pip install qwen-asr modelscope

3. 下载模型

由于服务器无法访问 HuggingFace，使用 ModelScope 下载：

from modelscope.hub.snapshot_download import snapshot_download
snapshot_download('Qwen/Qwen3-ASR-0.6B', cache_dir='./models')

使用示例

基础调用

#!/usr/bin/env python3
import torch
from qwen_asr import Qwen3ASRModel

# 加载模型 - 使用本地路径
model = Qwen3ASRModel.from_pretrained(
    "./models/Qwen/Qwen3-ASR-0.6B",  # 本地模型路径
    dtype=torch.float32,
    device_map="cpu",
)

# 识别音频
results = model.transcribe(
    audio="./examples/test.wav",
    language="Chinese"  # 或 "Auto" 自动检测
)

# 输出结果
print(f"语言: {results[0].language}")
print(f"文本: {results[0].text}")

支持的音频输入格式

格式	说明
`str`	本地文件路径 / URL / base64 音频字符串
`(np.ndarray, sr)`	NumPy 音频数组 + 采样率

关键参数

采样率: 模型内部统一处理为 16kHz，输入可以是任意采样率，会自动重采样
数据类型: 内部转换为 float32 mono 波形，范围归一化到 [-1, 1]
语言: 支持 30+ 语言，可使用 "Auto" 自动检测

测试结果

测试音频: examples/test.wav (12秒)
检测语言: Chinese (中文)
识别文本: 走进霍金市，搭乘红皮列车探访碧海洗浴城，感受千禧年独特魅力。这里封存着时代记忆，见证着城市新生。神霍行，我看行。

文件说明

Qwen3-ASR-Notes/
├── README.md                    # 说明文档
├── img/
│   └── 1801336469.jpg          # 效果截图
└── examples/
    ├── qwen3_asr_demo.py      # 基础调用示例
    └── test.wav               # 测试音频

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Qwen3-ASR 语音识别模型使用笔记

效果展示

模型介绍

主要特性

环境部署

1. 安装 uv 包管理工具

2. 创建虚拟环境并安装依赖

3. 下载模型

使用示例

基础调用

支持的音频输入格式

关键参数

测试结果

文件说明

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
examples		examples
img		img
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

Qwen3-ASR 语音识别模型使用笔记

效果展示

模型介绍

主要特性

环境部署

1. 安装 uv 包管理工具

2. 创建虚拟环境并安装依赖

3. 下载模型

使用示例

基础调用

支持的音频输入格式

关键参数

测试结果

文件说明

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages