Skip to content

createskyblue/Qwen3-ASR-Notes

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Qwen3-ASR 语音识别模型使用笔记

效果展示

效果截图

模型介绍

Qwen3-ASR 是阿里巴巴 Qwen 团队推出的自动语音识别(ASR)模型。

主要特性

  • 支持语言: 52 种语言和方言(30 种语言 + 22 种中文方言)
  • 模型版本:
    • Qwen3-ASR-1.7B (363k 下载量)
    • Qwen3-ASR-0.6B (87.9k 下载量) - 轻量版本,适合 CPU
  • 性能: 开源 ASR 模型中达到 SOTA,可与最强商业 API 竞争
  • 技术特点:
    • 基于 Qwen3-Omni 基座模型
    • 支持 vLLM 批量推理,流式推理、时间戳预测
    • 支持语音、歌声识别

环境部署

1. 安装 uv 包管理工具

# 直接用 pip 安装
pip install uv

2. 创建虚拟环境并安装依赖

cd ~
mkdir -p qwen3-asr
cd qwen3-asr
uv venv venv
source venv/bin/activate

# 安装 qwen-asr 和 modelscope
uv pip install qwen-asr modelscope

3. 下载模型

由于服务器无法访问 HuggingFace,使用 ModelScope 下载:

from modelscope.hub.snapshot_download import snapshot_download
snapshot_download('Qwen/Qwen3-ASR-0.6B', cache_dir='./models')

使用示例

基础调用

#!/usr/bin/env python3
import torch
from qwen_asr import Qwen3ASRModel

# 加载模型 - 使用本地路径
model = Qwen3ASRModel.from_pretrained(
    "./models/Qwen/Qwen3-ASR-0.6B",  # 本地模型路径
    dtype=torch.float32,
    device_map="cpu",
)

# 识别音频
results = model.transcribe(
    audio="./examples/test.wav",
    language="Chinese"  # 或 "Auto" 自动检测
)

# 输出结果
print(f"语言: {results[0].language}")
print(f"文本: {results[0].text}")

支持的音频输入格式

格式 说明
str 本地文件路径 / URL / base64 音频字符串
(np.ndarray, sr) NumPy 音频数组 + 采样率

关键参数

  • 采样率: 模型内部统一处理为 16kHz,输入可以是任意采样率,会自动重采样
  • 数据类型: 内部转换为 float32 mono 波形,范围归一化到 [-1, 1]
  • 语言: 支持 30+ 语言,可使用 "Auto" 自动检测

测试结果

  • 测试音频: examples/test.wav (12秒)
  • 检测语言: Chinese (中文)
  • 识别文本: 走进霍金市,搭乘红皮列车探访碧海洗浴城,感受千禧年独特魅力。这里封存着时代记忆,见证着城市新生。神霍行,我看行。

文件说明

Qwen3-ASR-Notes/
├── README.md                    # 说明文档
├── img/
│   └── 1801336469.jpg          # 效果截图
└── examples/
    ├── qwen3_asr_demo.py      # 基础调用示例
    └── test.wav               # 测试音频

About

Qwen3 ASR Notes

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors