一个模仿 Wispr Flow 体验的 Windows AI 语音助手
通过全局快捷键录音,本地 GPU 加速语音转文字,LLM 智能润色,一键输入到任意应用
A8轻语是一个运行在 Windows 上的 AI 语音助手,旨在提供类似 Wispr Flow 的流畅语音输入体验。通过先进的本地 AI 技术栈,实现从语音到文字的智能转换和优化。
如果你正在寻找 Wispr Flow 的替代方案,A8轻语提供了以下独特优势:
| 特性对比 | A8轻语 | Wispr Flow |
|---|---|---|
| 隐私保护 | 🔒 100% 本地处理,零数据上传 | ☁️ 默认云端转录 |
| 使用成本 | 🆓 完全免费,无限制使用 | 💰 免费版 2000词/周,Pro版 $15/月 |
| 开源程度 | 🛠️ 完全开源,可自定义修改 | 🔒 闭源商业软件 |
| 数据控制 | 🏠 完全掌控,符合企业合规 | 📡 依赖第三方云服务 |
| 性能优化 | ⚡ GPU 加速,本地极速处理 | 💻 云端处理,受网络影响 |
| 定制能力 | 🎨 可修改界面、模型、功能 | ❌ 功能受限于官方更新 |
适合 A8轻语 的用户:
- 🔐 对数据隐私有严格要求的个人/企业用户
- 💰 不想支付月费,追求长期免费使用
- 👨💻 有技术背景,喜欢开源可控的解决方案
- ⚡ 拥有 NVIDIA GPU,追求本地极致性能
- 🏢 企业环境,需要完全的数据主权控制
- 🛠️ 需要针对特定场景进行功能定制
- 🎤 全局语音输入: 任意应用中通过
Ctrl + Win快捷键启动录音 - ⚡ GPU 加速: 利用 NVIDIA GPU 进行 Faster-Whisper 语音识别加速
- 🧠 智能润色: 集成本地 LLM 对识别结果进行语法优化和格式化
- 🎨 现代化界面: 混合架构 - PySide6 原生覆盖层 + React 设置界面
- 🔒 隐私优先: 完全本地处理,无需联网,保护用户隐私
- 🎛️ 高度可配置: 支持多种 ASR 模型、自定义提示词、用户词典等
- 🆓 完全免费: 开源项目,无使用限制,无订阅费用
- 🛠️ 可定制化: 开放源码,支持功能扩展和界面修改
- Faster-Whisper 引擎: 支持
small、medium、large-v3多种模型 - GPU 加速: 自动检测并使用 NVIDIA GPU (CUDA) + Float16 精度
- 智能提示: 可配置
initial_prompt提升专业术语识别准确率 - 一键下载: GUI 内置模型下载器,支持断点续传
- 本地 LLM: 集成 Qwen2.5-Coder-7B-Instruct 模型
- 智能润色: 自动修正同音字、错别字、标点符号
- 用户词典: 支持自定义专业术语词典
- 上下文感知: 保持原意的同时优化表达
- 原生覆盖层: PySide6 实现的现代化录音界面
- React 设置面板: 基于 Vite + TypeScript 的配置界面
- 系统托盘: 后台运行,随时调用
- 实时反馈: 录音状态、处理进度可视化
- 全局快捷键: 系统级热键监听
- 智能输入: 自动模拟键盘输入到当前光标位置
- 多应用兼容: 支持任意 Windows 应用程序
- 开机自启: 可选的系统启动项配置
- 操作系统: Windows 10/11 (64-bit)
- 内存: 8GB RAM (推荐 16GB+)
- 显卡: NVIDIA GPU (支持 CUDA 11.8+) - 推荐 RTX 系列
- 存储: 10GB+ 可用空间 (用于模型文件)
- Python: 3.10+
- CUDA: 11.8+ (用于 GPU 加速)
- Node.js: 18+ (开发模式)
最简单的使用方式 - 无需安装 Python 环境
- 前往 Releases 页面
- 下载最新版本的
A8轻语-v*.*.*.zip - 解压到任意目录
- 双击
A8轻语.exe启动程序 - 首次运行会自动下载 AI 模型
系统要求: Windows 10/11 + NVIDIA GPU (支持 CUDA)
适合开发者或需要自定义功能的用户
git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper# 安装 uv (推荐的包管理器)
pip install uv
# 创建虚拟环境并安装依赖
uv synccd gui_web
npm install
# 或使用 pnpm
pnpm install
cd ..# 使用 PowerShell 脚本启动 (推荐)
.\run_webview.ps1# 激活虚拟环境并启动
.venv\Scripts\python src/main_webview.py# 构建完整的可执行文件
.\build.ps1
# 快速构建 (跳过前端构建,如果前端未更改)
.\build.ps1 -SkipFrontend
# 完全清理构建 (强制重新构建所有组件)
.\build.ps1 -Clean- 应用启动后会显示在系统托盘
- 右键托盘图标选择 "显示设置"
- 在设置界面中下载所需的 ASR 模型 (首次使用约需下载 3GB)
- 配置快捷键和其他选项
- 开始使用!
💡 提示: 预编译版本已包含所有运行时依赖,首次启动时会自动下载 AI 模型文件
- 激活录音: 按住
Ctrl + Win(可自定义) - 开始说话: 看到录音界面后开始语音输入
- 停止录音: 松开快捷键
- 自动处理: 系统自动进行语音识别和文本润色
- 智能输入: 处理完成的文本自动输入到当前光标位置
- small: 快速响应,适合简单对话
- medium: 平衡性能和准确率
- large-v3: 最高准确率,适合专业内容
以下是关于软件开发、Python编程、AI模型训练的中英混合技术讨论。
["Python", "PySide6", "LLM", "A8轻语", "Transformer", "CUDA"]a8-whisper/
├── src/ # Python 后端
│ ├── core/ # 核心功能模块
│ │ ├── asr.py # 语音识别引擎
│ │ ├── llm.py # LLM 处理引擎
│ │ └── audio.py # 音频处理
│ ├── ui/ # 用户界面
│ │ └── native_overlay/ # PySide6 覆盖层
│ ├── main_webview.py # 主程序入口
│ ├── api_server.py # WebSocket API 服务
│ └── webview_bridge.py # 前后端桥接
├── gui_web/ # React 前端
│ ├── src/
│ │ ├── components/ # UI 组件
│ │ ├── lib/ # 工具库
│ │ └── App.tsx # 主应用
│ └── dist/ # 构建输出
├── models/ # AI 模型文件
└── soc/ # 设计文档和资源
- PySide6: 原生 GUI 框架
- Faster-Whisper: GPU 加速语音识别
- llama-cpp-python: 本地 LLM 推理
- WebSockets: 实时通信
- PyWebView: 混合应用框架
- React 18: 现代化 UI 框架
- TypeScript: 类型安全
- Tailwind CSS: 原子化 CSS
- Radix UI: 无障碍组件库
- Vite: 快速构建工具
# 1. 克隆项目
git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper
# 2. 设置 Python 环境
uv sync
# 3. 设置前端环境
cd gui_web
npm install
cd ..
# 4. 启动开发模式 (一键启动)
.\run_webview.ps1# 完整构建 (包含前端)
.\build.ps1
# 快速构建 (如果前端未更改)
.\build.ps1 -SkipFrontend
# 清理构建 (强制重新构建)
.\build.ps1 -Clean构建完成后,可执行文件位于 dist/A8轻语/A8轻语.exe
# 打包发布版本
$version = "v1.0.0"
Compress-Archive -Path "dist/A8轻语/*" -DestinationPath "A8轻语-$version.zip"详细的发布流程请参考 RELEASE.md
- Fork 本项目
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 开启 Pull Request
# 检查 CUDA 安装
nvidia-smi
# 检查 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"- 检查网络连接
- 尝试使用 HuggingFace 镜像站
- 确保有足够的磁盘空间
- 在设置界面中修改快捷键组合
- 确保没有其他应用占用相同快捷键
本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。
- Faster-Whisper - 高效的语音识别引擎
- Qwen2.5 - 强大的本地 LLM
- PySide6 - 跨平台 GUI 框架
- Wispr Flow - 设计灵感来源
- 项目主页: GitHub Repository
- 问题反馈: Issues
- 功能建议: Discussions
- Wispr Flow - 商业语音输入软件,本项目的灵感来源
- Faster-Whisper - 高效的语音识别引擎
- Qwen2.5 - 强大的本地 LLM
A8轻语作为开源替代方案,主要解决以下痛点:
- 隐私担忧: Wispr Flow 默认云端处理,A8轻语完全本地化
- 成本问题: Wispr Flow 专业版需月费,A8轻语完全免费
- 定制需求: 闭源软件难以修改,开源项目可自由定制
- 数据主权: 企业用户需要完全控制敏感数据流
- 最低要求: NVIDIA GPU (GTX 1060 或更高)
- 推荐配置: RTX 系列显卡 + 16GB RAM
- 存储需求: 约 10GB (包含 AI 模型)
目前主要优化中文识别,同时支持:
- 中英文混合输入
- 100+ 种语言 (基于 Whisper 模型)
- 可自定义专业术语词典
如果这个项目对你有帮助,请给个 ⭐ Star 支持一下!
Made with ❤️ by 007slm