A8轻语 (A8Wisper)

一个模仿 Wispr Flow 体验的 Windows AI 语音助手

通过全局快捷键录音，本地 GPU 加速语音转文字，LLM 智能润色，一键输入到任意应用

🎯 项目简介

A8轻语是一个运行在 Windows 上的 AI 语音助手，旨在提供类似 Wispr Flow 的流畅语音输入体验。通过先进的本地 AI 技术栈，实现从语音到文字的智能转换和优化。

🆚 为什么选择 A8轻语？(Wispr Flow 开源替代方案)

如果你正在寻找 Wispr Flow 的替代方案，A8轻语提供了以下独特优势：

特性对比	A8轻语	Wispr Flow
隐私保护	🔒 100% 本地处理，零数据上传	☁️ 默认云端转录
使用成本	🆓 完全免费，无限制使用	💰 免费版 2000词/周，Pro版 $15/月
开源程度	🛠️ 完全开源，可自定义修改	🔒 闭源商业软件
数据控制	🏠 完全掌控，符合企业合规	📡 依赖第三方云服务
性能优化	⚡ GPU 加速，本地极速处理	💻 云端处理，受网络影响
定制能力	🎨 可修改界面、模型、功能	❌ 功能受限于官方更新

适合 A8轻语的用户：

🔐 对数据隐私有严格要求的个人/企业用户
💰 不想支付月费，追求长期免费使用
👨‍💻 有技术背景，喜欢开源可控的解决方案
⚡ 拥有 NVIDIA GPU，追求本地极致性能
🏢 企业环境，需要完全的数据主权控制
🛠️ 需要针对特定场景进行功能定制

🌟 核心亮点

🎤 全局语音输入: 任意应用中通过 Ctrl + Win 快捷键启动录音
⚡ GPU 加速: 利用 NVIDIA GPU 进行 Faster-Whisper 语音识别加速
🧠 智能润色: 集成本地 LLM 对识别结果进行语法优化和格式化
🎨 现代化界面: 混合架构 - PySide6 原生覆盖层 + React 设置界面
🔒 隐私优先: 完全本地处理，无需联网，保护用户隐私
🎛️ 高度可配置: 支持多种 ASR 模型、自定义提示词、用户词典等
🆓 完全免费: 开源项目，无使用限制，无订阅费用
🛠️ 可定制化: 开放源码，支持功能扩展和界面修改

✨ 功能特性

🎙️ 语音识别 (ASR)

Faster-Whisper 引擎: 支持 small、medium、large-v3 多种模型
GPU 加速: 自动检测并使用 NVIDIA GPU (CUDA) + Float16 精度
智能提示: 可配置 initial_prompt 提升专业术语识别准确率
一键下载: GUI 内置模型下载器，支持断点续传

🤖 LLM 文本处理

本地 LLM: 集成 Qwen2.5-Coder-7B-Instruct 模型
智能润色: 自动修正同音字、错别字、标点符号
用户词典: 支持自定义专业术语词典
上下文感知: 保持原意的同时优化表达

🖥️ 用户界面

原生覆盖层: PySide6 实现的现代化录音界面
React 设置面板: 基于 Vite + TypeScript 的配置界面
系统托盘: 后台运行，随时调用
实时反馈: 录音状态、处理进度可视化

⚙️ 系统集成

全局快捷键: 系统级热键监听
智能输入: 自动模拟键盘输入到当前光标位置
多应用兼容: 支持任意 Windows 应用程序
开机自启: 可选的系统启动项配置

🔧 系统要求

硬件要求

操作系统: Windows 10/11 (64-bit)
内存: 8GB RAM (推荐 16GB+)
显卡: NVIDIA GPU (支持 CUDA 11.8+) - 推荐 RTX 系列
存储: 10GB+ 可用空间 (用于模型文件)

软件依赖

Python: 3.10+
CUDA: 11.8+ (用于 GPU 加速)
Node.js: 18+ (开发模式)

🚀 快速开始

方式一：下载预编译版本 (推荐) 📦

最简单的使用方式 - 无需安装 Python 环境

前往 Releases 页面
下载最新版本的 A8轻语-v*.*.*.zip
解压到任意目录
双击 A8轻语.exe 启动程序
首次运行会自动下载 AI 模型

系统要求: Windows 10/11 + NVIDIA GPU (支持 CUDA)

方式二：从源码构建 🛠️

适合开发者或需要自定义功能的用户

1. 克隆项目

git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper

2. 安装 Python 依赖

# 安装 uv (推荐的包管理器)
pip install uv

# 创建虚拟环境并安装依赖
uv sync

3. 安装前端依赖

cd gui_web
npm install
# 或使用 pnpm
pnpm install
cd ..

4. 一键启动 🎯

# 使用 PowerShell 脚本启动 (推荐)
.\run_webview.ps1

手动启动

# 激活虚拟环境并启动
.venv\Scripts\python src/main_webview.py

构建发布版本

# 构建完整的可执行文件
.\build.ps1

# 快速构建 (跳过前端构建，如果前端未更改)
.\build.ps1 -SkipFrontend

# 完全清理构建 (强制重新构建所有组件)
.\build.ps1 -Clean

5. 首次配置

应用启动后会显示在系统托盘
右键托盘图标选择 "显示设置"
在设置界面中下载所需的 ASR 模型 (首次使用约需下载 3GB)
配置快捷键和其他选项
开始使用！

💡 提示: 预编译版本已包含所有运行时依赖，首次启动时会自动下载 AI 模型文件

📖 使用说明

基本使用流程

激活录音: 按住 Ctrl + Win (可自定义)
开始说话: 看到录音界面后开始语音输入
停止录音: 松开快捷键
自动处理: 系统自动进行语音识别和文本润色
智能输入: 处理完成的文本自动输入到当前光标位置

高级配置

ASR 模型选择

small: 快速响应，适合简单对话
medium: 平衡性能和准确率
large-v3: 最高准确率，适合专业内容

自定义提示词

以下是关于软件开发、Python编程、AI模型训练的中英混合技术讨论。

用户词典示例

["Python", "PySide6", "LLM", "A8轻语", "Transformer", "CUDA"]

🏗️ 项目架构

a8-whisper/
├── src/                    # Python 后端
│   ├── core/              # 核心功能模块
│   │   ├── asr.py         # 语音识别引擎
│   │   ├── llm.py         # LLM 处理引擎
│   │   └── audio.py       # 音频处理
│   ├── ui/                # 用户界面
│   │   └── native_overlay/ # PySide6 覆盖层
│   ├── main_webview.py    # 主程序入口
│   ├── api_server.py      # WebSocket API 服务
│   └── webview_bridge.py  # 前后端桥接
├── gui_web/               # React 前端
│   ├── src/
│   │   ├── components/    # UI 组件
│   │   ├── lib/          # 工具库
│   │   └── App.tsx       # 主应用
│   └── dist/             # 构建输出
├── models/               # AI 模型文件
└── soc/                 # 设计文档和资源

技术栈

后端 (Python)

PySide6: 原生 GUI 框架
Faster-Whisper: GPU 加速语音识别
llama-cpp-python: 本地 LLM 推理
WebSockets: 实时通信
PyWebView: 混合应用框架

前端 (React)

React 18: 现代化 UI 框架
TypeScript: 类型安全
Tailwind CSS: 原子化 CSS
Radix UI: 无障碍组件库
Vite: 快速构建工具

🛠️ 开发指南

开发环境设置

# 1. 克隆项目
git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper

# 2. 设置 Python 环境
uv sync

# 3. 设置前端环境
cd gui_web
npm install
cd ..

# 4. 启动开发模式 (一键启动)
.\run_webview.ps1

构建发布版本

# 完整构建 (包含前端)
.\build.ps1

# 快速构建 (如果前端未更改)
.\build.ps1 -SkipFrontend

# 清理构建 (强制重新构建)
.\build.ps1 -Clean

构建完成后，可执行文件位于 dist/A8轻语/A8轻语.exe

创建 Release

# 打包发布版本
$version = "v1.0.0"
Compress-Archive -Path "dist/A8轻语/*" -DestinationPath "A8轻语-$version.zip"

详细的发布流程请参考 RELEASE.md

贡献指南

Fork 本项目
创建特性分支 (git checkout -b feature/AmazingFeature)
提交更改 (git commit -m 'Add some AmazingFeature')
推送到分支 (git push origin feature/AmazingFeature)
开启 Pull Request

🐛 故障排除

常见问题

GPU 加速不工作

# 检查 CUDA 安装
nvidia-smi

# 检查 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"

模型下载失败

检查网络连接
尝试使用 HuggingFace 镜像站
确保有足够的磁盘空间

快捷键冲突

在设置界面中修改快捷键组合
确保没有其他应用占用相同快捷键

📄 许可证

本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。

🙏 致谢

Faster-Whisper - 高效的语音识别引擎
Qwen2.5 - 强大的本地 LLM
PySide6 - 跨平台 GUI 框架
Wispr Flow - 设计灵感来源

📞 联系方式

项目主页: GitHub Repository
问题反馈: Issues
功能建议: Discussions

🔗 相关项目

Wispr Flow - 商业语音输入软件，本项目的灵感来源
Faster-Whisper - 高效的语音识别引擎
Qwen2.5 - 强大的本地 LLM

❓ 常见问题

为什么不直接使用 Wispr Flow？

A8轻语作为开源替代方案，主要解决以下痛点：

隐私担忧: Wispr Flow 默认云端处理，A8轻语完全本地化
成本问题: Wispr Flow 专业版需月费，A8轻语完全免费
定制需求: 闭源软件难以修改，开源项目可自由定制
数据主权: 企业用户需要完全控制敏感数据流

性能要求高吗？

最低要求: NVIDIA GPU (GTX 1060 或更高)
推荐配置: RTX 系列显卡 + 16GB RAM
存储需求: 约 10GB (包含 AI 模型)

支持哪些语言？

目前主要优化中文识别，同时支持：

中英文混合输入
100+ 种语言 (基于 Whisper 模型)
可自定义专业术语词典

如果这个项目对你有帮助，请给个 ⭐ Star 支持一下！

Made with ❤️ by 007slm

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
.github/workflows		.github/workflows
gui_web		gui_web
soc		soc
src		src
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
README.md		README.md
RELEASE.md		RELEASE.md
VERSION		VERSION
a8qingyu.spec		a8qingyu.spec
build.ps1		build.ps1
build_nuitka.ps1		build_nuitka.ps1
debug_run.txt		debug_run.txt
pyproject.toml		pyproject.toml
run_output.txt		run_output.txt
run_webview.ps1		run_webview.ps1
uv.lock		uv.lock

Folders and files

Latest commit

History

Repository files navigation

A8轻语 (A8Wisper)

🎯 项目简介

🆚 为什么选择 A8轻语？(Wispr Flow 开源替代方案)

🌟 核心亮点

✨ 功能特性

🎙️ 语音识别 (ASR)

🤖 LLM 文本处理

🖥️ 用户界面

⚙️ 系统集成

🔧 系统要求

硬件要求

软件依赖

🚀 快速开始

方式一：下载预编译版本 (推荐) 📦

方式二：从源码构建 🛠️

1. 克隆项目

2. 安装 Python 依赖

3. 安装前端依赖

4. 一键启动 🎯

手动启动

构建发布版本

5. 首次配置

📖 使用说明

基本使用流程

高级配置

ASR 模型选择

自定义提示词

用户词典示例

🏗️ 项目架构

技术栈

后端 (Python)

前端 (React)

🛠️ 开发指南

开发环境设置

构建发布版本

创建 Release

贡献指南

🐛 故障排除

常见问题

GPU 加速不工作

模型下载失败

快捷键冲突

📄 许可证

🙏 致谢

📞 联系方式

🔗 相关项目

❓ 常见问题

为什么不直接使用 Wispr Flow？

性能要求高吗？

支持哪些语言？

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages