Skip to content

007slm/a8-whisper

Repository files navigation

A8轻语 (A8Wisper)

A8轻语 Python PySide6 React License

一个模仿 Wispr Flow 体验的 Windows AI 语音助手

通过全局快捷键录音,本地 GPU 加速语音转文字,LLM 智能润色,一键输入到任意应用

功能特性快速开始系统要求使用说明开发指南


🎯 项目简介

A8轻语是一个运行在 Windows 上的 AI 语音助手,旨在提供类似 Wispr Flow 的流畅语音输入体验。通过先进的本地 AI 技术栈,实现从语音到文字的智能转换和优化。

🆚 为什么选择 A8轻语?(Wispr Flow 开源替代方案)

如果你正在寻找 Wispr Flow 的替代方案,A8轻语提供了以下独特优势:

特性对比 A8轻语 Wispr Flow
隐私保护 🔒 100% 本地处理,零数据上传 ☁️ 默认云端转录
使用成本 🆓 完全免费,无限制使用 💰 免费版 2000词/周,Pro版 $15/月
开源程度 🛠️ 完全开源,可自定义修改 🔒 闭源商业软件
数据控制 🏠 完全掌控,符合企业合规 📡 依赖第三方云服务
性能优化 GPU 加速,本地极速处理 💻 云端处理,受网络影响
定制能力 🎨 可修改界面、模型、功能 ❌ 功能受限于官方更新

适合 A8轻语 的用户:

  • 🔐 对数据隐私有严格要求的个人/企业用户
  • 💰 不想支付月费,追求长期免费使用
  • 👨‍💻 有技术背景,喜欢开源可控的解决方案
  • ⚡ 拥有 NVIDIA GPU,追求本地极致性能
  • 🏢 企业环境,需要完全的数据主权控制
  • 🛠️ 需要针对特定场景进行功能定制

🌟 核心亮点

  • 🎤 全局语音输入: 任意应用中通过 Ctrl + Win 快捷键启动录音
  • ⚡ GPU 加速: 利用 NVIDIA GPU 进行 Faster-Whisper 语音识别加速
  • 🧠 智能润色: 集成本地 LLM 对识别结果进行语法优化和格式化
  • 🎨 现代化界面: 混合架构 - PySide6 原生覆盖层 + React 设置界面
  • 🔒 隐私优先: 完全本地处理,无需联网,保护用户隐私
  • 🎛️ 高度可配置: 支持多种 ASR 模型、自定义提示词、用户词典等
  • 🆓 完全免费: 开源项目,无使用限制,无订阅费用
  • 🛠️ 可定制化: 开放源码,支持功能扩展和界面修改

✨ 功能特性

🎙️ 语音识别 (ASR)

  • Faster-Whisper 引擎: 支持 smallmediumlarge-v3 多种模型
  • GPU 加速: 自动检测并使用 NVIDIA GPU (CUDA) + Float16 精度
  • 智能提示: 可配置 initial_prompt 提升专业术语识别准确率
  • 一键下载: GUI 内置模型下载器,支持断点续传

🤖 LLM 文本处理

  • 本地 LLM: 集成 Qwen2.5-Coder-7B-Instruct 模型
  • 智能润色: 自动修正同音字、错别字、标点符号
  • 用户词典: 支持自定义专业术语词典
  • 上下文感知: 保持原意的同时优化表达

🖥️ 用户界面

  • 原生覆盖层: PySide6 实现的现代化录音界面
  • React 设置面板: 基于 Vite + TypeScript 的配置界面
  • 系统托盘: 后台运行,随时调用
  • 实时反馈: 录音状态、处理进度可视化

⚙️ 系统集成

  • 全局快捷键: 系统级热键监听
  • 智能输入: 自动模拟键盘输入到当前光标位置
  • 多应用兼容: 支持任意 Windows 应用程序
  • 开机自启: 可选的系统启动项配置

🔧 系统要求

硬件要求

  • 操作系统: Windows 10/11 (64-bit)
  • 内存: 8GB RAM (推荐 16GB+)
  • 显卡: NVIDIA GPU (支持 CUDA 11.8+) - 推荐 RTX 系列
  • 存储: 10GB+ 可用空间 (用于模型文件)

软件依赖

  • Python: 3.10+
  • CUDA: 11.8+ (用于 GPU 加速)
  • Node.js: 18+ (开发模式)

🚀 快速开始

方式一:下载预编译版本 (推荐) 📦

最简单的使用方式 - 无需安装 Python 环境

  1. 前往 Releases 页面
  2. 下载最新版本的 A8轻语-v*.*.*.zip
  3. 解压到任意目录
  4. 双击 A8轻语.exe 启动程序
  5. 首次运行会自动下载 AI 模型

系统要求: Windows 10/11 + NVIDIA GPU (支持 CUDA)

方式二:从源码构建 🛠️

适合开发者或需要自定义功能的用户

1. 克隆项目

git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper

2. 安装 Python 依赖

# 安装 uv (推荐的包管理器)
pip install uv

# 创建虚拟环境并安装依赖
uv sync

3. 安装前端依赖

cd gui_web
npm install
# 或使用 pnpm
pnpm install
cd ..

4. 一键启动 🎯

# 使用 PowerShell 脚本启动 (推荐)
.\run_webview.ps1

手动启动

# 激活虚拟环境并启动
.venv\Scripts\python src/main_webview.py

构建发布版本

# 构建完整的可执行文件
.\build.ps1

# 快速构建 (跳过前端构建,如果前端未更改)
.\build.ps1 -SkipFrontend

# 完全清理构建 (强制重新构建所有组件)
.\build.ps1 -Clean

5. 首次配置

  1. 应用启动后会显示在系统托盘
  2. 右键托盘图标选择 "显示设置"
  3. 在设置界面中下载所需的 ASR 模型 (首次使用约需下载 3GB)
  4. 配置快捷键和其他选项
  5. 开始使用!

💡 提示: 预编译版本已包含所有运行时依赖,首次启动时会自动下载 AI 模型文件

📖 使用说明

基本使用流程

  1. 激活录音: 按住 Ctrl + Win (可自定义)
  2. 开始说话: 看到录音界面后开始语音输入
  3. 停止录音: 松开快捷键
  4. 自动处理: 系统自动进行语音识别和文本润色
  5. 智能输入: 处理完成的文本自动输入到当前光标位置

高级配置

ASR 模型选择

  • small: 快速响应,适合简单对话
  • medium: 平衡性能和准确率
  • large-v3: 最高准确率,适合专业内容

自定义提示词

以下是关于软件开发、Python编程、AI模型训练的中英混合技术讨论。

用户词典示例

["Python", "PySide6", "LLM", "A8轻语", "Transformer", "CUDA"]

🏗️ 项目架构

a8-whisper/
├── src/                    # Python 后端
│   ├── core/              # 核心功能模块
│   │   ├── asr.py         # 语音识别引擎
│   │   ├── llm.py         # LLM 处理引擎
│   │   └── audio.py       # 音频处理
│   ├── ui/                # 用户界面
│   │   └── native_overlay/ # PySide6 覆盖层
│   ├── main_webview.py    # 主程序入口
│   ├── api_server.py      # WebSocket API 服务
│   └── webview_bridge.py  # 前后端桥接
├── gui_web/               # React 前端
│   ├── src/
│   │   ├── components/    # UI 组件
│   │   ├── lib/          # 工具库
│   │   └── App.tsx       # 主应用
│   └── dist/             # 构建输出
├── models/               # AI 模型文件
└── soc/                 # 设计文档和资源

技术栈

后端 (Python)

  • PySide6: 原生 GUI 框架
  • Faster-Whisper: GPU 加速语音识别
  • llama-cpp-python: 本地 LLM 推理
  • WebSockets: 实时通信
  • PyWebView: 混合应用框架

前端 (React)

  • React 18: 现代化 UI 框架
  • TypeScript: 类型安全
  • Tailwind CSS: 原子化 CSS
  • Radix UI: 无障碍组件库
  • Vite: 快速构建工具

🛠️ 开发指南

开发环境设置

# 1. 克隆项目
git clone https://github.com/007slm/a8-whisper.git
cd a8-whisper

# 2. 设置 Python 环境
uv sync

# 3. 设置前端环境
cd gui_web
npm install
cd ..

# 4. 启动开发模式 (一键启动)
.\run_webview.ps1

构建发布版本

# 完整构建 (包含前端)
.\build.ps1

# 快速构建 (如果前端未更改)
.\build.ps1 -SkipFrontend

# 清理构建 (强制重新构建)
.\build.ps1 -Clean

构建完成后,可执行文件位于 dist/A8轻语/A8轻语.exe

创建 Release

# 打包发布版本
$version = "v1.0.0"
Compress-Archive -Path "dist/A8轻语/*" -DestinationPath "A8轻语-$version.zip"

详细的发布流程请参考 RELEASE.md

贡献指南

  1. Fork 本项目
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启 Pull Request

🐛 故障排除

常见问题

GPU 加速不工作

# 检查 CUDA 安装
nvidia-smi

# 检查 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"

模型下载失败

  • 检查网络连接
  • 尝试使用 HuggingFace 镜像站
  • 确保有足够的磁盘空间

快捷键冲突

  • 在设置界面中修改快捷键组合
  • 确保没有其他应用占用相同快捷键

📄 许可证

本项目采用 MIT 许可证 - 查看 LICENSE 文件了解详情。

🙏 致谢

📞 联系方式

🔗 相关项目

❓ 常见问题

为什么不直接使用 Wispr Flow?

A8轻语作为开源替代方案,主要解决以下痛点:

  • 隐私担忧: Wispr Flow 默认云端处理,A8轻语完全本地化
  • 成本问题: Wispr Flow 专业版需月费,A8轻语完全免费
  • 定制需求: 闭源软件难以修改,开源项目可自由定制
  • 数据主权: 企业用户需要完全控制敏感数据流

性能要求高吗?

  • 最低要求: NVIDIA GPU (GTX 1060 或更高)
  • 推荐配置: RTX 系列显卡 + 16GB RAM
  • 存储需求: 约 10GB (包含 AI 模型)

支持哪些语言?

目前主要优化中文识别,同时支持:

  • 中英文混合输入
  • 100+ 种语言 (基于 Whisper 模型)
  • 可自定义专业术语词典

如果这个项目对你有帮助,请给个 ⭐ Star 支持一下!

Made with ❤️ by 007slm

About

a8项目 开源项目 ai开发中 语音文字工具

Topics

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors