AI驱动的语音转文字与智能分析系统 - 将录音转为文字并进行智能整理
- 🎯 高精度语音转文字: 基于faster-whisper,支持多种模型选择
- 🤖 AI智能分析: 支持多个国内AI模型(DeepSeek、通义千问等)
- 📝 多维度整理: 自动生成摘要、关键点、待办事项、会议纪要
- 💻 本地Web界面: 简洁美观的拖拽式上传界面
- 🚀 高性能: 专为NVIDIA GPU和Apple Silicon优化
- 🔄 灵活切换: 支持多设备、多模型灵活切换
- 📊 历史管理: 完整的处理记录和结果管理
- 日常思考录音整理
- 会议记录自动生成
- 讲座/培训内容提取
- 播客/采访内容分析
- 语音备忘录整理
- 框架: FastAPI
- 语音转文字: faster-whisper (OpenAI Whisper优化版)
- AI分析: 支持多个国内AI API
- 数据库: SQLite
- 异步处理: 后台任务队列
- 技术: HTML + CSS + JavaScript (原生)
- 特性: 响应式设计、拖拽上传、实时进度
- DeepSeek: 极致性价比 (0.1元/百万tokens)
- 通义千问: 中文优秀,有免费额度
- Kimi: 长文本处理能力强
- 智谱GLM: 性价比高
- Ollama: 本地模型(待实现)
- 高性能PC: NVIDIA GPU (如RTX 5090), 16GB+ RAM
- Mac: M4或更高芯片, 16GB+ RAM
- Python: 3.9+
- CPU处理器
- 8GB RAM
- Python 3.9+
# 创建虚拟环境 (推荐)
python -m venv venv
# Windows激活
venv\Scripts\activate
# Mac/Linux激活
source venv/bin/activate
# 安装依赖
pip install -r requirements.txt# 复制环境变量模板
cp .env.example .env
# 编辑.env文件,填入你的API密钥
# 至少配置一个AI模型的API密钥获取API密钥:
- DeepSeek: https://platform.deepseek.com/
- 通义千问: https://dashscope.aliyun.com/
- Kimi: https://platform.moonshot.cn/
- 智谱GLM: https://open.bigmodel.cn/
编辑 config.yaml:
whisper:
# 根据你的设备选择模型大小
model_size: "medium" # tiny/base/small/medium/large-v3
# 设备选择 (auto会自动检测)
device: "auto" # auto/cuda/cpu/mps
# 语言设置
language: "zh" # zh/en/auto模型选择建议:
- RTX 5090:
large-v3(最高精度,速度依然快) - Mac M4:
medium或large-v3(推荐medium平衡性能) - 一般配置:
small或medium
python -m backend.mainpython3 -m backend.main打开浏览器访问: http://localhost:8000
首次运行会自动下载Whisper模型(约1.5GB for medium)
- 上传音频文件: 拖拽或点击选择音频文件
- 选择配置:
- Whisper模型(根据设备性能选择)
- 语言(自动检测或指定)
- AI模型(选择要使用的分析模型)
- 分析功能(勾选需要的功能)
- 自动处理: 系统自动转文字并AI分析
- 查看结果: 查看摘要、关键点、待办事项等
- 下载报告: 下载Markdown格式的完整报告
- MP3
- WAV
- M4A
- OGG
- FLAC
- AAC
- WMA
访问 http://localhost:8000/docs 查看完整API文档
config.yaml:
whisper:
beam_size: 5 # 增加可提高准确度,但会变慢
vad_filter: true # 语音活动检测,去除静音
compute_type: "float16" # float16(GPU)/int8(省内存)/float32config.yaml:
ai_models:
my_custom_model:
enabled: true
api_key: "YOUR_API_KEY"
base_url: "https://api.example.com/v1"
model: "model-name"
temperature: 0.7
max_tokens: 4000config.yaml:
server:
host: "0.0.0.0"
port: 8080 # 修改为你想要的端口问题: 找不到模型或下载失败
解决:
# 手动下载模型到models目录
# 或清理缓存重新下载
rm -rf models/*问题: 系统使用CPU而非GPU
解决:
- 确认已安装CUDA (NVIDIA) 或 Metal (Mac)
- 安装对应的PyTorch版本:
# NVIDIA GPU
pip install torch --index-url https://download.pytorch.org/whl/cu118
# Mac M系列
pip install torch问题: AI分析失败
解决:
- 检查API密钥是否正确
- 确认网络连接
- 查看API余额是否充足
- 尝试切换其他AI模型
问题: 处理大文件时内存溢出
解决:
- 使用较小的Whisper模型 (如
small而非large-v3) - 调整
compute_type为int8 - 分段处理长音频
voice2txt/
├── backend/ # 后端代码
│ ├── main.py # FastAPI主应用
│ ├── config.py # 配置管理
│ ├── database.py # 数据库模型
│ ├── whisper_service.py # Whisper服务
│ ├── ai_service.py # AI分析服务
│ └── routers/ # API路由
├── frontend/ # 前端代码
│ ├── index.html # 主页面
│ └── static/ # 静态资源
├── uploads/ # 上传文件存储
├── outputs/ # 输出结果存储
├── models/ # Whisper模型缓存
├── config.yaml # 配置文件
├── requirements.txt # Python依赖
├── .env # 环境变量(需创建)
└── README.md # 本文档
- 1小时音频 ≈ 2-3分钟处理
- GPU占用: ~8GB
- 准确率: 98%+
- 1小时音频 ≈ 5-8分钟处理
- 内存占用: ~4GB
- 准确率: 95%+
- 1小时音频 ≈ 20-30分钟处理
- 内存占用: ~2GB
- 准确率: 90%+
- 基础语音转文字功能
- AI智能分析
- Web界面
- 历史记录管理
- 多AI模型切换
- Ollama本地模型集成
- 实时流式转录
- 多人说话识别
- 更多输出格式(PDF, Word)
- 云端部署支持
- 移动端应用
欢迎提交Issue和Pull Request!
MIT License
-
首次使用: 建议先用
small模型测试,确认一切正常后再升级到medium或large-v3 -
语言检测: 如果录音是纯中文,设置
language: "zh"比自动检测更快更准 -
会议录音: 启用所有分析功能以获得完整的会议纪要
-
日常录音: 只启用"摘要"和"关键点"功能可以更快完成
-
成本控制: DeepSeek是最经济的选择,处理1小时录音约0.01-0.05元
-
批量处理: 可以通过API批量上传多个文件
如有问题,请提交Issue到GitHub仓库
Enjoy your Voice2Text experience! 🎉