🎙️ Voice2Text

AI驱动的语音转文字与智能分析系统 - 将录音转为文字并进行智能整理

✨ 功能特点

🎯 高精度语音转文字: 基于faster-whisper，支持多种模型选择
🤖 AI智能分析: 支持多个国内AI模型（DeepSeek、通义千问等）
📝 多维度整理: 自动生成摘要、关键点、待办事项、会议纪要
💻 本地Web界面: 简洁美观的拖拽式上传界面
🚀 高性能: 专为NVIDIA GPU和Apple Silicon优化
🔄 灵活切换: 支持多设备、多模型灵活切换
📊 历史管理: 完整的处理记录和结果管理

🎯 适用场景

日常思考录音整理
会议记录自动生成
讲座/培训内容提取
播客/采访内容分析
语音备忘录整理

🏗️ 技术架构

后端

框架: FastAPI
语音转文字: faster-whisper (OpenAI Whisper优化版)
AI分析: 支持多个国内AI API
数据库: SQLite
异步处理: 后台任务队列

前端

技术: HTML + CSS + JavaScript (原生)
特性: 响应式设计、拖拽上传、实时进度

AI模型支持

DeepSeek: 极致性价比 (0.1元/百万tokens)
通义千问: 中文优秀，有免费额度
Kimi: 长文本处理能力强
智谱GLM: 性价比高
Ollama: 本地模型（待实现）

📋 系统要求

最低配置

CPU处理器
8GB RAM
Python 3.9+

🚀 快速开始

1. 安装依赖

# 创建虚拟环境 (推荐)
python -m venv venv

# Windows激活
venv\Scripts\activate

# Mac/Linux激活
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt

2. 配置API密钥

# 复制环境变量模板
cp .env.example .env

# 编辑.env文件，填入你的API密钥
# 至少配置一个AI模型的API密钥

获取API密钥：

DeepSeek: https://platform.deepseek.com/
通义千问: https://dashscope.aliyun.com/
Kimi: https://platform.moonshot.cn/
智谱GLM: https://open.bigmodel.cn/

3. 配置Whisper模型

编辑 config.yaml:

whisper:
  # 根据你的设备选择模型大小
  model_size: "medium"  # tiny/base/small/medium/large-v3

  # 设备选择 (auto会自动检测)
  device: "auto"  # auto/cuda/cpu/mps

  # 语言设置
  language: "zh"  # zh/en/auto

模型选择建议:

RTX 5090: large-v3 (最高精度，速度依然快)
Mac M4: medium 或 large-v3 (推荐medium平衡性能)
一般配置: small 或 medium

4. 启动服务

Windows:

python -m backend.main

Mac/Linux:

python3 -m backend.main

5. 访问Web界面

打开浏览器访问: http://localhost:8000

首次运行会自动下载Whisper模型（约1.5GB for medium）

📖 使用指南

基本使用流程

上传音频文件: 拖拽或点击选择音频文件
选择配置:
- Whisper模型（根据设备性能选择）
- 语言（自动检测或指定）
- AI模型（选择要使用的分析模型）
- 分析功能（勾选需要的功能）
自动处理: 系统自动转文字并AI分析
查看结果: 查看摘要、关键点、待办事项等
下载报告: 下载Markdown格式的完整报告

支持的音频格式

MP3
WAV
M4A
OGG
FLAC
AAC
WMA

API文档

访问 http://localhost:8000/docs 查看完整API文档

⚙️ 高级配置

调整Whisper参数

config.yaml:

whisper:
  beam_size: 5           # 增加可提高准确度，但会变慢
  vad_filter: true       # 语音活动检测，去除静音
  compute_type: "float16" # float16(GPU)/int8(省内存)/float32

添加自定义AI模型

config.yaml:

ai_models:
  my_custom_model:
    enabled: true
    api_key: "YOUR_API_KEY"
    base_url: "https://api.example.com/v1"
    model: "model-name"
    temperature: 0.7
    max_tokens: 4000

修改服务器端口

config.yaml:

server:
  host: "0.0.0.0"
  port: 8080  # 修改为你想要的端口

🔧 故障排除

Whisper模型加载失败

问题: 找不到模型或下载失败

解决:

# 手动下载模型到models目录
# 或清理缓存重新下载
rm -rf models/*

GPU未被检测

问题: 系统使用CPU而非GPU

解决:

确认已安装CUDA (NVIDIA) 或 Metal (Mac)
安装对应的PyTorch版本:

# NVIDIA GPU
pip install torch --index-url https://download.pytorch.org/whl/cu118

# Mac M系列
pip install torch

API调用失败

问题: AI分析失败

解决:

检查API密钥是否正确
确认网络连接
查看API余额是否充足
尝试切换其他AI模型

内存不足

问题: 处理大文件时内存溢出

解决:

使用较小的Whisper模型 (如small而非large-v3)
调整compute_type为int8
分段处理长音频

📂 项目结构

voice2txt/
├── backend/              # 后端代码
│   ├── main.py          # FastAPI主应用
│   ├── config.py        # 配置管理
│   ├── database.py      # 数据库模型
│   ├── whisper_service.py   # Whisper服务
│   ├── ai_service.py    # AI分析服务
│   └── routers/         # API路由
├── frontend/            # 前端代码
│   ├── index.html       # 主页面
│   └── static/          # 静态资源
├── uploads/             # 上传文件存储
├── outputs/             # 输出结果存储
├── models/              # Whisper模型缓存
├── config.yaml          # 配置文件
├── requirements.txt     # Python依赖
├── .env                 # 环境变量（需创建）
└── README.md           # 本文档

🎯 性能参考

RTX 5090 + large-v3

1小时音频 ≈ 2-3分钟处理
GPU占用: ~8GB
准确率: 98%+

Mac Mini M4 + medium

1小时音频 ≈ 5-8分钟处理
内存占用: ~4GB
准确率: 95%+

普通CPU + small

1小时音频 ≈ 20-30分钟处理
内存占用: ~2GB
准确率: 90%+

🛣️ 开发路线图

🤝 贡献

欢迎提交Issue和Pull Request！

📄 开源协议

MIT License

💡 提示与技巧

首次使用: 建议先用small模型测试，确认一切正常后再升级到medium或large-v3
语言检测: 如果录音是纯中文，设置language: "zh"比自动检测更快更准
会议录音: 启用所有分析功能以获得完整的会议纪要
日常录音: 只启用"摘要"和"关键点"功能可以更快完成
成本控制: DeepSeek是最经济的选择，处理1小时录音约0.01-0.05元
批量处理: 可以通过API批量上传多个文件

📞 支持

如有问题，请提交Issue到GitHub仓库

Enjoy your Voice2Text experience! 🎉

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
backend		backend
frontend		frontend
models		models
outputs		outputs
uploads		uploads
.env.example		.env.example
.gitignore		.gitignore
=0.12.1		=0.12.1
=0.13,		=0.13,
=4.65		=4.65
CHOOSE_YOUR_SOLUTION.md		CHOOSE_YOUR_SOLUTION.md
FFMPEG_SOLUTION.md		FFMPEG_SOLUTION.md
FIX_AV_ISSUE.md		FIX_AV_ISSUE.md
INSTALL.md		INSTALL.md
INSTALL_MANUAL.md		INSTALL_MANUAL.md
PERFORMANCE_COMPARISON.md		PERFORMANCE_COMPARISON.md
QUICKSTART.md		QUICKSTART.md
README.md		README.md
check_dependencies.py		check_dependencies.py
check_whisper_versions.py		check_whisper_versions.py
clean_install.bat		clean_install.bat
config.yaml		config.yaml
constraints.txt		constraints.txt
diagnose_av.py		diagnose_av.py
install.bat		install.bat
install.sh		install.sh
install_av.bat		install_av.bat
manual_install.bat		manual_install.bat
requirements.txt		requirements.txt
run.bat		run.bat
run.py		run.py
run.sh		run.sh
switch_to_openai_whisper.bat		switch_to_openai_whisper.bat
test_installation.py		test_installation.py

Folders and files

Latest commit

History

Repository files navigation

🎙️ Voice2Text

✨ 功能特点

🎯 适用场景

🏗️ 技术架构

后端

前端

AI模型支持

📋 系统要求

推荐配置

最低配置

🚀 快速开始

1. 安装依赖

2. 配置API密钥

3. 配置Whisper模型

4. 启动服务

Windows:

Mac/Linux:

5. 访问Web界面

📖 使用指南

基本使用流程

支持的音频格式

API文档

⚙️ 高级配置

调整Whisper参数

添加自定义AI模型

修改服务器端口

🔧 故障排除

Whisper模型加载失败

GPU未被检测

API调用失败

内存不足

📂 项目结构

🎯 性能参考

RTX 5090 + large-v3

Mac Mini M4 + medium

普通CPU + small

🛣️ 开发路线图

🤝 贡献

📄 开源协议

💡 提示与技巧

📞 支持

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages