Skip to content

0x-latent/voice2txt

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🎙️ Voice2Text

AI驱动的语音转文字与智能分析系统 - 将录音转为文字并进行智能整理

✨ 功能特点

  • 🎯 高精度语音转文字: 基于faster-whisper,支持多种模型选择
  • 🤖 AI智能分析: 支持多个国内AI模型(DeepSeek、通义千问等)
  • 📝 多维度整理: 自动生成摘要、关键点、待办事项、会议纪要
  • 💻 本地Web界面: 简洁美观的拖拽式上传界面
  • 🚀 高性能: 专为NVIDIA GPU和Apple Silicon优化
  • 🔄 灵活切换: 支持多设备、多模型灵活切换
  • 📊 历史管理: 完整的处理记录和结果管理

🎯 适用场景

  • 日常思考录音整理
  • 会议记录自动生成
  • 讲座/培训内容提取
  • 播客/采访内容分析
  • 语音备忘录整理

🏗️ 技术架构

后端

  • 框架: FastAPI
  • 语音转文字: faster-whisper (OpenAI Whisper优化版)
  • AI分析: 支持多个国内AI API
  • 数据库: SQLite
  • 异步处理: 后台任务队列

前端

  • 技术: HTML + CSS + JavaScript (原生)
  • 特性: 响应式设计、拖拽上传、实时进度

AI模型支持

  • DeepSeek: 极致性价比 (0.1元/百万tokens)
  • 通义千问: 中文优秀,有免费额度
  • Kimi: 长文本处理能力强
  • 智谱GLM: 性价比高
  • Ollama: 本地模型(待实现)

📋 系统要求

推荐配置

  • 高性能PC: NVIDIA GPU (如RTX 5090), 16GB+ RAM
  • Mac: M4或更高芯片, 16GB+ RAM
  • Python: 3.9+

最低配置

  • CPU处理器
  • 8GB RAM
  • Python 3.9+

🚀 快速开始

1. 安装依赖

# 创建虚拟环境 (推荐)
python -m venv venv

# Windows激活
venv\Scripts\activate

# Mac/Linux激活
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt

2. 配置API密钥

# 复制环境变量模板
cp .env.example .env

# 编辑.env文件,填入你的API密钥
# 至少配置一个AI模型的API密钥

获取API密钥:

3. 配置Whisper模型

编辑 config.yaml:

whisper:
  # 根据你的设备选择模型大小
  model_size: "medium"  # tiny/base/small/medium/large-v3

  # 设备选择 (auto会自动检测)
  device: "auto"  # auto/cuda/cpu/mps

  # 语言设置
  language: "zh"  # zh/en/auto

模型选择建议:

  • RTX 5090: large-v3 (最高精度,速度依然快)
  • Mac M4: mediumlarge-v3 (推荐medium平衡性能)
  • 一般配置: smallmedium

4. 启动服务

Windows:

python -m backend.main

Mac/Linux:

python3 -m backend.main

5. 访问Web界面

打开浏览器访问: http://localhost:8000

首次运行会自动下载Whisper模型(约1.5GB for medium)

📖 使用指南

基本使用流程

  1. 上传音频文件: 拖拽或点击选择音频文件
  2. 选择配置:
    • Whisper模型(根据设备性能选择)
    • 语言(自动检测或指定)
    • AI模型(选择要使用的分析模型)
    • 分析功能(勾选需要的功能)
  3. 自动处理: 系统自动转文字并AI分析
  4. 查看结果: 查看摘要、关键点、待办事项等
  5. 下载报告: 下载Markdown格式的完整报告

支持的音频格式

  • MP3
  • WAV
  • M4A
  • OGG
  • FLAC
  • AAC
  • WMA

API文档

访问 http://localhost:8000/docs 查看完整API文档

⚙️ 高级配置

调整Whisper参数

config.yaml:

whisper:
  beam_size: 5           # 增加可提高准确度,但会变慢
  vad_filter: true       # 语音活动检测,去除静音
  compute_type: "float16" # float16(GPU)/int8(省内存)/float32

添加自定义AI模型

config.yaml:

ai_models:
  my_custom_model:
    enabled: true
    api_key: "YOUR_API_KEY"
    base_url: "https://api.example.com/v1"
    model: "model-name"
    temperature: 0.7
    max_tokens: 4000

修改服务器端口

config.yaml:

server:
  host: "0.0.0.0"
  port: 8080  # 修改为你想要的端口

🔧 故障排除

Whisper模型加载失败

问题: 找不到模型或下载失败

解决:

# 手动下载模型到models目录
# 或清理缓存重新下载
rm -rf models/*

GPU未被检测

问题: 系统使用CPU而非GPU

解决:

  1. 确认已安装CUDA (NVIDIA) 或 Metal (Mac)
  2. 安装对应的PyTorch版本:
# NVIDIA GPU
pip install torch --index-url https://download.pytorch.org/whl/cu118

# Mac M系列
pip install torch

API调用失败

问题: AI分析失败

解决:

  1. 检查API密钥是否正确
  2. 确认网络连接
  3. 查看API余额是否充足
  4. 尝试切换其他AI模型

内存不足

问题: 处理大文件时内存溢出

解决:

  1. 使用较小的Whisper模型 (如small而非large-v3)
  2. 调整compute_typeint8
  3. 分段处理长音频

📂 项目结构

voice2txt/
├── backend/              # 后端代码
│   ├── main.py          # FastAPI主应用
│   ├── config.py        # 配置管理
│   ├── database.py      # 数据库模型
│   ├── whisper_service.py   # Whisper服务
│   ├── ai_service.py    # AI分析服务
│   └── routers/         # API路由
├── frontend/            # 前端代码
│   ├── index.html       # 主页面
│   └── static/          # 静态资源
├── uploads/             # 上传文件存储
├── outputs/             # 输出结果存储
├── models/              # Whisper模型缓存
├── config.yaml          # 配置文件
├── requirements.txt     # Python依赖
├── .env                 # 环境变量(需创建)
└── README.md           # 本文档

🎯 性能参考

RTX 5090 + large-v3

  • 1小时音频 ≈ 2-3分钟处理
  • GPU占用: ~8GB
  • 准确率: 98%+

Mac Mini M4 + medium

  • 1小时音频 ≈ 5-8分钟处理
  • 内存占用: ~4GB
  • 准确率: 95%+

普通CPU + small

  • 1小时音频 ≈ 20-30分钟处理
  • 内存占用: ~2GB
  • 准确率: 90%+

🛣️ 开发路线图

  • 基础语音转文字功能
  • AI智能分析
  • Web界面
  • 历史记录管理
  • 多AI模型切换
  • Ollama本地模型集成
  • 实时流式转录
  • 多人说话识别
  • 更多输出格式(PDF, Word)
  • 云端部署支持
  • 移动端应用

🤝 贡献

欢迎提交Issue和Pull Request!

📄 开源协议

MIT License

💡 提示与技巧

  1. 首次使用: 建议先用small模型测试,确认一切正常后再升级到mediumlarge-v3

  2. 语言检测: 如果录音是纯中文,设置language: "zh"比自动检测更快更准

  3. 会议录音: 启用所有分析功能以获得完整的会议纪要

  4. 日常录音: 只启用"摘要"和"关键点"功能可以更快完成

  5. 成本控制: DeepSeek是最经济的选择,处理1小时录音约0.01-0.05元

  6. 批量处理: 可以通过API批量上传多个文件

📞 支持

如有问题,请提交Issue到GitHub仓库


Enjoy your Voice2Text experience! 🎉

About

把录音转成文字并自动整理

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors