Chatbot de IA Local com Transcrição de Áudio - Rede Comunitária Portal Sem Porteiras

Um chatbot de inteligência artificial que roda localmente na rede comunitária, com funcionalidades de transcrição de áudio e processamento de PDFs, sem necessidade de internet externa. Desenvolvido para a Rede Comunitária Portal Sem Porteiras.

🌐 Configuração de Rede

Este projeto utiliza a variável de ambiente OLLAMA_HOST para definir o endereço do servidor Ollama:

Padrão: http://localhost:11434 (ideal para rodar tudo na mesma máquina)
Para usar outro servidor na rede: edite o arquivo .env e defina OLLAMA_HOST para o IP desejado, por exemplo: http://10.208.173.206:11434

Exemplo de .env:
OLLAMA_HOST=http://localhost:11434
Ou para servidor remoto:
OLLAMA_HOST=http://10.208.173.206:11434

Sempre copie .env.example para .env e ajuste conforme seu ambiente!

✨ Funcionalidades

IA Local: Processamento local sem dependência de serviços externos
Aceleração GPU: Suporte a GPU NVIDIA para processamento mais rápido
Upload de PDFs: Faça upload de documentos PDF para que a IA responda baseada no conteúdo
🎵 Transcrição de Áudio: Upload e transcrição automática de arquivos de áudio usando Whisper
Múltiplos Modelos: Suporte a diferentes modelos de IA (LLaMA 2, Mistral, Code Llama)
Interface Web: Interface moderna e responsiva com tabs para PDFs e áudios
Histórico: Salva e exporta conversas
Cache Inteligente: Cache de PDFs e áudios processados para melhor performance

🚀 Instalação Rápida

Pré-requisitos

Sistema: Debian 12 ou Ubuntu 22.04+
GPU: NVIDIA RTX 4060 ou superior (recomendado)
RAM: Mínimo 8GB, recomendado 16GB+
Armazenamento: 20GB livres para modelos e cache
Docker e Docker Compose: Instalados
FFmpeg: Para conversão de áudio (instalado automaticamente)
Acesso à rede local: 10.208.173.206

Deploy Automático

# Clone o repositório
git clone https://github.com/seu-repo/ia-local-audio.git
cd ia-local-audio

# Deploy inteligente (detecta mudanças automaticamente)
chmod +x deploy.sh
./deploy.sh

Verificar Status

# Status dos containers
docker-compose ps

# Logs em tempo real
docker-compose logs -f chatbot

# Testar conectividade com servidor Ollama
curl http://10.208.173.206:11434/api/tags

🔧 Desenvolvimento

Setup do Ambiente

# Configurar ambiente de desenvolvimento
chmod +x setup_dev.sh
./setup_dev.sh

# Executar em modo desenvolvimento
chmod +x run_dev.sh
./run_dev.sh

Estrutura do Projeto

ia-local-audio/
├── app.py                 # Aplicação principal Flask
├── pdf_processor.py       # Processamento de PDFs
├── audio_processor.py     # Processamento de áudio (NOVO!)
├── templates/             # Templates HTML
├── static/                # CSS, JS, imagens
├── uploads/               # PDFs e áudios enviados pelos usuários
├── cache/                 # Cache de processamento
├── logs/                  # Logs da aplicação
├── docker-compose.yml     # Configuração Docker produção
├── docker-compose.dev.yml # Configuração Docker desenvolvimento
├── deploy.sh              # Script de deploy inteligente
└── requirements.txt       # Dependências Python

📚 Funcionalidades

Chat com IA

Interface web amigável
Integração com modelo llama2 via Ollama
Respostas rápidas usando GPU RTX 4060

Upload e Processamento de PDFs

Upload de múltiplos PDFs
Extração de texto usando PyPDF2 e pdfplumber
OCR para PDFs escaneados
Uso do conteúdo como contexto para o chat
Listagem e remoção de PDFs

🎵 Upload e Transcrição de Áudio (NOVO!)

Upload de múltiplos formatos de áudio (MP3, WAV, M4A, FLAC, OGG, AAC, WMA)
Transcrição automática usando Whisper (OpenAI)
Fallback para SpeechRecognition (Google)
Conversão automática de formatos usando FFmpeg
Metadados de áudio (duração, formato, qualidade)
Uso da transcrição como contexto para o chat
Listagem e remoção de áudios

Interface Administrativa

Gerenciamento de PDFs e áudios
Tabs separados para cada tipo de arquivo
Logs de sistema
Status de conectividade

🔗 Conectividade

Servidor Ollama Remoto

URL: http://10.208.173.206:11434
Modelo: llama2
GPU: RTX 4060 (no servidor remoto)

Interface Web

URL: http://localhost:8080
Porta: 8080
Acesso: Rede local

📊 Performance

Métricas com GPU RTX 4060

Tempo de resposta: 2-5 segundos
Utilização de memória: ~6GB VRAM
Temperatura: 45-55°C
Throughput: ~15-20 tokens/segundo

Transcrição de Áudio

Whisper: Alta precisão, suporte a português
Tempo de processamento: 1-3x duração do áudio
Formatos suportados: MP3, WAV, M4A, FLAC, OGG, AAC, WMA
Limite de arquivo: 100MB

Comparação CPU vs GPU

CPU (antes): 30-60 segundos por resposta
GPU (agora): 2-5 segundos por resposta
Melhoria: 10-15x mais rápido

🛠️ Comandos Úteis

Docker

# Deploy inteligente
./deploy.sh

# Parar containers
docker-compose down

# Rebuild completo
docker-compose build --no-cache

# Ver logs
docker-compose logs -f chatbot

# Reiniciar apenas o chatbot
docker-compose restart chatbot

Desenvolvimento

# Setup inicial
./setup_dev.sh

# Executar em desenvolvimento
./run_dev.sh

# Ativar ambiente virtual
source venv/bin/activate

# Instalar dependências
pip install -r requirements.txt

Monitoramento

# Status do sistema
docker-compose ps

# Uso de recursos
docker stats

# Logs do sistema
tail -f logs/app.log

# Testar API
curl http://localhost:8080/api/health

🔍 Troubleshooting

Problemas de Conectividade

# Verificar se servidor Ollama está acessível
curl http://10.208.173.206:11434/api/tags

# Verificar rede local
ping 10.208.173.206

# Verificar porta
telnet 10.208.173.206 11434

Problemas de Performance

# Verificar uso de GPU no servidor remoto
nvidia-smi

# Verificar logs do Ollama
docker-compose logs ollama

# Verificar conectividade de rede
iperf3 -c 10.208.173.206

Problemas de Deploy

# Limpar cache Docker
docker system prune -a

# Rebuild completo
docker-compose build --no-cache

# Verificar espaço em disco
df -h

# Verificar permissões
ls -la

Problemas de Áudio

# Verificar se FFmpeg está instalado
ffmpeg -version

# Verificar dependências de áudio
docker-compose exec chatbot pip list | grep -E "(whisper|torch|pydub)"

# Verificar logs de transcrição
docker-compose logs chatbot | grep -i audio

📝 Logs e Monitoramento

Logs da Aplicação

Localização: logs/app.log
Nível: INFO, ERROR, DEBUG
Rotação: Automática

Logs do Docker

# Logs do chatbot
docker-compose logs chatbot

# Logs do servidor Ollama (remoto)
# Verificar no servidor 10.208.173.206

Métricas de Performance

Tempo de resposta: Monitorado automaticamente
Uso de recursos: Via Docker stats
Erros: Logs estruturados

🔒 Segurança

Rede Local

Acesso restrito à rede local
Sem exposição à internet
Comunicação criptografada (se configurado)

Uploads

Validação de tipos de arquivo
Limite de tamanho configurável (100MB)
Sanitização de conteúdo

🤝 Contribuição

Para a Rede Comunitária

Teste as funcionalidades
Reporte bugs ou melhorias
Sugira novos recursos
Ajude na documentação

Desenvolvimento

Fork do repositório
Crie uma branch para sua feature
Commit suas mudanças
Push para a branch
Abra um Pull Request

📞 Suporte

Rede Comunitária Portal Sem Porteiras

Grupo: [Link do grupo]
Canal: [Link do canal]
Email: [Email de contato]

Documentação Adicional

PERFORMANCE.md - Análise detalhada de performance
PDF_FEATURE.md - Documentação da funcionalidade de PDFs
TROUBLESHOOTING.md - Guia de solução de problemas

Portal Sem Porteiras - Rede Comunitária Local IA Local para Todos 🤖🌐🎵

📄 Funcionalidade de PDF

Como Usar

Upload de PDF: Clique no botão "📄" no painel lateral
Seleção: Arraste um arquivo PDF ou clique para selecionar
Processamento: O sistema extrai automaticamente o texto do PDF
Ativação: Clique em um PDF na lista para ativá-lo como contexto
Chat: A IA responderá baseada no conteúdo do PDF ativo

Recursos

Extração Inteligente: Usa múltiplos métodos para extrair texto (PyPDF2 + pdfplumber)
OCR: Suporte a PDFs escaneados usando Tesseract
Cache: PDFs processados são cacheados para evitar reprocessamento
Metadados: Extrai título, autor, número de páginas e outras informações
Limite de Tamanho: Máximo 100MB por arquivo
Contexto Limitado: Limita o contexto enviado para a IA (2000 caracteres)

Formatos Suportados

✅ PDFs com texto (recomendado)
✅ PDFs escaneados (OCR básico)
✅ PDFs com imagens e tabelas

🎵 Funcionalidade de Áudio (NOVO!)

Como Usar

Upload de Áudio: Clique no botão "🎤" no painel lateral
Seleção: Arraste um arquivo de áudio ou clique para selecionar
Transcrição: O sistema transcreve automaticamente o áudio para texto
Ativação: Clique em um áudio na lista para ativá-lo como contexto
Chat: A IA responderá baseada na transcrição do áudio ativo

Recursos

Transcrição Inteligente: Usa Whisper (OpenAI) para alta precisão
Fallback: SpeechRecognition (Google) como alternativa
Conversão Automática: FFmpeg converte formatos automaticamente
Metadados: Extrai duração, formato, qualidade e outras informações
Cache: Áudios processados são cacheados para evitar reprocessamento
Limite de Tamanho: Máximo 100MB por arquivo
Contexto Limitado: Limita o contexto enviado para a IA (2000 caracteres)

Formatos Suportados

✅ MP3 (recomendado)
✅ WAV
✅ M4A
✅ FLAC
✅ OGG
✅ AAC
✅ WMA

Modelos de Transcrição

Whisper (Padrão): Alta precisão, suporte nativo ao português
SpeechRecognition: Fallback usando API do Google
Detecção Automática: Escolhe o melhor método automaticamente

🎯 Casos de Uso

Para Redes Comunitárias

Documentação Local: Upload de manuais, regulamentos e documentos da comunidade
Educação: Material didático e apostilas para cursos locais
Administração: Processamento de formulários e relatórios
Pesquisa: Análise de documentos históricos da comunidade
🎵 Reuniões: Transcrição de gravações de reuniões comunitárias
🎵 Entrevistas: Processamento de entrevistas e depoimentos
🎵 Palestras: Transcrição de palestras e apresentações
🎵 Podcasts: Análise de conteúdo de podcasts locais

Exemplos Práticos

Manual da Rede: "Como configurar um novo nó na rede?"
Regulamento: "Quais são as regras para uso do servidor?"
Relatório: "Resuma os principais pontos do relatório mensal"
Apostila: "Explique o conceito de roteamento em redes"
🎵 Reunião: "Quais foram as decisões tomadas na reunião de ontem?"
🎵 Entrevista: "Resuma os principais pontos da entrevista com o coordenador"
🎵 Palestra: "Quais foram os tópicos abordados na palestra sobre segurança?"

🔧 Configuração

Variáveis de Ambiente

# .env
OLLAMA_HOST=http://localhost:11434
MODEL_NAME=llama2

Modelos Disponíveis

llama2: Modelo geral (padrão)
mistral: Modelo mais rápido e eficiente
codellama: Especializado em código
llama2:13b: Versão maior e mais precisa

Baixar Novos Modelos

Acesse a interface web
Selecione o modelo desejado no dropdown
Clique em "Baixar Modelo"
Aguarde o download (pode demorar alguns minutos)

🛠️ Manutenção

Logs

# Ver logs do chatbot
docker-compose logs chatbot

# Ver logs do Ollama
docker-compose logs ollama

# Logs de chat
tail -f logs/chat_history.json

Backup

# Backup dos modelos
sudo docker run --rm -v ollama_data:/root/.ollama -v $(pwd):/backup alpine tar czf /backup/ollama-models-$(date +%Y%m%d).tar.gz -C /root/.ollama .

# Backup de arquivos e cache
tar czf backup-files-$(date +%Y%m%d).tar.gz uploads/ cache/

Limpeza

# Limpar cache de arquivos
rm -rf cache/*

# Limpar uploads
rm -rf uploads/*

# Limpar logs antigos
find logs/ -name "*.json" -mtime +30 -delete

🔍 Troubleshooting

Problemas Comuns

GPU não detectada:

nvidia-smi  # Verificar se GPU está funcionando
sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

Modelo não baixa:

# Verificar espaço em disco
df -h

# Verificar logs do Ollama
docker-compose logs ollama

PDF não processa:

# Verificar dependências
docker-compose exec chatbot pip list | grep -E "(PyPDF2|pdfplumber)"

# Verificar logs
docker-compose logs chatbot

🎵 Áudio não transcreve:

# Verificar se FFmpeg está instalado
ffmpeg -version

# Verificar dependências de áudio
docker-compose exec chatbot pip list | grep -E "(whisper|torch|pydub)"

# Verificar logs de transcrição
docker-compose logs chatbot | grep -i audio

Interface não carrega:

# Verificar se porta está livre
netstat -tlnp | grep 8080

# Reiniciar serviços
docker-compose restart

Logs Detalhados

# Ativar logs detalhados
docker-compose up -d --build
docker-compose logs -f chatbot

🤝 Contribuição

Para contribuir com o projeto:

Fork o repositório
Crie uma branch para sua feature
Faça commit das mudanças
Abra um Pull Request

📄 Licença

Este projeto está licenciado sob a licença MIT - veja o arquivo LICENSE para detalhes.

🙏 Agradecimentos

Ollama: Framework de IA local
Whisper: Transcrição de áudio
Flask: Framework web
NVIDIA: Suporte a GPU
FFmpeg: Conversão de áudio
Comunidade Portal Sem Porteiras: Testes e feedback

📞 Suporte

Para suporte técnico ou dúvidas:

Email: suporte@portalsemporteiras.org
Telegram: @portalsemporteiras
Issues: GitHub Issues

Desenvolvido com ❤️ para a Rede Comunitária Portal Sem Porteiras

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
static		static
templates		templates
.env.example		.env.example
.gitignore		.gitignore
.last_deploy		.last_deploy
AUDIO_FEATURE.md		AUDIO_FEATURE.md
DEVELOPMENT.md		DEVELOPMENT.md
Dockerfile		Dockerfile
Dockerfile.dev		Dockerfile.dev
PDF_FEATURE.md		PDF_FEATURE.md
PERFORMANCE.md		PERFORMANCE.md
README.md		README.md
TROUBLESHOOTING.md		TROUBLESHOOTING.md
app.py		app.py
audio_processor.py		audio_processor.py
deploy-dev.sh		deploy-dev.sh
deploy.sh		deploy.sh
docker-compose.dev.yml		docker-compose.dev.yml
docker-compose.yml		docker-compose.yml
env.example		env.example
install-debian.sh		install-debian.sh
manage-ollama.sh		manage-ollama.sh
pdf_processor.py		pdf_processor.py
printpage.png		printpage.png
requirements.txt		requirements.txt
run_dev.sh		run_dev.sh
setup_dev.sh		setup_dev.sh
start.sh		start.sh
test_pdf.py		test_pdf.py
update.sh		update.sh

Folders and files

Latest commit

History

Repository files navigation

Chatbot de IA Local com Transcrição de Áudio - Rede Comunitária Portal Sem Porteiras

🌐 Configuração de Rede

✨ Funcionalidades

🚀 Instalação Rápida

Pré-requisitos

Deploy Automático

Verificar Status

🔧 Desenvolvimento

Setup do Ambiente

Estrutura do Projeto

📚 Funcionalidades

Chat com IA

Upload e Processamento de PDFs

🎵 Upload e Transcrição de Áudio (NOVO!)

Interface Administrativa

🔗 Conectividade

Servidor Ollama Remoto

Interface Web

📊 Performance

Métricas com GPU RTX 4060

Transcrição de Áudio

Comparação CPU vs GPU

🛠️ Comandos Úteis

Docker

Desenvolvimento

Monitoramento

🔍 Troubleshooting

Problemas de Conectividade

Problemas de Performance

Problemas de Deploy

Problemas de Áudio

📝 Logs e Monitoramento

Logs da Aplicação

Logs do Docker

Métricas de Performance

🔒 Segurança

Rede Local

Uploads

🤝 Contribuição

Para a Rede Comunitária

Desenvolvimento

📞 Suporte

Rede Comunitária Portal Sem Porteiras

Documentação Adicional

📄 Funcionalidade de PDF

Como Usar

Recursos

Formatos Suportados

🎵 Funcionalidade de Áudio (NOVO!)

Como Usar

Recursos

Formatos Suportados

Modelos de Transcrição

🎯 Casos de Uso

Para Redes Comunitárias

Exemplos Práticos

🔧 Configuração

Variáveis de Ambiente

Modelos Disponíveis

Baixar Novos Modelos

🛠️ Manutenção

Logs

Backup

Limpeza

🔍 Troubleshooting

Problemas Comuns

Logs Detalhados

🤝 Contribuição

📄 Licença

🙏 Agradecimentos

📞 Suporte

About

Resources

Uh oh!

Stars

Watchers

Packages