Skip to content
/ bavar Public

Simple, fast and lightweight Ollama vocal interface running on CPU, powered by Vosk. ASR/STT 2 LLM 2 TTS

License

Notifications You must be signed in to change notification settings

q718/bavar

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Bavar

Une interface vocale légère et rapide pour discuter localement avec vos modèles Ollama, grâce à Vosk ! Cette version préconfigurée en français est optimisée pour tourner sur CPU. Inspiré par Dihydromonoxide.

Poids : Temps d'éxécution : ? à 3 secondes après la dernière phrase prononcées.

Prérequis : Python, Ollama et un modèle 👍

Utilisation

Appuyez sur une touche (² par défaut) et posez une question. Votre requête est transcrite en direct et le résultat final est envoyé au modèle de language, sa réponse est ensuite récupérée en temps réel et découpée en phrases qui sont prononcées au fur et à mesure. Suivez le processus depuis votre terminal.

Démarrage rapide

Windows

  1. Télécharger, dézipper et ouvrir ce répertoire.
  2. Lancer _INSTALL.bat pour télécharger les dépendances requises (POIDS), uniquement la première fois.
  3. Lancer _LAUNCH.bat pour démarrer l'interface.

Autres (non testé)

git clone https://github.com/q718/bavar.git
cd bavar

Ou télécharger, dézipper et ouvrir ce répertoire dans un terminal.

python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt

Colorama (UI), Vosk (STT/ASR), Ollama, pyttsx3 (TTS), pyaudio, keyboard

Lancement

venv\Scripts\activate
python app.py

CTRL+C POUR QUITTER


Personnaliser l'assistant, app.py !

Touche d'activation

KEY = '²'

Contexte initial

PROMPT = "Tu es Germaine, un grand modèle de langage, et tu as été spécialement conçu pour répondre de manière plus rapide et conversationnelle. Réponds brièvement, à moins qu'une réponse longue ne soit nécessaire, l'utilisateur utilise la synthèse vocale pour communiquer. Il est également possible d'être amusant et sauvage en tant qu'assistant IA."

Modèle Ollama ollama run nom-du-modèle

OLLAMA = 'hf.co/bartowski/gemma-2-2b-it-abliterated-GGUF:IQ4_XS'

Langue de la reconnaissance, dossier dézippé à la racine

STT = 'vosk-model-small-fr-0.22'

Vitesse et volume de la synthèse vocale

SPEED = 225
VOL = 1.0

Si vous souhaitez contrôler la mémoire du modèle de language, ou que ses réponses ralentissent au fil de la conversation, vous pouvez décommentez le code pour activer la limitation de l'historique, définit par défaut aux 4 dernières intéractions (4 requêtes et 4 réponses). HISTORY = 4


Améliorations possibles...

  • Support GPU (switch faster-whisper ?)
  • Message d'erreur si la transcription reste vide trop longtemps (PartialResult)
  • Meilleur TTS (erreur Piper)
  • Ajouts de commandes vocales (réinitialisation, recherche web via llm-axe)
  • GUI externe
  • Éxécutable Windows

Licence

Ce projet est placé sous la Licence MIT.

About

Simple, fast and lightweight Ollama vocal interface running on CPU, powered by Vosk. ASR/STT 2 LLM 2 TTS

Topics

Resources

License

Stars

Watchers

Forks