Une interface vocale légère et rapide pour discuter localement avec vos modèles Ollama, grâce à Vosk ! Cette version préconfigurée en français est optimisée pour tourner sur CPU. Inspiré par Dihydromonoxide.
Poids : Temps d'éxécution : ? à 3 secondes après la dernière phrase prononcées.
Prérequis : Python, Ollama et un modèle 👍
Appuyez sur une touche (² par défaut) et posez une question. Votre requête est transcrite en direct et le résultat final est envoyé au modèle de language, sa réponse est ensuite récupérée en temps réel et découpée en phrases qui sont prononcées au fur et à mesure. Suivez le processus depuis votre terminal.
- Télécharger, dézipper et ouvrir ce répertoire.
- Lancer _INSTALL.bat pour télécharger les dépendances requises (POIDS), uniquement la première fois.
- Lancer _LAUNCH.bat pour démarrer l'interface.
git clone https://github.com/q718/bavar.git
cd bavarOu télécharger, dézipper et ouvrir ce répertoire dans un terminal.
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txtColorama (UI), Vosk (STT/ASR), Ollama, pyttsx3 (TTS), pyaudio, keyboard
venv\Scripts\activate
python app.py
Touche d'activation
KEY = '²'Contexte initial
PROMPT = "Tu es Germaine, un grand modèle de langage, et tu as été spécialement conçu pour répondre de manière plus rapide et conversationnelle. Réponds brièvement, à moins qu'une réponse longue ne soit nécessaire, l'utilisateur utilise la synthèse vocale pour communiquer. Il est également possible d'être amusant et sauvage en tant qu'assistant IA."Modèle Ollama ollama run nom-du-modèle
OLLAMA = 'hf.co/bartowski/gemma-2-2b-it-abliterated-GGUF:IQ4_XS'Langue de la reconnaissance, dossier dézippé à la racine
STT = 'vosk-model-small-fr-0.22'Vitesse et volume de la synthèse vocale
SPEED = 225
VOL = 1.0Si vous souhaitez contrôler la mémoire du modèle de language, ou que ses réponses ralentissent au fil de la conversation, vous pouvez décommentez le code pour activer la limitation de l'historique, définit par défaut aux 4 dernières intéractions (4 requêtes et 4 réponses). HISTORY = 4
- Support GPU (switch faster-whisper ?)
- Message d'erreur si la transcription reste vide trop longtemps (PartialResult)
- Meilleur TTS (erreur Piper)
- Ajouts de commandes vocales (réinitialisation, recherche web via llm-axe)
- GUI externe
- Éxécutable Windows
Ce projet est placé sous la Licence MIT.