Skip to content

VikhrModels/Borealis

Repository files navigation

Borealis

Обзор

Borealis — аудио LLM для русского языка. Есть в двух вариантах - 0.6B и 1.7B.

Как запустить обучение модели

  1. Установка uv

    curl -LsSf https://astral.sh/uv/install.sh | sh
  2. Установка зависимостей

    uv sync 
  3. Проброска ключей

    wandb login
    
    hf auth login
  4. Запуск обучения

    accelerate config
    
    accelerate launch train.py

    Сначала нужно задать конфиг под конкретную спецификацию сервера. Если обучение будет на одной видеокарте, то будет достаточно команды

    python train.py
  5. Инференс
    Для быстрой проверки используйте ноутбук test_model.ipynb. Он загружает сохранённую модель и вычисляет метрики $WER$ и $CER$

Структура проекта

  • borealis/
    • __init__.py — экспорт основных компонентов
    • augmentations.py — расписание аугментаций, миксинга шумов, реверберации и голосовых эффекторных слоёв
    • dataset.py — класс датасета
    • modeling.py — кастомный BorealisForConditionalGeneration и обвязка поверх Qwen3ForCausalLM
    • utils.py — коллатор, нормализация текстов (clean_dataset), загрузка аудио
  • train.py — главный файл для обучения
  • configs/ — шаблоны конфигов Hydra (добавятся позже)

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •