A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models
Русский синтез речи сталкивается c рядом особенностей: редукция гласных, оглушение согласных, подвижное ударение, омонимия. В данной работе представлен датасет Balalaika — более 2 000 часов студийной русской речи с полными текстовыми аннотациями (включая пунктуацию и ударения). Модели, обученные на Balalaika, заметно превосходят аналоги по задачам синтеза и улучшения речи.
git clone https://github.com/mtuciru/balalaika && cd balalaika
bash create_user_env.sh # cоздаёт виртуальное окружение и устанавливает зависимости
bash use_meta_500h.sh # можно выбрать 100h / 500h / 1000h / 2000h- Предварительные требования
- Установка
- Подготовка данных
- Запуск пайплайна разметки
- Конфигурация
- Переменные окружения
- Модели
- Ссылка на цитирование
sudo apt update && sudo apt install -y \
ffmpeg # инструменты для аудио/видео
python3 # Python
python3-pip # менеджер пакетов Pip
python3-venv # виртуальные окружения
python3-dev # заголовки для сборки wheels
python-is-python3
wget -qO- https://astral.sh/uv/install.sh | shСклонируйте репозиторий и создайте окружение
git clone https://github.com/mtuciru/balalaika
cd balalaika
# Используется для скриптов, создающих новую аннотацию или модифицирующих датасет
bash create_dev_env.sh
# Используется, если надо загрузить готовый датасет
bash create_user_env.sh Выберите один из заранее подготовленных объёмов:
-
100 часов
bash use_meta_100h.sh
-
500 часов
bash use_meta_500h.sh
-
1 000 часов
bash use_meta_1000h.sh
-
2 000 часов
bash use_meta_2000h.sh
Метаданные также доступны на Hugging Face – MTUCI.
Если у вас уже есть balalaika.parquet и balalaika.pkl, скопируйте их в корень проекта и запустите:
bash use_meta.shПайплайн:
- Скачивает датасеты
- Режет аудио на семантические фрагменты
- Транскрибирует сегменты
- Делает сегментацию по спикерам
- Применяет фонемизацию
bash base.sh configs/config.yamlРезультат сохраняется в podcasts/result.csv.
Главный файл — configs/config.yaml. Ниже кратко описаны ключевые параметры.
podcasts_path— абсолютный путь к каталогу с подкастами и выводом всех стадий.
episodes_limit— максимум эпизодов на плейлистnum_workers— количество параллельных загрузокpodcasts_urls_file— путь к.pklсо списком ссылок
duration— максимальная длина сегмента, сек.whisper_model— модель Faster-Whispercompute_type— тип вычисленийbeam_size— размер beam-поискаnum_workers— параллельные процессы
nisqa_config— конфиг NISQAone_speaker— загружать только одноголосые записиnum_workers— процессы
model_name— CTC или RNN-Twith_timestamps— добавлять тайм-коды (только CTC)lm_path— путь к языковой моделиnum_workers— процессы
model_name— RUPunctnum_workers— процессы
model_name— ruAccentnum_workers— процессы
num_workers— процессы
threshold— порог уверенности (0.6–0.9)model_path—.ptфайл моделиnum_workers— процессы
*_yaml.sh— берут все параметры изconfig.yaml*_args.sh— жёстко прописанные аргументы внутри скрипта
Создайте .env:
HF_TOKEN=
YANDEX_KEY=HF_TOKEN— нужен для оценки числа спикеровYANDEX_KEY— нужен для загрузки подкастов
- Запускайте скрипты из корня проекта.
- Пути в конфиге должны быть абсолютными.
- Стадии пунктуация → акценты выполняются поочерёдно.
- Необходимы ключи Yandex Music и Hugging Face.
models/
├── voxblink_resnet/
│ └── ...
└── nisqa_s.tar
Поддерживаются:
- NISQA – Оценка качества аудио.
- GigaAM – ASR.
- ruAccent – Расстановка ударений.
- RUPunct – Пунктуация.
- VoxBlink ResNet – Получение эмбеддингов спикеров для кластеризации.
- TryIPaG2P – Фонемизация.
- Speaker Diarization – Диаризация.
- Whisper – ASR + сегментация
Если вы используете датасет в своей работе, пожалуйста процитируйте нас
@misc{borodin2025datacentricframeworkaddressingphonetic,
title={A Data-Centric Framework for Addressing Phonetic and Prosodic Challenges in Russian Speech Generative Models},
author={Kirill Borodin and Nikita Vasiliev and Vasiliy Kudryavtsev and Maxim Maslov and Mikhail Gorodnichev and Oleg Rogov and Grach Mkrtchian},
year={2025},
eprint={2507.13563},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.13563},
}
- CC BY-NC-ND 4.0 – некоммерческое использование, без производных работ, только для научных исследований.
- Обязательно цитируйте корпус и не распространяйте файлы без письменного разрешения.
- CC BY-NC-SA 3.0 – допускается использовать, изменять и распространять материал лишь в академических, некоммерческих целях.
- Сохраняйте уведомления об авторских правах и лицензии; для коммерческого использования свяжитесь с авторами.
Помимо вышесказанного, необходимо соблюдать лицензии каждого компонента:
| Компонент | Лицензия |
|---|---|
| NISQA-s | Apache 2.0 |
| GigaAM | MIT |
| ruAccent | CC BY-NC-ND 4.0 |
| RUPunct | CC BY-NC-ND 4.0 |
| VoxBlink ResNet | Apache 2.0 |
| TryIPaG2P | MIT |
| pyannote-audio | MIT |
| Faster-Whisper | MIT |