TryIpaRu

Русский графемно-фонемный преобразователь (G2P) с выводом в формате IPA.

Использует Transformer encoder-decoder модель и словарь на ~400K слов для быстрого преобразования русского текста в фонемную транскрипцию.

Установка

pip install git+https://github.com/NikiPshg/TryIPaG2P.git

Или для локальной разработки:

git clone https://github.com/NikiPshg/TryIPaG2P.git
cd TryIPaG2P
pip install -e .

Быстрый старт

from tryiparu import G2PModel

g2p = G2PModel()

result = g2p("текст в фонемы ипа формата")
print(result)
# ['tʲ', 'e', 'k', 's', 't', ' ', 'v', ' ', 'f', 'ɐ', 'n', 'ɛ', 'm', 'ɨ', ' ', 'ɪ', 'p', 'a', ' ', 'f', 'ɐ', 'r', 'm', 'a', 't', 'ə']

Параметры `G2PModel`

Параметр	Тип	По умолчанию	Описание
`device`	`str \| None`	`None`	Устройство (`"cpu"`, `"cuda"`). Автоопределение если `None`
`tokenizer_file`	`str \| None`	`None`	Путь к BPE tokenizer JSON
`model_weights`	`str \| None`	`None`	Путь к весам модели (.pt)
`load_dataset`	`bool`	`True`	Загрузить словарь для ускорения (lookup вместо inference)

Как это работает

Входной текст разбивается на токены (слова и пунктуация)
Каждое слово ищется в словаре (~400K записей)
Если слова нет в словаре — запускается Transformer для генерации фонем
Результат кешируется для повторных запросов
Пост-обработка объединяет диакритики, аффрикаты, ударения

Зависимости

torch >= 2.0
tokenizers >= 0.13

Лицензия

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
examples		examples
src/tryiparu		src/tryiparu
.gitignore		.gitignore
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TryIpaRu

Установка

Быстрый старт

Параметры `G2PModel`

Как это работает

Зависимости

Лицензия

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

TryIpaRu

Установка

Быстрый старт

Параметры G2PModel

Как это работает

Зависимости

Лицензия

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Параметры `G2PModel`

Packages