Remove language limits: replace spaCy with language-independent tokenization by azaripov1-oss · Pull Request #5 · mts-ai/OpenAutoNLU

azaripov1-oss · 2026-03-16T10:54:12Z

Closes #1

Removed spaCy dependency — tokenization replaced with a Unicode-aware regex tokenizer that handles CJK character splitting and combining marks, no language-specific configuration required.
LLM prompts fallback: for languages without dedicated prompts (only en/ru have them), falls back to English prompts with an instruction to generate text in the same language as examples.
AncSetFit config: requires explicit template for non-en/ru languages; warns when using default templates.
NER data provider: _parse_record() supports three input formats (tokens+labels, text+spans, bracket format).
NER evaluation fix: added _predict_from_tokens so evaluation aligns with gold token boundaries.
Tokenizer tests: offset consistency, no overlap, and full coverage tests on 6 languages (en, ru, zh, ar, hi, fr).

…; LLM prompt fallback for unsupported languages

azaripov1-oss added 15 commits March 5, 2026 17:36

AncSetFit: mandatory template for non ru/en, default template warning…

e075b98

…; LLM prompt fallback for unsupported languages

replace spaCy tokenizer with language-independent Unicode regex

9b35b12

replace spaCy tokenizer with language-independent Unicode regex

606a1d5

add support for pre-tokenized BIO format input

a35f245

fix eval metrics with _predict_from_tokens

431e369

drop spacy, add sentencepiece

c32f109

upd

6ade230

fix sentencepiece==0.2.1

11fd9d9

remove language param from convert_bio_to_spans

5145429

Allow hyphen inside token

dcb4d50

add log warning

628c11d

data add

9a6a22f

Add tests for tokenize_with_offsets

6c83940

delete sentencepiece

b80f384

updated README.md file

e3e7d44

azaripov1-oss requested review from gregarshinov and sashaboriskin March 16, 2026 10:54

azaripov1-oss assigned gregarshinov Mar 16, 2026

Provide feedback