Make Vocabulary with SPM, WPM

create vocab.txt from corpus

Requirement

$ pip install -r requirements.txt

Usage

SPM

can receive only one corpus file

$ python SPM.py --help or -h (for detail)
$ python SPM.py --corpus .../corpus.txt --size 32000 --output .../vocab.txt

WPM

can receive multi corpus files

$ pip install tokenizers
$ python WPM.py --help or -h (for detail)
$ python WPM.py --corpus .../corpus.txt .../corpus2.txt --size 32000 --output .../vocab.txt

WPM2

can receive multi corpus files

$ pip install tokenizers==0.7.0 (default)
$ python WPM2.py --help or -h (for detail)
$ python WPM2.py --corpus .../corpus.txt .../corpus2.txt --size 32000 --limit_alphabet 6000 --output .../vocab.txt

Reference

Sentence Piece Model, SPM

https://github.com/google/sentencepiece/blob/master/python/README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Make Vocabulary with SPM, WPM

Requirement

Usage

SPM

WPM

WPM2

Reference

Sentence Piece Model, SPM

Word Piece Model, WPM

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
README.md		README.md
SPM.py		SPM.py
WPM.py		WPM.py
WPM2.py		WPM2.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Make Vocabulary with SPM, WPM

Requirement

Usage

SPM

WPM

WPM2

Reference

Sentence Piece Model, SPM

Word Piece Model, WPM

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages