exBERT on Transformers 🤗

Original exBERT

Updated for Transformers 🤗

PyTorch 1.8.1 ✅
Huggingface Trainer ✅
AutoModel, AutoTokenizer ✅
DeepSpeed Pretrain with run_mlm.py ✅
GPU ✅ (TPU test in progress)
Fine tune available (https://github.com/Beomi/KcBERT-finetune, In progress)

How to use

Pretrain exBERT

Need to clone this repo

git clone https://github.com/Beomi/exbert-transformers
cd exbert-transformers
pip install -e ".[dev]" && pip install datasets
cd examples/pytorch/language-modeling/
./exbert_pretrain.sh

Finetune

Install exbert-transformers

No need to git clone repo!

pip install git+https://github.com/Beomi/exbert-transformers

Load

from transformers import exBertModel, exBertTokenizer

model = exBertModel.from_pretrained(...)
tokenizer = exBertTokenizer.from_pretrained(...)

Trained on PAWS

from transformers import exBertModel, exBertTokenizer

model = exBertModel.from_pretrained('beomi/exKcBERT-paws')
tokenizer = exBertTokenizer.from_pretrained('beomi/exKcBERT-paws')

Note) The base_model of Finetuned model config should be ""(blank)

Vocab update

If you want to change base BERT model or add more vocab on exBERT, add vocab or update vocab on examples/pytorch/language-modeling/exbert/vocab.txt and update vocab_size and base_model on examples/pytorch/language-modeling/exbert/config.json.

Appendix

Sample Train result example

Terminal results on Github GIST: https://gist.github.com/Beomi/1aa650f75c8e9b3dd467038004244ed2

Name		Name	Last commit message	Last commit date
Latest commit History 7,318 Commits
.circleci		.circleci
.github		.github
docker		docker
docs		docs
examples		examples
model_cards		model_cards
notebooks		notebooks
scripts		scripts
src/transformers		src/transformers
templates		templates
tests		tests
utils		utils
.coveragerc		.coveragerc
.gitattributes		.gitattributes
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
ISSUES.md		ISSUES.md
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
Makefile		Makefile
README.md		README.md
hubconf.py		hubconf.py
pyproject.toml		pyproject.toml
setup.cfg		setup.cfg
setup.py		setup.py
valohai.yaml		valohai.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

exBERT on Transformers 🤗

Original exBERT

Updated for Transformers 🤗

How to use

Pretrain exBERT

Finetune

Vocab update

Appendix

Sample Train result example

About

Uh oh!

Uh oh!

Contributors 846

Uh oh!

Languages

License

Beomi/exbert-transformers

Folders and files

Latest commit

History

Repository files navigation

exBERT on Transformers 🤗

Original exBERT

Updated for Transformers 🤗

How to use

Pretrain exBERT

Finetune

Vocab update

Appendix

Sample Train result example

About

Topics

Resources

License

Code of conduct

Contributing

Uh oh!

Stars

Watchers

Forks

Uh oh!

Contributors 846

Uh oh!

Languages