包含自定义词表,以及自己实现的tokenize,detokenize。
pretrain_pipeline.py是流式输入数据。
各个程序直接使用Python运行即可,具体配置到代码里调整。
couldn/t5_pretrain
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
| Name | Name | Last commit date | ||
|---|---|---|---|---|
包含自定义词表,以及自己实现的tokenize,detokenize。
pretrain_pipeline.py是流式输入数据。
各个程序直接使用Python运行即可,具体配置到代码里调整。