Repunctuation_ancient_Chinese

Ce projet vise à explorer différentes méthodes de reponctuation automatique pour des textes en chinois classique, en comparant des approches d’étiquetage de séquence et de génération de séquence.

dataset/ : Contient les sous-dossiers train, dev, test ,brut etc. --> les fichiers textes utilisés pour l'entraînement et l'évaluation
LSTM.ipynb : Implémentation d'un modèle d'étiquetage de séquence (BiLSTM), où chaque caractère du texte reçoit une étiquette de ponctuation
generator.ipynb : Implémentation d’un modèle sequence-to-sequence à attention pour générer la version ponctuée d’une séquence non ponctuée (encoder-decoder GRU avec attention).
nettoyage.ipynb : Scripts de nettoyage, prétraitement et structuration des corpus (suppression de ponctuation, split, etc.)
generator_abandonné.ipynb : essai non retenu du generator

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
dataset		dataset
.gitignore		.gitignore
Generator_abandonné.ipynb		Generator_abandonné.ipynb
LSTM.ipynb		LSTM.ipynb
README.md		README.md
generator.ipynb		generator.ipynb
nettoyage.ipynb		nettoyage.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Repunctuation_ancient_Chinese

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Repunctuation_ancient_Chinese

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages