Ce projet vise à explorer différentes méthodes de reponctuation automatique pour des textes en chinois classique, en comparant des approches d’étiquetage de séquence et de génération de séquence.
dataset/: Contient les sous-dossierstrain,dev,test,brutetc. --> les fichiers textes utilisés pour l'entraînement et l'évaluationLSTM.ipynb: Implémentation d'un modèle d'étiquetage de séquence (BiLSTM), où chaque caractère du texte reçoit une étiquette de ponctuationgenerator.ipynb: Implémentation d’un modèle sequence-to-sequence à attention pour générer la version ponctuée d’une séquence non ponctuée (encoder-decoder GRU avec attention).nettoyage.ipynb: Scripts de nettoyage, prétraitement et structuration des corpus (suppression de ponctuation, split, etc.)generator_abandonné.ipynb: essai non retenu du generator