Skip to content

Keming956/Repunctuation_ancient_Chinese

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Repunctuation_ancient_Chinese

Ce projet vise à explorer différentes méthodes de reponctuation automatique pour des textes en chinois classique, en comparant des approches d’étiquetage de séquence et de génération de séquence.

  • dataset/ : Contient les sous-dossiers train, dev, test ,brut etc. --> les fichiers textes utilisés pour l'entraînement et l'évaluation
  • LSTM.ipynb : Implémentation d'un modèle d'étiquetage de séquence (BiLSTM), où chaque caractère du texte reçoit une étiquette de ponctuation
  • generator.ipynb : Implémentation d’un modèle sequence-to-sequence à attention pour générer la version ponctuée d’une séquence non ponctuée (encoder-decoder GRU avec attention).
  • nettoyage.ipynb : Scripts de nettoyage, prétraitement et structuration des corpus (suppression de ponctuation, split, etc.)
  • generator_abandonné.ipynb : essai non retenu du generator

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors