Skip to content

Antonomaz/tools

Repository files navigation

*Repérage des pages dupliquées"

  • 'check_txt.py' détecte les pages dupliquées dans les documents : -- prend un dossier en argument (par défaut : dossier_exemple_txt/) -- parcourt tous les fichiers txt -- isole les pages supectes et les place dans "suspect_files/" -- fait des visualisations html et les place dans "html_vizu/"

  • 'grap_suspect_pdf_files.py' isole les PDF impliqués -- prend un dossier (ou une liste en intension) de PDF -- isole les PDF trouvés et les copie dans "suspected_pdf/" -- donne en sortie la liste des PDF non trouvés

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published