GitHub

*Repérage des pages dupliquées"

'check_txt.py' détecte les pages dupliquées dans les documents : -- prend un dossier en argument (par défaut : dossier_exemple_txt/) -- parcourt tous les fichiers txt -- isole les pages supectes et les place dans "suspect_files/" -- fait des visualisations html et les place dans "html_vizu/"
'grap_suspect_pdf_files.py' isole les PDF impliqués -- prend un dossier (ou une liste en intension) de PDF -- isole les PDF trouvés et les copie dans "suspected_pdf/" -- donne en sortie la liste des PDF non trouvés

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Produce_Biblio_html		Produce_Biblio_html
__pycache__		__pycache__
dossier_exemple_pdf		dossier_exemple_pdf
dossier_exemple_txt		dossier_exemple_txt
scrap_tomsk		scrap_tomsk
README.md		README.md
antono_tools.py		antono_tools.py
check_txt.py		check_txt.py
find_moreau.py		find_moreau.py
grap_suspect_pdf_files.py		grap_suspect_pdf_files.py

Provide feedback