Releases: STENS66/Simple-Text-Extractor
Simple Text Extractor v1.1
1. Interface Utilisateur & Expérience (UI/UX) :
L'interface a été entièrement reconstruite pour offrir une ergonomie moderne et fluide.
-
Nouveau Design Moderne : Abandon de l'interface classique Tkinter au profit de CustomTkinter. L'application arbore désormais un look épuré, professionnel et supporte mieux les résolutions élevées (High DPI).
-
Système d'Aide Intégré (Tooltips) : Ajout d'infobulles explicatives au survol de chaque option (DPI, Langue, PDF/A, etc.) pour guider l'utilisateur sans encombrer l'interface.
-
File d'attente Visuelle : Remplacement des champs de sélection uniques par une liste dynamique. Vous pouvez voir tous les fichiers en attente, leurs détails, et retirer des fichiers spécifiques de la liste via un bouton "X" dédié ou tout vider en un clic.
-
Feedback Instantané : Barre de progression précise et messages d'état détaillés (page par page) pour ne jamais laisser l'utilisateur dans le doute.
2. Nouvelles Fonctionnalités Clés :
La version 1.1 introduit des outils puissants pour la productivité :
-
Traitement par Lots (Batch Processing) : Plus besoin de traiter les fichiers un par un. Ajoutez des dizaines de PDF ou d'images à la liste et laissez l'application les traiter à la chaîne automatiquement.
-
Glisser-Déposer (Drag & Drop) : Glissez simplement vos fichiers (PDF, PNG, JPG, TIFF, BMP) directement dans la fenêtre pour les ajouter à la file d'attente.
-
Export Format Archivage (PDF/A) : Nouvelle option pour générer des fichiers conformes à la norme PDF/A-1b, garantissant la pérennité et la lisibilité de vos documents sur le très long terme (idéal pour l'archivage légal ou administratif).
-
Gestion du Dossier de Sortie : L'utilisateur peut désormais choisir un dossier de destination spécifique. Par défaut, l'application gère intelligemment les noms de fichiers pour éviter tout écrasement accidentel (incrémentation automatique : _ocr_1.pdf).
-
Analyse des Métadonnées : L'application affiche désormais avant traitement les informations techniques de chaque fichier : taille, nombre de pages, résolution (DPI) et conformité PDF/A actuelle.
3. Performance, Stabilité & Sécurité :
- Architecture Multiprocessing : L'interface graphique et le moteur OCR sont maintenant totalement séparés dans des processus distincts.
--> Résultat : L'application ne "gèle" jamais, même lors du traitement de documents lourds.
-
Bouton Annuler : Possibilité d'interrompre proprement le processus à tout moment.
-
Traitement en Mémoire Vive (In-Memory) : Optimisation des flux de données pour éviter les écritures disques inutiles, garantissant une vitesse de traitement maximale.
Sécurité Renforcée :
-
Protection "Decompression Bomb" : Intégration d'une limite de pixels (PIL) pour empêcher les plantages ou attaques via des images malveillantes excessivement grandes.
-
Sanitisation des Chemins : Vérification stricte des exécutables (Tesseract) et des chemins de fichiers pour prévenir les vulnérabilités liées au PATH système.
Robustesse Technique (Nouveaux Correctifs) :
-
Protection Anti-Crash JPG : Normalisation automatique des images en RGB avant traitement. Cela élimine les erreurs de type "Unsupported image format" survenant avec certaines photos issues de smartphones (iPhone/Android) contenant des métadonnées exotiques.
-
Validation Saisie DPI : Sécurisation du champ DPI pour empêcher l'injection de valeurs erronées ou aberrantes (limitation stricte entre 75 et 2400 DPI), garantissant que le moteur OCR ne soit jamais lancé avec des paramètres invalides.
-
Worker Robuste (TESSDATA_PREFIX) : Amélioration de la détection automatique des fichiers de langue dans les processus parallèles. Cela garantit le fonctionnement de l'OCR même sur des installations non-standard ou portables.
Ce programme est maintenant disponible via le Microsoft store : https://apps.microsoft.com/detail/9NVRKF4X80JZ?hl=fr-be&gl=BE&ocid=pdpshare ou taper simplement "Simple Text Extractor" dans la barre de recherche du store.
Simple Text Extractor V1.0
Simple Text Extractor v1.0 :
Points Clés de la v1.0
Nouveau Moteur OCR : Intégration directe de Pytesseract (pour l'OCR) et pypdfium2 (pour le rendu et la manipulation de PDF).
Performance Parallélisée : Utilisation de multiprocessing.Pool pour traiter les pages PDF en parallèle, exploitant au maximum les cœurs de processeur disponibles et réduisant drastiquement le temps de traitement.
Traitement Intelligent : L'OCR n'est exécuté que si nécessaire. L'application détecte les PDF contenant déjà une couche de texte et les copie simplement, sauf si l'option "Forcer OCR" est activée.
Gestion Autonome des Dépendances : L'application localise et configure automatiquement les dépendances embarquées (comme Tesseract et TESSDATA_PREFIX) au démarrage.
Fonctionnalité Principale
L'objectif de "Simple Text Extractor" est de garantir qu'un document PDF ou une image possède une couche de texte consultable ("searchable").
Pour les fichiers PDF : Il analyse chaque page. Si du texte est présent, la page est copiée. Si elle n'en a pas (cas d'un PDF "image"), il effectue un OCR et ajoute une couche de texte invisible.
Pour les fichiers Image (PNG, JPG, etc.) : Il effectue un OCR sur l'image et génère un nouveau fichier PDF d'une seule page contenant l'image et la couche de texte correspondante.
Fichiers Pris en Charge
Entrée : .pdf, .png, .jpg, .jpeg, .tiff, .bmp
Sortie : Toujours .pdf
Ce programme est maintenant disponible via le Microsoft store : https://apps.microsoft.com/detail/9NVRKF4X80JZ?hl=fr-be&gl=BE&ocid=pdpshare ou taper simplement "Simple Text Extractor" dans la barre de recherche du store.