Détecteur intelligent de données personnelles pour une conformité RGPD simplifiée.
RGPD Sentinel est un outil d'analyse avancé qui détecte automatiquement les données personnelles dans vos documents pour faciliter la mise en conformité RGPD.
- 📄 PDF, Word, Excel, texte, CSV, RTF, ODT, ODS
- 🔍 Analyse en profondeur avec traitement NLP (spaCy)
- 📊 Rapports détaillés et visualisations
- ✅ Noms de personnes (avec analyse contextuelle)
- ✅ Emails et téléphones français
- ✅ Adresses postales et IP
- 🏦 IBAN (validation checksum mod 97)
- 💳 Cartes bancaires (algorithme de Luhn)
- 🏦 RIB français (validation clé RIB)
- 🛂 Passeports français (ancien et nouveau format)
- 🆔 Cartes nationales d'identité
- 🚗 Permis de conduire européens
- 🔢 Numéros de sécurité sociale (validation clé)
- 🏢 SIRET (algorithme de Luhn)
- 🚙 Plaques d'immatriculation (SIV et FNI)
- 📍 Coordonnées GPS (décimal et DMS)
- 🔧 Numéros de châssis (VIN)
- Niveaux de confiance : Chaque détection est scorée (0-100%)
- Analyse de risque : Classification automatique (faible, moyen, élevé)
- Détection de templates : Réduction des faux positifs
- Contexte professionnel : Distinction personnel vs organisation
- Python 3.8+
- pip
# Cloner le dépôt
git clone https://github.com/GMS64260/RGPD_Sentinel.git
# Naviguer dans le répertoire du projet
cd RGPD_Sentinel
# Installer les dépendances
pip install -r requirements.txt
# Télécharger le modèle spaCy français
python -m spacy download fr_core_news_mdVoir INSTALLATION_DEBIAN.md pour les instructions détaillées.
streamlit run app.pyL'interface sera accessible sur http://localhost:8501
python3 test_new_detections.pyfrom analyzer.core import detect_personal_data
text = """
Contact: Jean Dupont
Email: jean.dupont@email.fr
IBAN: FR76 3000 6000 0112 3456 7890 189
"""
results = detect_personal_data(text)
print(f"Détections: {sum(len(v) for v in results.values())} données personnelles")- Passage de 8 à 17 types de données
- 9 nouveaux validateurs algorithmiques
- Score de risque 5x plus précis
Voir AMELIORATIONS.md pour le détail complet.
RGPD_Sentinel/
├── analyzer/
│ ├── core.py # Moteur de détection principal
│ ├── validators.py # Fonctions de validation (12 types)
│ ├── file_utils.py # Utilitaires de lecture de fichiers
│ └── ...
├── config/
│ └── exclusion_lists.py # Listes d'exclusion configurables
├── app.py # Interface Streamlit
├── test_new_detections.py # Suite de tests
└── requirements.txt
Éditez config/exclusion_lists.py pour ajouter :
- Noms de personnes de votre organisation à exclure
- Unités organisationnelles spécifiques
- Termes professionnels contextuels
Modifiez les confidence_thresholds dans analyzer/core.py :
confidence_thresholds = {
"emails": 0.7, # 70% minimum
"iban": 0.8, # 80% minimum
"names": 0.4, # 40% minimum
# ...
}RGPD Sentinel aide à la conformité aux articles :
- Article 4(1) : Identification des données personnelles
- Article 9 : Détection des catégories particulières
- Article 30 : Cartographie des données pour le registre
- Article 32 : Évaluation des risques de sécurité
- Vitesse : ~100-500 documents/minute (selon la taille)
- Mémoire : ~200MB pour le modèle NLP
- Précision : 85-95% selon le type de données
- Classification automatique de documents (CV, contrats, etc.)
- Modèle ML de détection contextuelle avancée
- Export des résultats (Excel, JSON, PDF)
- API REST pour intégration
- Support multi-langues (EN, ES, DE)
Les contributions sont les bienvenues ! Pour contribuer :
- Fork le projet
- Créez une branche (
git checkout -b feature/AmazingFeature) - Committez vos changements (
git commit -m 'Add AmazingFeature') - Push vers la branche (
git push origin feature/AmazingFeature) - Ouvrez une Pull Request
- 📧 Email : guillaume.gomes@ogfa.net
- 🐛 Issues : GitHub Issues
- 📖 Documentation : Wiki
Ce projet est distribué sous licence MIT. Voir le fichier LICENSE pour plus de détails.
- spaCy pour le traitement NLP
- Streamlit pour l'interface web
- La communauté open-source
Version : 2.0 Auteur : Guillaume Gomes (OGFA) Dernière mise à jour : 2026-02-09