Anonymiseur Texte

Anonymiser les données sensibles dans le texte

Mode Sécurisé (Local)

Mode d'anonymisation

Détection PII

Expression personnalisée

Tester votre regex → open_in_new
Texte original
Texte anonymisé
Comprendre Anonymisation de texte
TL;DR

L'anonymisation de texte detecte et masque les donnees personnelles (PII) — emails, numeros de telephone, IBAN, cartes bancaires, adresses IP — pour proteger la vie privee et se conformer au RGPD.

Qu’est-ce que l’anonymisation de texte ?

L’anonymisation de texte est le processus de detection et de suppression ou de masquage des donnees personnelles identifiables (PII) dans des donnees textuelles. L’objectif est de rendre impossible l’identification de personnes specifiques a partir du texte traite, tout en preservant l’utilite du texte pour l’analyse, le partage ou la publication.

Les donnees personnelles incluent toute information pouvant identifier directement ou indirectement une personne : noms, adresses email, numeros de telephone, numeros de comptes bancaires (IBAN), numeros de cartes bancaires, adresses IP, numeros de securite sociale et adresses physiques. Meme des donnees apparemment anodines peuvent devenir des donnees personnelles lorsqu’elles sont combinees — une date de naissance, un code postal et un genre peuvent identifier de maniere unique 87 % de la population americaine.

L’anonymisation est distincte du chiffrement. Les donnees chiffrees peuvent etre inversees avec la bonne cle. Les donnees anonymisees sont transformees de maniere permanente — les donnees personnelles d’origine sont remplacees ou supprimees, et il n’existe aucune cle pour les recuperer.

Anonymisation vs pseudonymisation

Ces termes sont souvent confondus, mais la distinction a des implications juridiques significatives au regard du RGPD :

L’anonymisation supprime de maniere irreversible le lien entre les donnees et l’individu. Personne — pas meme le responsable du traitement — ne peut re-identifier la personne. Les donnees anonymisees ne sont plus des donnees personnelles au sens du RGPD.

La pseudonymisation remplace les informations d’identification par des identifiants artificiels (pseudonymes) tout en conservant une table de correspondance. Les donnees peuvent etre re-identifiees par quiconque ayant acces a la correspondance. Les donnees pseudonymisees restent des donnees personnelles au sens du RGPD.

AspectAnonymisationPseudonymisation
ReversibleNonOui (avec la correspondance)
Statut RGPDPlus des donnees personnellesToujours des donnees personnelles
Utilite des donneesPlus faible (perte d’information)Plus elevee (structure preservee)
RisquePas de re-identificationRe-identification possible
Cas d’usageJeux de donnees publics, rechercheTraitement interne, analytique

En pratique, une veritable anonymisation est difficile a atteindre. Des chercheurs ont demontre a plusieurs reprises que des jeux de donnees pretendument anonymises peuvent etre re-identifies par croisement avec d’autres sources de donnees.

Methodes de detection des donnees personnelles

Les anonymiseurs de texte utilisent plusieurs techniques pour identifier les donnees personnelles dans du texte non structure :

Type de PIIMethode de detectionFormat du masqueExemple
EmailRegex : [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}[EMAIL]john@example.com
TelephoneRegex : motifs internationaux avec indicatifs pays[PHONE]+33 6 12 34 56 78
IBANRegex + validation MOD-97[IBAN]FR7630006000011234567890189
Carte bancaireRegex + somme de controle Luhn[CREDIT_CARD]4111 1111 1111 1111
IPv4Regex : \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}[IP]192.168.1.1
IPv6Regex : groupes hexadecimaux avec deux-points[IP]2001:db8::1
PII Detection and Masking Pipeline A flow diagram showing raw text input on the left passing through a pattern matching engine that highlights detected PII entities, then producing masked output on the right. Input Contact us at john@example.com or call +33 6 12 34 56 78 IBAN: FR76...0189 Pattern Matching Email regex MATCH Phone regex MATCH IBAN regex MATCH Credit card NONE Masked Output Contact us at [EMAIL] or call [PHONE] IBAN: [IBAN] All processing happens client-side. Your data never leaves your browser. PII is detected by regex patterns and replaced with type-specific placeholders.

Au-dela des regex : la reconnaissance d’entites nommees

Pour les noms, adresses et autres donnees personnelles en texte libre, les regex seules sont insuffisantes. Les outils d’anonymisation avances utilisent le NER (Named Entity Recognition) — des modeles d’apprentissage automatique entraines a identifier des entites comme les noms de personnes, les organisations et les lieux dans du texte.

Les modeles NER (spaCy, Presidio, Hugging Face transformers) peuvent detecter des donnees personnelles qui ne suivent aucun motif fixe — « Dr. Sarah Chen » ou « 42 Rue de Rivoli, Paris » — mais ils necessitent davantage de ressources de calcul et peuvent produire des faux positifs (signaler « Paris » comme donnee personnelle alors qu’il s’agit de la ville, pas d’une personne).

Les outils d’anonymisation cote client s’appuient generalement sur des motifs regex pour des raisons de performance et de confidentialite. Pour une couverture maximale, combinez la detection automatisee avec une verification manuelle.

Exigences RGPD et CCPA

Deux reglementations majeures stimulent la demande d’anonymisation de texte :

Le RGPD (Reglement General sur la Protection des Donnees, UE, 2018) exige une base legale pour le traitement des donnees personnelles, accorde aux individus des droits sur leurs donnees (acces, effacement, portabilite) et impose des sanctions severes en cas de non-conformite. L’anonymisation est une strategie cle pour la conformite au RGPD — une fois les donnees veritablement anonymisees, elles ne relevent plus de la juridiction du RGPD.

Le CCPA (California Consumer Privacy Act, 2020) accorde aux residents de Californie des droits sur leurs informations personnelles, notamment le droit de savoir quelles donnees sont collectees, le droit de les supprimer et le droit de refuser leur vente. Comme le RGPD, les donnees anonymisees sont exemptees.

Les deux reglementations soulignent que l’anonymisation doit etre irreversible. S’il existe un moyen raisonnable de re-identifier les personnes concernees, les donnees sont pseudonymisees, pas anonymisees, et restent soumises a la reglementation.

Cas d’usage courants

  • Partage de journaux et tickets : Anonymiser les tickets de support, les journaux d’erreurs et les rapports de bugs avant de les partager avec des prestataires externes ou de les publier sur des forums publics
  • Generation de donnees de test : Masquer les donnees personnelles dans les donnees de production pour creer des jeux de donnees de test realistes mais securises pour les environnements de developpement et de QA
  • Recherche et analytique : Anonymiser les retours clients, les reponses aux enquetes et les enregistrements de transactions pour une analyse agregee sans problemes de confidentialite
  • Conformite reglementaire : Demontrer la conformite RGPD/CCPA en prouvant que les donnees partagees ou publiees ne contiennent aucune donnee personnelle
  • Securite des prompts LLM : Supprimer les donnees personnelles du texte avant de l’envoyer a des modeles d’IA externes pour empecher les donnees personnelles d’entrer dans les jeux de donnees d’entrainement

Essayez ces exemples

Texte avec plusieurs types de donnees personnelles Valide

Ce texte contient quatre types de donnees personnelles : une adresse email, un numero de telephone, un IBAN et une adresse IP. L'anonymiseur detecte et masque chacun d'entre eux, produisant : 'Contact John at [EMAIL] or [PHONE]. IBAN: [IBAN]. IP: [IP]'.

Contact John at john.doe@example.com or +33 6 12 34 56 78. IBAN: FR7630006000011234567890189. IP: 192.168.1.42
Texte sans donnees personnelles Valide

Ce texte ne contient aucune donnee personnelle identifiable. L'anonymiseur le renvoie sans modification. Les nombres comme '15%' ne sont pas signales car ils ne correspondent pas aux modeles de donnees personnelles.

The quarterly report shows a 15% increase in revenue compared to last year.