Anonimizador de Texto

Anonimizar datos sensibles en texto

Modo Seguro (Local)

Modo de anonimización

Detección PII

Expresión personalizada

Probar tu regex → open_in_new
Texto original
Texto anonimizado
Entendiendo Anonimizacion de texto
TL;DR

La anonimizacion de texto detecta y enmascara PII (correos, telefonos, IBANs, tarjetas de credito, IPs) para proteger la privacidad y cumplir con el GDPR.

Que es la anonimizacion de texto?

La anonimizacion de texto es el proceso de detectar y eliminar o enmascarar informacion de identificacion personal (PII) en datos de texto. El objetivo es hacer imposible identificar a individuos especificos a partir del texto procesado, preservando al mismo tiempo la utilidad del texto para analisis, intercambio o publicacion.

La PII incluye cualquier informacion que pueda identificar directa o indirectamente a una persona: nombres, direcciones de correo electronico, numeros de telefono, numeros de cuentas bancarias (IBANs), numeros de tarjetas de credito, direcciones IP, numeros de seguridad social y direcciones fisicas. Incluso datos aparentemente inofensivos pueden convertirse en PII al combinarse: una fecha de nacimiento, un codigo postal y el genero pueden identificar de forma unica al 87% de la poblacion de EE. UU.

La anonimizacion es distinta del cifrado. Los datos cifrados pueden revertirse con la clave correcta. Los datos anonimizados se transforman permanentemente: la PII original se reemplaza o elimina, y no existe una clave para recuperarla.

Anonimizacion vs seudonimizacion

Estos terminos se confunden frecuentemente, pero la distincion tiene implicaciones legales significativas bajo el GDPR:

La anonimizacion elimina de forma irreversible el vinculo entre los datos y el individuo. Nadie, ni siquiera el responsable del tratamiento de datos, puede reidentificar a la persona. Los datos anonimizados ya no son datos personales segun el GDPR.

La seudonimizacion reemplaza la informacion identificativa con identificadores artificiales (seudonimos) manteniendo una tabla de correspondencia. Los datos pueden reidentificarse por alguien con acceso a la tabla. Los datos seudonimizados siguen siendo datos personales segun el GDPR.

AspectoAnonimizacionSeudonimizacion
ReversibleNoSi (con tabla de correspondencia)
Estado en el GDPRNo son datos personalesSiguen siendo datos personales
Utilidad de los datosMenor (se pierde informacion)Mayor (se preserva la estructura)
RiesgoSin reidentificacionReidentificacion posible
Caso de usoDatasets publicos, investigacionProcesamiento interno, analitica

En la practica, la verdadera anonimizacion es dificil de lograr. Investigadores han demostrado repetidamente que datasets supuestamente anonimizados pueden ser reidentificados mediante el cruce con otras fuentes de datos.

Metodos de deteccion de PII

Los anonimizadores de texto utilizan varias tecnicas para identificar PII en texto no estructurado:

Tipo de PIIMetodo de deteccionFormato de mascaraEjemplo
EmailRegex: [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}[EMAIL]john@example.com
TelefonoRegex: patrones internacionales con codigos de pais[PHONE]+33 6 12 34 56 78
IBANRegex + validacion MOD-97[IBAN]FR7630006000011234567890189
Tarjeta de creditoRegex + suma de verificacion Luhn[CREDIT_CARD]4111 1111 1111 1111
IPv4Regex: \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}[IP]192.168.1.1
IPv6Regex: grupos hexadecimales con dos puntos[IP]2001:db8::1
PII Detection and Masking Pipeline A flow diagram showing raw text input on the left passing through a pattern matching engine that highlights detected PII entities, then producing masked output on the right. Input Contact us at john@example.com or call +33 6 12 34 56 78 IBAN: FR76...0189 Pattern Matching Email regex MATCH Phone regex MATCH IBAN regex MATCH Credit card NONE Masked Output Contact us at [EMAIL] or call [PHONE] IBAN: [IBAN] All processing happens client-side. Your data never leaves your browser. PII is detected by regex patterns and replaced with type-specific placeholders.

Mas alla del regex: reconocimiento de entidades nombradas

Para nombres, direcciones y otros tipos de PII en texto libre, el regex por si solo es insuficiente. Las herramientas avanzadas de anonimizacion utilizan NER (Named Entity Recognition), modelos de aprendizaje automatico entrenados para identificar entidades como nombres de personas, organizaciones y ubicaciones en texto.

Los modelos NER (spaCy, Presidio, transformers de Hugging Face) pueden detectar PII que no sigue un patron fijo, como “Dr. Sarah Chen” o “42 Rue de Rivoli, Paris”, pero requieren mas recursos computacionales y pueden producir falsos positivos (marcando “Paris” como PII cuando se refiere a la ciudad, no a una persona).

Las herramientas de anonimizacion del lado del cliente generalmente dependen de patrones regex por rendimiento y privacidad. Para maxima cobertura, combine la deteccion automatizada con revision manual.

Requisitos del GDPR y CCPA

Dos regulaciones principales impulsan la demanda de anonimizacion de texto:

El GDPR (Reglamento General de Proteccion de Datos, UE, 2018) requiere una base legal para procesar datos personales, otorga a los individuos derechos sobre sus datos (acceso, eliminacion, portabilidad) e impone penalizaciones severas por incumplimiento. La anonimizacion es una estrategia clave para el cumplimiento del GDPR: una vez que los datos estan verdaderamente anonimizados, ya no estan bajo la jurisdiccion del GDPR.

La CCPA (Ley de Privacidad del Consumidor de California, 2020) otorga a los residentes de California derechos sobre su informacion personal, incluyendo el derecho a saber que datos se recopilan, el derecho a eliminarlos y el derecho a optar por no participar en su venta. Al igual que el GDPR, los datos anonimizados estan exentos.

Ambas regulaciones enfatizan que la anonimizacion debe ser irreversible. Si existe algun medio razonable de reidentificar a los sujetos de datos, los datos estan seudonimizados, no anonimizados, y permanecen sujetos a la regulacion.

Casos de uso comunes

  • Compartir logs y tickets: Anonimizar tickets de soporte, logs de errores e informes de bugs antes de compartirlos con proveedores externos o publicarlos en foros publicos
  • Generacion de datos de prueba: Enmascarar PII en datos de produccion para crear datasets de prueba realistas pero seguros para entornos de desarrollo y QA
  • Investigacion y analitica: Anonimizar comentarios de clientes, respuestas de encuestas y registros de transacciones para analisis agregado sin preocupaciones de privacidad
  • Cumplimiento regulatorio: Demostrar el cumplimiento del GDPR/CCPA mostrando que los datos compartidos o publicados no contienen PII
  • Seguridad en prompts de LLM: Eliminar PII del texto antes de enviarlo a modelos de IA externos para evitar que datos personales entren en datasets de entrenamiento

Prueba estos ejemplos

Texto con multiples tipos de PII Válido

Este texto contiene cuatro tipos de PII: una direccion de correo electronico, un numero de telefono, un IBAN y una direccion IP. El anonimizador detecta y enmascara cada uno, produciendo: 'Contact John at [EMAIL] or [PHONE]. IBAN: [IBAN]. IP: [IP]'.

Contact John at john.doe@example.com or +33 6 12 34 56 78. IBAN: FR7630006000011234567890189. IP: 192.168.1.42
Texto sin PII Válido

Este texto no contiene informacion de identificacion personal. El anonimizador lo devuelve sin cambios. Numeros como '15%' no se marcan porque no coinciden con patrones de PII.

The quarterly report shows a 15% increase in revenue compared to last year.