Anonimizador de Texto
Anonimizar datos sensibles en texto
Modo de anonimización
Detección PII
Expresión personalizada
Probar tu regex → open_in_newLa anonimizacion de texto detecta y enmascara PII (correos, telefonos, IBANs, tarjetas de credito, IPs) para proteger la privacidad y cumplir con el GDPR.
Que es la anonimizacion de texto?
La anonimizacion de texto es el proceso de detectar y eliminar o enmascarar informacion de identificacion personal (PII) en datos de texto. El objetivo es hacer imposible identificar a individuos especificos a partir del texto procesado, preservando al mismo tiempo la utilidad del texto para analisis, intercambio o publicacion.
La PII incluye cualquier informacion que pueda identificar directa o indirectamente a una persona: nombres, direcciones de correo electronico, numeros de telefono, numeros de cuentas bancarias (IBANs), numeros de tarjetas de credito, direcciones IP, numeros de seguridad social y direcciones fisicas. Incluso datos aparentemente inofensivos pueden convertirse en PII al combinarse: una fecha de nacimiento, un codigo postal y el genero pueden identificar de forma unica al 87% de la poblacion de EE. UU.
La anonimizacion es distinta del cifrado. Los datos cifrados pueden revertirse con la clave correcta. Los datos anonimizados se transforman permanentemente: la PII original se reemplaza o elimina, y no existe una clave para recuperarla.
Anonimizacion vs seudonimizacion
Estos terminos se confunden frecuentemente, pero la distincion tiene implicaciones legales significativas bajo el GDPR:
La anonimizacion elimina de forma irreversible el vinculo entre los datos y el individuo. Nadie, ni siquiera el responsable del tratamiento de datos, puede reidentificar a la persona. Los datos anonimizados ya no son datos personales segun el GDPR.
La seudonimizacion reemplaza la informacion identificativa con identificadores artificiales (seudonimos) manteniendo una tabla de correspondencia. Los datos pueden reidentificarse por alguien con acceso a la tabla. Los datos seudonimizados siguen siendo datos personales segun el GDPR.
| Aspecto | Anonimizacion | Seudonimizacion |
|---|---|---|
| Reversible | No | Si (con tabla de correspondencia) |
| Estado en el GDPR | No son datos personales | Siguen siendo datos personales |
| Utilidad de los datos | Menor (se pierde informacion) | Mayor (se preserva la estructura) |
| Riesgo | Sin reidentificacion | Reidentificacion posible |
| Caso de uso | Datasets publicos, investigacion | Procesamiento interno, analitica |
En la practica, la verdadera anonimizacion es dificil de lograr. Investigadores han demostrado repetidamente que datasets supuestamente anonimizados pueden ser reidentificados mediante el cruce con otras fuentes de datos.
Metodos de deteccion de PII
Los anonimizadores de texto utilizan varias tecnicas para identificar PII en texto no estructurado:
| Tipo de PII | Metodo de deteccion | Formato de mascara | Ejemplo |
|---|---|---|---|
Regex: [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} | [EMAIL] | john@example.com | |
| Telefono | Regex: patrones internacionales con codigos de pais | [PHONE] | +33 6 12 34 56 78 |
| IBAN | Regex + validacion MOD-97 | [IBAN] | FR7630006000011234567890189 |
| Tarjeta de credito | Regex + suma de verificacion Luhn | [CREDIT_CARD] | 4111 1111 1111 1111 |
| IPv4 | Regex: \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} | [IP] | 192.168.1.1 |
| IPv6 | Regex: grupos hexadecimales con dos puntos | [IP] | 2001:db8::1 |
Mas alla del regex: reconocimiento de entidades nombradas
Para nombres, direcciones y otros tipos de PII en texto libre, el regex por si solo es insuficiente. Las herramientas avanzadas de anonimizacion utilizan NER (Named Entity Recognition), modelos de aprendizaje automatico entrenados para identificar entidades como nombres de personas, organizaciones y ubicaciones en texto.
Los modelos NER (spaCy, Presidio, transformers de Hugging Face) pueden detectar PII que no sigue un patron fijo, como “Dr. Sarah Chen” o “42 Rue de Rivoli, Paris”, pero requieren mas recursos computacionales y pueden producir falsos positivos (marcando “Paris” como PII cuando se refiere a la ciudad, no a una persona).
Las herramientas de anonimizacion del lado del cliente generalmente dependen de patrones regex por rendimiento y privacidad. Para maxima cobertura, combine la deteccion automatizada con revision manual.
Requisitos del GDPR y CCPA
Dos regulaciones principales impulsan la demanda de anonimizacion de texto:
El GDPR (Reglamento General de Proteccion de Datos, UE, 2018) requiere una base legal para procesar datos personales, otorga a los individuos derechos sobre sus datos (acceso, eliminacion, portabilidad) e impone penalizaciones severas por incumplimiento. La anonimizacion es una estrategia clave para el cumplimiento del GDPR: una vez que los datos estan verdaderamente anonimizados, ya no estan bajo la jurisdiccion del GDPR.
La CCPA (Ley de Privacidad del Consumidor de California, 2020) otorga a los residentes de California derechos sobre su informacion personal, incluyendo el derecho a saber que datos se recopilan, el derecho a eliminarlos y el derecho a optar por no participar en su venta. Al igual que el GDPR, los datos anonimizados estan exentos.
Ambas regulaciones enfatizan que la anonimizacion debe ser irreversible. Si existe algun medio razonable de reidentificar a los sujetos de datos, los datos estan seudonimizados, no anonimizados, y permanecen sujetos a la regulacion.
Casos de uso comunes
- Compartir logs y tickets: Anonimizar tickets de soporte, logs de errores e informes de bugs antes de compartirlos con proveedores externos o publicarlos en foros publicos
- Generacion de datos de prueba: Enmascarar PII en datos de produccion para crear datasets de prueba realistas pero seguros para entornos de desarrollo y QA
- Investigacion y analitica: Anonimizar comentarios de clientes, respuestas de encuestas y registros de transacciones para analisis agregado sin preocupaciones de privacidad
- Cumplimiento regulatorio: Demostrar el cumplimiento del GDPR/CCPA mostrando que los datos compartidos o publicados no contienen PII
- Seguridad en prompts de LLM: Eliminar PII del texto antes de enviarlo a modelos de IA externos para evitar que datos personales entren en datasets de entrenamiento
Prueba estos ejemplos
Este texto contiene cuatro tipos de PII: una direccion de correo electronico, un numero de telefono, un IBAN y una direccion IP. El anonimizador detecta y enmascara cada uno, produciendo: 'Contact John at [EMAIL] or [PHONE]. IBAN: [IBAN]. IP: [IP]'.
Contact John at john.doe@example.com or +33 6 12 34 56 78. IBAN: FR7630006000011234567890189. IP: 192.168.1.42 Este texto no contiene informacion de identificacion personal. El anonimizador lo devuelve sin cambios. Numeros como '15%' no se marcan porque no coinciden con patrones de PII.
The quarterly report shows a 15% increase in revenue compared to last year.