Technology Spain , España, Wednesday, October 14 of 2020, 17:51

Cerca de 150 millones de sitios web, entre un billón a estudio, contienen contenidos sensibles (y rastreados)

La Ley sobre Privacidad está hecha para ser usada por humanos… ¿Cómo podemos enseñársela a las máquinas? Nikolaos Laoutaris, Profesor de Investigación en IMDEA Networks Institute, participa en el mayor estudio sobre rastreo de aspectos sensibles

IMDEA NETWORKS INSTITUTE/DICYT El Reglamento General de Protección de Datos incluye clausulas específicas que marcan restricciones a la captación y procesamiento de datos personales sensibles, definidos como cualquier dato que revele el origen racial o étnico, opiniones políticas, religiosas o creencias filosóficas y de pertenencia sindical, además de datos genéticos, datos biométricos con el propósito de identificar a una persona, datos relativos a la salud o a la vida y a la orientación sexuales…


Después de dos años de duro trabajo, y de haber cruzado datos de más de un billón de sitios web (la mayoría de la web en lengua inglesa) un equipo internacional, con Nikolaos Laoutaris (Profesor de Investigación en IMDEA Networks Institute, Madrid) e investigadores de TU Berlin y Cyprus University of Technology, han desarrollado clasificadores de aprendizaje de máquinas especializadas capaces de identificar urls sensibles en internet y así buscarlas entre un billón de ellas. Como principal (y preocupante) conclusión, cerca de 150 millones fueron detectadas por incluir contenido sensible sobre Salud, Creencias Políticas, orientación Sexual… etc., tan rastreables como las del resto de internet.


Detección en tiempo real


La legislación actual sobre datos personales sensibles está dirigida sobre todo al uso humano, como en los casos de presentación de denuncias y realización de investigaciones, incluso en el seguimiento de casos por tribunales de justicia. Con el uso de los nuevos clasificadores de aprendizaje de máquinas especializadas, se pueden poner por primera vez en práctica adicionales medidas proactivas. Por ejemplo, el navegador de un usuario, o un programa añadido que puede avisarle antes de ‘hacer clic’ y seguir urls que lleven a contenido sensible.


Al visitar este tipo de sitios, los rastreadores pueden quedar bloqueados, y las quejas pueden archivarse automáticamente. Algo que depende de poder clasificar automáticamente si una URL es sensible o no en tiempo real, algo que es más fácil decir que hacer. El motivo radica en la ambigüedad de términos como ‘Salud’, usado en documentos legales para indicar qué tipo de información se considera sensible. De hecho, la palabra se puede encontrar en sitios web como los relativos a alimentación saludable, deportes y comida orgánica, pero también en aquellos sobre enfermedades crónicas, enfermedades de transmisión sexual y cáncer. La mayor parte del esfuerzo para crear el sistema clasificador antes mencionado se centró en recopilar suficientes datos auténticos de verdad para entrenar al clasificador y permitirle distinguir entre el uso realmente sensible de palabras como ‘salud’ frente a otras menos sensibles.


Los resultados del trabajo se presentarán como documento científico en el ACM IMC’20 (ACM Internet Measurement Conference 2020, 27-29 October, Pittsburgh, EE.UU.). Laoutaris también participa en PIMCity (Construyendo las plataformas de datos personales de próxima generación), el proyecto con financiación de la Unión Europea para incrementar la transparencia y dotar a los usuarios con el control sobre sus datos. "La Privacidad se hizo para ser usada por humanos -comenta Laoutaris-, normalmente después de una violación de la privacidad -por ejemplo, en un proceso ilegal de tratamiento de esos datos-… pero ¿cómo podemos enseñar esto a las máquinas y hacer que nos protejan antes de que se produzcan violaciones de la privacidad?". El equipo está trabajando para ofrecer esta solución tecnológica al usuario durante 2021.


"Rastrear a la gente -señala el investigador- cuando visitan sitios web con contenido perteneciente a las categorías sensibles de la RGPD es el auténtico ‘elefante en la habitación’ de la privacidad. A mucha gente no le importa ser rastreada por asuntos que consideran inocentes, pero probablemente se alarmarían al saber que sus visitas a sitios web sensibles también se registran y se divulgan a terceros. Nuestro estudio es, con diferencia, el mayor sobre asuntos sensibles en la web. Muestra que una considerable parte de ella incluye contenidos de ese carácter. Desafortunadamente, este tipo de páginas aparecen rastreadas de la misma forma que las del resto de las presentes en internet".

 

 

 

Sobre Nikolaos Laoutaris
Profesor de investigación en IMDEA Networks desde diciembre de 2018. Laoutaris es doctor en Ciencias de la Computación por la Universidad de Atenas (Grecia) y ha sido investigador en las universidades de Harvard y Boston. Sus áreas de investigación están centradas en la privacidad, la transparencia y la protección de datos; la economía de redes e información; el transporte inteligente; los sistemas distribuidos y los protocolos y mediciones de redes.