Home Ciencia Así es como el aprendizaje automático puede violar su privacidad

Así es como el aprendizaje automático puede violar su privacidad

por Redacción BL
0 comentario

El aprendizaje automático ha traspasado los límites en varios campos, incluido Medicina personalizada, coches sin conductor y anuncios personalizados. Sin embargo, las investigaciones han demostrado que estos sistemas memorizan aspectos de los datos con los que fueron entrenados para aprender patrones, lo que genera preocupación por la privacidad.

En estadística y aprendizaje automático, el objetivo es aprender de datos pasados ​​para hacer nuevas predicciones o inferencias sobre datos futuros. Para lograr este objetivo, el estadístico o experto en aprendizaje automático selecciona un modelo para capturar los patrones sospechosos en los datos. Un modelo aplica una estructura simplificadora a los datos, lo que permite aprender patrones y hacer predicciones.

Los modelos complejos de aprendizaje automático tienen algunas ventajas y desventajas inherentes. En el lado positivo, pueden aprender patrones mucho más complejos y trabajar con conjuntos de datos más completos para tareas como reconocimiento de imagen y predecir cómo responderá una persona específica a un tratamiento.

Sin embargo, también tienen el riesgo de sobreajuste a los datos. Esto significa que hacen predicciones precisas sobre los datos con los que fueron entrenados, pero comienzan a aprender aspectos adicionales de los datos que no están directamente relacionados con la tarea en cuestión. Esto conduce a modelos que no están generalizados, lo que significa que funcionan mal con datos nuevos que son del mismo tipo pero no exactamente iguales que los datos de entrenamiento.

Si bien existen técnicas para abordar el error de predicción asociado con el sobreajuste, también existen preocupaciones sobre la privacidad al poder aprender tanto de los datos.

Cómo los algoritmos de aprendizaje automático hacen inferencias

Cada modelo tiene un número determinado de parámetros. Un parámetro es un elemento de un modelo que se puede cambiar. Cada parámetro tiene un valor o configuración que el modelo deriva de los datos de entrenamiento. Los parámetros pueden considerarse como los diferentes controles que se pueden girar para afectar el rendimiento del algoritmo. Mientras que un patrón de línea recta tiene sólo dos perillas, el pendiente e intersecciónlos modelos de aprendizaje automático tienen muchas parámetros. Por ejemplo, el modelo de lenguaje. GPT-3tiene 175 mil millones.

Para elegir los parámetros, los métodos de aprendizaje automático utilizan datos de entrenamiento con el objetivo de minimizar el error predictivo en los datos de entrenamiento. Por ejemplo, si el objetivo es predecir si una persona respondería bien a un determinado tratamiento médico en función de su historial médico, el modelo de aprendizaje automático haría predicciones sobre los datos donde los desarrolladores del modelo sabrían si alguien respondió bien o mal. El modelo es recompensado por las predicciones correctas y penalizado por las incorrectas, lo que lleva al algoritmo a ajustar sus parámetros (es decir, girar algunas de las “perillas”) y volver a intentarlo.

Para evitar el sobreajuste de los datos de entrenamiento, los modelos de aprendizaje automático se comparan con un conjunto de datos de validación también. El conjunto de datos de validación es un conjunto de datos separado que no se utiliza en el proceso de capacitación. Al verificar el rendimiento del modelo de aprendizaje automático en este conjunto de datos de validación, los desarrolladores pueden asegurarse de que el modelo sea capaz de generalizar su aprendizaje más allá de los datos de entrenamiento, evitando el sobreajuste.

Si bien este proceso logra garantizar un buen rendimiento del modelo de aprendizaje automático, no impide directamente que el modelo de aprendizaje automático memorice información en los datos de entrenamiento.

Preocupaciones sobre la privacidad

Debido a la gran cantidad de parámetros en los modelos de aprendizaje automático, existe la posibilidad de que el método de aprendizaje automático memoriza algunos datos en los que fue entrenado. De hecho, este es un fenómeno generalizado y los usuarios pueden extraer los datos memorizados del modelo de aprendizaje automático utilizando consultas adaptadas para obtener los datos.

Si los datos de entrenamiento contienen información confidencial, como datos médicos o genómicos, entonces la privacidad de las personas cuyos datos se utilizaron para entrenar el modelo podría verse comprometida. Investigaciones recientes demostraron que en realidad es necesario que los modelos de aprendizaje automático memoricen aspectos de los datos de entrenamiento para conseguir un rendimiento óptimo resolviendo determinados problemas. Esto indica que puede haber un equilibrio fundamental entre el rendimiento de un método de aprendizaje automático y la privacidad.

Los modelos de aprendizaje automático también permiten predecir información confidencial utilizando datos aparentemente no confidenciales. Por ejemplo, Target era capaz de predecir qué clientes probablemente estaban embarazadas analizando los hábitos de compra de los clientes que se registraron en el registro de bebés de Target. Una vez que el modelo fue entrenado en este conjunto de datos, pudo enviar anuncios relacionados con el embarazo a clientes que sospechaba que estaban embarazadas porque compraron artículos como suplementos o lociones sin perfume.

¿Es posible la protección de la privacidad?

Si bien se han propuesto muchos métodos para reducir la memorización en los métodos de aprendizaje automático, la mayoría se han propuesto. en gran medida ineficaz. Actualmente, la solución más prometedora a este problema es garantizar un límite matemático al riesgo de privacidad.

El método más moderno para la protección formal de la privacidad es privacidad diferencial. La privacidad diferencial requiere que un modelo de aprendizaje automático no cambie mucho si los datos de un individuo cambian en el conjunto de datos de entrenamiento. Los métodos de privacidad diferencial logran esta garantía al introducir aleatoriedad adicional en el aprendizaje del algoritmo que “encubre” la contribución de cualquier individuo en particular. Una vez que un método está protegido con privacidad diferencial, no es posible ningún ataque. puede violar esa garantía de privacidad.

Sin embargo, incluso si un modelo de aprendizaje automático se entrena utilizando privacidad diferencial, eso no impide que haga inferencias sensibles como en el ejemplo de Target. Para evitar estas violaciones de la privacidad, es necesario proteger todos los datos transmitidos a la organización. Este enfoque se llama privacidad diferencial localy Manzana y Google lo han implementado.

Debido a que la privacidad diferencial limita cuánto puede depender el modelo de aprendizaje automático de los datos de un individuo, esto impide la memorización. Desafortunadamente, también limita el rendimiento de los métodos de aprendizaje automático. Debido a esta compensación, existen críticas sobre la utilidad de la privacidad diferencial, ya que a menudo resulta en una importante caída en el rendimiento.

Avanzando

Debido a la tensión entre el aprendizaje inferencial y las preocupaciones por la privacidad, en última instancia existe una cuestión social sobre qué contexto es más importante y en qué contexto. Cuando los datos no contienen información confidencial, es fácil recomendar el uso de los métodos de aprendizaje automático más potentes disponibles.

Sin embargo, cuando se trabaja con datos confidenciales, es importante sopesar las consecuencias de las filtraciones de privacidad y puede ser necesario sacrificar parte del rendimiento del aprendizaje automático para proteger la privacidad de las personas cuyos datos entrenaron el modelo.

Este artículo se republica desde La conversaciónuna organización de noticias independiente y sin fines de lucro que le brinda datos y análisis para ayudarlo a comprender nuestro complejo mundo.

Fue escrito por: Jordan Awan, Universidad de Purdue.

Leer más:

Jordan Awan recibe financiación de la Fundación Nacional de Ciencias y el Instituto Nacional de Salud. También se desempeña como consultor de privacidad para la organización federal sin fines de lucro MITRE.

Fuente de la Noticia

You may also like

Leave a Comment

Noticias de Buenaventura y el mundo

2024 – All Right Reserved. [email protected]