Cuándo confiar en un modelo de IA

Debido a que los modelos de aprendizaje automático pueden dar predicciones falsas, los investigadores suelen equiparlos con la capacidad de indicarle al usuario qué tan seguro está de una determinada decisión. Esto es especialmente importante en entornos de alto riesgo, como cuando se utilizan modelos para ayudar a identificar enfermedades en imágenes médicas o filtrar aplicaciones laborales.

Pero las cuantificaciones de incertidumbre de un modelo solo son útiles si son precisas. Si un modelo dice que tiene un 49 % de confianza en que una imagen médica muestra un derrame pleural, entonces el 49 % de las veces el modelo debería estar en lo cierto.

Los investigadores del MIT han presentado un nuevo enfoque que puede mejorar las estimaciones de incertidumbre en los modelos de aprendizaje automático. Su método no solo genera estimaciones de incertidumbre más precisas que otras técnicas, sino que lo hace de manera más eficiente.

Además, como la técnica es escalable, se puede aplicar a enormes modelos de aprendizaje profundo que se utilizan cada vez más en la atención médica y otras situaciones críticas para la seguridad.

Esta técnica podría brindar a los usuarios finales, muchos de los cuales carecen de experiencia en aprendizaje automático, mejor información que pueden usar para determinar si confiar en las predicciones de un modelo o si el modelo debe implementarse para una tarea particular.

“Es fácil ver que estos modelos funcionan muy bien en escenarios en los que son muy buenos y luego suponer que serán igual de buenos en otros escenarios. Esto hace que sea especialmente importante impulsar este tipo de trabajo que busca calibrar mejor la incertidumbre de estos modelos para asegurarse de que se alineen con las nociones humanas de incertidumbre”, dice el autor principal Nathan Ng, un estudiante de posgrado de la Universidad de Toronto que es estudiante visitante en el MIT.

Ng escribió el artículo junto con Roger Grosse, profesor adjunto de informática en la Universidad de Toronto, y la autora principal Marzyeh Ghassemi, profesora asociada del Departamento de Ingeniería Eléctrica y Ciencias de la Computación y miembro del Instituto de Ciencias de la Ingeniería Médica y del Laboratorio de Sistemas de Información y Decisión. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Cuantificación de la incertidumbre

Los métodos de cuantificación de la incertidumbre suelen requerir cálculos estadísticos complejos que no se adaptan bien a los modelos de aprendizaje automático con millones de parámetros. Estos métodos también requieren que los usuarios hagan suposiciones sobre el modelo y los datos utilizados para entrenarlo.

Los investigadores del MIT adoptaron un enfoque diferente. Utilizaron lo que se conoce como el principio de longitud mínima de descripción (MDL), que no requiere suposiciones que pueden obstaculizar la precisión de otros métodos. El MDL se utiliza para cuantificar y calibrar mejor la incertidumbre de los puntos de prueba que se le ha pedido al modelo que etiquete.

La técnica desarrollada por los investigadores, conocida como IF-COMP, hace que MDL sea lo suficientemente rápido para usarse con los tipos de grandes modelos de aprendizaje profundo implementados en muchos entornos del mundo real.

El modelo MDL implica considerar todas las etiquetas posibles que un modelo podría asignar a un punto de prueba. Si existen muchas etiquetas alternativas para este punto que se ajusten bien, su confianza en la etiqueta elegida debería disminuir en consecuencia.

“Una forma de entender qué tan seguro es un modelo sería brindarle información contrafáctica y ver qué probabilidad hay de que nos crea”, dice Ng.

Por ejemplo, supongamos que un modelo dice que una imagen médica muestra un derrame pleural. Si los investigadores le dicen al modelo que esta imagen muestra un edema y este está dispuesto a actualizar su opinión, entonces el modelo debería tener menos confianza en su decisión original.

Con MDL, si un modelo está seguro de etiquetar un punto de datos, debe utilizar un código muy breve para describir ese punto. Si no está seguro de su decisión porque el punto podría tener muchas otras etiquetas, utiliza un código más largo para capturar estas posibilidades.

La cantidad de código que se utiliza para etiquetar un punto de datos se conoce como complejidad de datos estocástica. Si los investigadores preguntan al modelo qué tan dispuesto está a actualizar su creencia sobre un punto de datos dada la evidencia contraria, la complejidad de los datos estocásticos debería disminuir si el modelo tiene confianza.

Pero probar cada punto de datos utilizando MDL requeriría una enorme cantidad de cálculos.

Acelerando el proceso

Con IF-COMP, los investigadores desarrollaron una técnica de aproximación que puede estimar con precisión la complejidad de los datos estocásticos utilizando una función especial, conocida como función de influencia. También emplearon una técnica estadística llamada escala de temperatura, que mejora la calibración de los resultados del modelo. Esta combinación de funciones de influencia y escala de temperatura permite aproximaciones de alta calidad de la complejidad de los datos estocásticos.

En definitiva, IF-COMP puede producir cuantificaciones de incertidumbre bien calibradas que reflejen la confianza real de un modelo. La técnica también puede determinar si el modelo ha etiquetado incorrectamente ciertos puntos de datos o revelar qué puntos de datos son valores atípicos.

Los investigadores probaron su sistema en estas tres tareas y descubrieron que era más rápido y más preciso que otros métodos.

“Es muy importante tener cierta certeza de que un modelo está bien calibrado, y existe una creciente necesidad de detectar cuándo una predicción específica no parece del todo correcta. Las herramientas de auditoría se están volviendo más necesarias en los problemas de aprendizaje automático, ya que utilizamos grandes cantidades de datos no examinados para crear modelos que se aplicarán a problemas que enfrentan los humanos”, dice Ghassemi.

IF-COMP es independiente del modelo, por lo que puede proporcionar cuantificaciones precisas de la incertidumbre para muchos tipos de modelos de aprendizaje automático. Esto podría permitir su implementación en una gama más amplia de entornos del mundo real, lo que en última instancia ayudaría a más profesionales a tomar mejores decisiones.

“La gente tiene que entender que estos sistemas son muy falibles y pueden inventar cosas sobre la marcha. Un modelo puede parecer muy confiable, pero hay un montón de cosas diferentes que está dispuesto a creer si hay evidencia de lo contrario”, dice Ng.

En el futuro, los investigadores están interesados ​​en aplicar su enfoque a modelos de lenguaje grandes y estudiar otros casos de uso potenciales para el principio de longitud mínima de descripción.

Fuente de la Noticia

Related posts

La lluvia de meteoros de las Perseidas, una de las más espectaculares del año, está en marcha

Una nueva investigación demuestra el potencial para aumentar la eficacia de los medicamentos populares para la diabetes y la pérdida de peso

Estudio: Para los pequeños vendedores, a veces vale la pena vender a Amazon, y a veces no