La experiencia visual de los niños puede ser clave para un mejor entrenamiento de la visión por computadora

Según una investigación de un equipo interdisciplinario de Estado de Pensilvania.

En los dos primeros años de vida, los niños experimentan un conjunto algo limitado de objetos y rostros, pero con muchos puntos de vista diferentes y bajo diferentes condiciones de iluminación. Inspirándose en esta idea del desarrollo, los investigadores introdujeron un nuevo enfoque de aprendizaje automático que utiliza información sobre la posición espacial para entrenar sistemas visuales de IA de manera más eficiente. Descubrieron que los modelos de IA entrenados con el nuevo método superaban a los modelos base hasta en un 14,99%. Informaron sus hallazgos en la edición de mayo de la revista Patterns.

«Los enfoques actuales en IA utilizan conjuntos masivos de fotografías aleatorias de Internet para el entrenamiento. Por el contrario, nuestra estrategia se basa en la psicología del desarrollo, que estudia cómo los niños perciben el mundo», dijo Lizhen Zhu, autora principal y candidata a doctorado en el Facultad de Ciencias y Tecnología de la Información de Penn State.

Los investigadores desarrollaron un nuevo algoritmo de aprendizaje contrastivo, que es un tipo de método de aprendizaje autosupervisado en el que un sistema de inteligencia artificial aprende a detectar patrones visuales para identificar cuándo dos imágenes son derivaciones de la misma imagen base, lo que da como resultado un par positivo. Sin embargo, estos algoritmos suelen tratar imágenes del mismo objeto tomadas desde diferentes perspectivas como entidades separadas en lugar de pares positivos. Según los investigadores, tener en cuenta los datos ambientales, incluida la ubicación, permite que el sistema de inteligencia artificial supere estos desafíos y detecte pares positivos independientemente de los cambios en la posición o rotación de la cámara, el ángulo o condición de iluminación y la distancia focal o el zoom.

«Nuestra hipótesis es que el aprendizaje visual de los bebés depende de la percepción de la ubicación. Para generar un conjunto de datos egocéntrico con información espaciotemporal, configuramos entornos virtuales en la plataforma ThreeDWorld, que es un entorno de simulación física 3D interactivo de alta fidelidad. Esto permitió manipular y medir la ubicación de las cámaras de visualización como si un niño estuviera caminando por una casa», añadió Zhu.

Los científicos crearon tres entornos de simulación: House14K, House100K y Apartment14K, donde ’14K’ y ‘100K’ se refieren al número aproximado de imágenes de muestra tomadas en cada entorno. Luego ejecutaron modelos de aprendizaje contrastivo base y modelos con el nuevo algoritmo a través de las simulaciones tres veces para ver qué tan bien clasificaban cada una de las imágenes. El equipo descubrió que los modelos entrenados con su algoritmo superaron a los modelos base en una variedad de tareas. Por ejemplo, en una tarea de reconocer la habitación en el apartamento virtual, el modelo aumentado tuvo un rendimiento promedio del 99,35 %, una mejora del 14,99 % con respecto al modelo base. Estos nuevos conjuntos de datos están disponibles para que otros científicos los utilicen en la capacitación a través de www.child-view.com.

«Siempre es difícil para los modelos aprender en un entorno nuevo con una pequeña cantidad de datos. Nuestro trabajo representa uno de los primeros intentos de un entrenamiento de IA más flexible y con mayor eficiencia energética utilizando contenido visual», afirmó James Wang, distinguido profesor de ciencias de la información. y tecnología y asesor de Zhu.

Según los científicos, la investigación tiene implicaciones para el desarrollo futuro de sistemas avanzados de inteligencia artificial destinados a navegar y aprender de nuevos entornos.

«Este enfoque sería particularmente beneficioso en situaciones en las que un equipo de robots autónomos con recursos limitados necesita aprender a navegar en un entorno completamente desconocido», dijo Wang. «Para allanar el camino para futuras aplicaciones, planeamos perfeccionar nuestro modelo para aprovechar mejor la información espacial e incorporar entornos más diversos».

Colaboradores del Departamento de Psicología y del Departamento de Ingeniería y Ciencias de la Computación de Penn State también contribuyeron a este estudio. Este trabajo fue apoyado por la Fundación Nacional de Ciencias de EE. UU., así como por el Instituto de Ciencias Computacionales y de Datos de Penn State.

Fuente de la Noticia

Related posts

Un equipo de investigación desarrolla un método para diseñar opioides más seguros

Este magnífico set de obras de arte LEGO cuesta menos de $40 en el Prime Day de Amazon

¿Ha aparecido en la playa una de las ballenas más raras del mundo? Los científicos se esfuerzan por averiguarlo