gafas inteligentes podría decirse que no han logrado despegarpero la adición de inteligencia artificial (IA) podría ser la clave para desarrollar una tecnología portátil verdaderamente transformadora.
En EE. UU. y Canadá, las gafas inteligentes Ray-Ban Meta han recibido un despliegue de tecnología de IA multimodal con un software llamado «asistente virtual Meta AI». Con IA multimodal, es decir, IA generativa que puede procesar consultas que involucran más de un medio (por ejemplo, audio e imágenes), el dispositivo puede responder mejor a las consultas basadas en lo que mira el usuario.
«Supongamos que está viajando e intenta leer un menú en francés. Sus gafas inteligentes pueden usar su cámara incorporada y Meta AI para traducir el texto, brindándole la información que necesita sin tener que sacar su teléfono o mirar fijamente. en una pantalla», explicaron los representantes de Meta el 23 de abril en un declaración.
Relacionado: Las gafas inteligentes podrían aumentar la privacidad al cambiar las cámaras por esta tecnología de 100 años
El dispositivo primero toma una fotografía de lo que está mirando el usuario, luego la IA aprovecha el procesamiento basado en la nube para ofrecer una respuesta a una pregunta, expresada en forma de voz, como «¿qué tipo de planta estoy mirando?»
Meta exploró por primera vez la integración de IA multimodal en las gafas inteligentes Ray-Ban Meta en un lanzamiento limitado en diciembre 2023.
Al probar la funcionalidad de IA en este dispositivo, un reportero de El borde descubrió que en su mayoría respondía correctamente cuando se le pedía que identificara el modelo de un automóvil. También podría describir un tipo de gato, por ejemplo, y sus características en una imagen tomada con la cámara. Pero la IA tuvo problemas para identificar con precisión las especies de plantas que pertenecían a un periodista y tuvo problemas para identificar correctamente una marmota en el patio trasero de su vecino.
Maquinaciones multimodales
Los asistentes virtuales impulsados por IA no son nada nuevo, como el Asistente de Google, Alexa de Amazon y Siri de Apple que brindan respuestas inteligentes a consultas en lenguaje natural. Pero el quid de la Meta AI en las gafas inteligentes Ray-Ban es su funcionalidad multimodal.
La capacidad de fusionar y procesar datos de múltiples módulos de sensores (por ejemplo, cámaras y micrófonos) significa una IA multimodal puede generar resultados más precisos y sofisticados versus sistemas de IA unimodales. de google Modelo de IA multimodal Géminis por ejemplo, puede procesar una foto de algunas cookies y responde con la receta.
Capacitadas para identificar patrones en diferentes tipos de entradas de datos a través de múltiples redes neutrales (colecciones de algoritmos de aprendizaje automático dispuestos para imitar el cerebro humano), las IA multimodales pueden procesar datos de entrada de texto, imágenes, audio y más.
En las gafas inteligentes, significa que una IA puede dar sentido al mundo que ve el usuario combinando sensores en las gafas con estas redes neuronales. Como resultado, el sistema puede responder consultas más sofisticadas y ofrecer información contextual más inteligente.
Pero en el caso del dispositivo Ray-Ban Meta, la IA todavía tiene un largo camino por recorrer antes de alcanzar las capacidades de procesamiento de IA que se encuentran en los últimos teléfonos inteligentes; Estos se benefician de conjuntos de chips más potentes y de fusión de sensores integrados, donde los datos se toman de múltiples sensores y se procesan juntos, por ejemplo, para ofrecer reconocimiento de escenas en aplicaciones de cámara que permiten ajustar inteligentemente el equilibrio de iluminación y color, o combinar datos de termómetros y sensores ópticos. en relojes inteligentes para ofrecer una mejor información sobre el entrenamiento.