ChatGPT suspende la prueba de autoevaluación para urólogos

En un momento de creciente interés en el papel potencial de la tecnología de inteligencia artificial (IA) en la medicina y la atención médica, un nuevo estudio publicado en Práctica de Urología descubre que el innovador chatbot ChatGPT funciona mal en una importante herramienta de autoevaluación especializada.

ChatGPT logró menos del 30 % de respuestas correctas en el programa de estudio de autoevaluación para urología (SASP) de la AUA, ampliamente utilizado. «ChatGPT no solo tiene una tasa baja de respuestas correctas con respecto a preguntas clínicas en la práctica urológica, sino que también comete ciertos tipos de errores que representan un riesgo de difundir información médica errónea», comentan Christopher M. Deibert, MD, MPH, y colegas de la Universidad de Centro Médico de Nebraska.

¿Puede el chatbot entrenado por IA pasar una prueba de conocimiento de urología clínica?

Los avances recientes en modelos de lenguaje extenso (LLM) brindan oportunidades para adaptar la tecnología de IA como una herramienta para mediar en la interacción humana. «Con la capacitación y la aplicación adecuadas, estos sistemas de IA pueden procesar información compleja, analizar relaciones entre ideas y generar respuestas coherentes a una consulta», señalan los autores.

ChatGPT (Chat Generative Pre-Trained Transformer) es un innovador chatbot LLM que ha estimulado el interés en su uso en una amplia gama de entornos, incluidos la salud y la medicina. En un estudio reciente, ChatGPT obtuvo una puntuación aprobatoria o casi aprobatoria en los tres pasos del Examen de Licencias Médicas de los Estados Unidos (USMLE), sin ninguna capacitación especial ni comentarios sobre temas médicos. ¿Podría esta innovadora herramienta entrenada por IA funcionar de manera similar en una prueba más avanzada de conocimiento clínico en una especialidad quirúrgica?

Para averiguarlo, el Dr. Deibert y sus colegas evaluaron el desempeño de ChatGPT en el Programa de estudio de autoevaluación (SASP) de la AUA, un examen de práctica de 150 preguntas que aborda el plan de estudios básico del conocimiento médico en urología. El SASP es una prueba valiosa de conocimiento clínico para urólogos en formación y especialistas en ejercicio que se preparan para la certificación de la Junta. El estudio excluyó 15 preguntas que contenían información visual como imágenes o gráficos.

ChatGPT obtiene una puntuación baja en SASP, con explicaciones «redundantes y cíclicas»

En general, ChatGPT dio respuestas correctas a menos del 30 % de las preguntas del SASP: el 28,2 % de las preguntas de opción múltiple y el 26,7 % de las preguntas abiertas. El chatbot proporcionó respuestas «indeterminadas» a varias preguntas. En estas preguntas, la precisión disminuyó cuando se le pidió al modelo LLM que regenerara sus respuestas.

Para la mayoría de las preguntas abiertas, ChatGPT proporcionó una explicación de la respuesta seleccionada. Las explicaciones proporcionadas por ChatGPT fueron más largas que las proporcionadas por SASP, pero «frecuentemente redundantes y de naturaleza cíclica», según los autores.

«En general, ChatGPT a menudo daba justificaciones vagas con declaraciones amplias y rara vez comentaba detalles», escriben el Dr. Deibert y sus colegas. Incluso cuando recibió comentarios, «ChatGPT reiteró continuamente la explicación original a pesar de ser inexacta».

La poca precisión de ChatGPT en el SASP contrasta con su desempeño en el USMLE y otros exámenes de posgrado. Los autores sugieren que, si bien ChatGPT puede funcionar bien en pruebas que requieren recordar hechos, parece quedarse corto en preguntas relacionadas con la medicina clínica, que requieren «pesar simultáneamente múltiples hechos, situaciones y resultados superpuestos».

«Dado que los LLM están limitados por su entrenamiento humano, se necesita más investigación para comprender sus limitaciones y capacidades en múltiples disciplinas antes de que esté disponible para uso general», concluyen el Dr. Deibert y sus colegas. «Tal como está, la utilización de ChatGPT en urología tiene una alta probabilidad de facilitar la desinformación médica para el usuario no capacitado».

Más información:
Linda My Huynh et al, La nueva inteligencia artificial ChatGPT tiene un desempeño deficiente en el Programa de estudio de autoevaluación para urología de 2022, Práctica de Urología (2023). DOI: 10.1097/UPJ.0000000000000406

Proporcionado por Wolters Kluwer Health

Citación: ChatGPT suspende la prueba de autoevaluación para urólogos (6 de junio de 2023) consultado el 6 de junio de 2023 en https://medicalxpress.com/news/2023-06-chatgpt-flunks-self-assessment-urologists.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.

Fuente de la Noticia

ChatGPT suspende la prueba de autoevaluación para urólogos

¿Puede el chatbot entrenado por IA pasar una prueba de conocimiento de urología clínica?

ChatGPT obtiene una puntuación baja en SASP, con explicaciones «redundantes y cíclicas»

Redacción BL

Los investigadores profundizan para descubrir las causas de la disminución del halcón más pequeño de América del Norte

La actriz de ‘The Bear’, Ayo Edebiri, esquiva los drones de Disney mientras reflexiona sobre el papel de Marvel en ‘Thunderbolts’

You may also like

Expertos advierten que algunas empresas están inflando el valor de los bancos de sangre...

Un análisis de sangre podría orientar el uso de inmunoterapia para el mieloma múltiple

Gigantesco Cambio en EPS Sanitas: Afiliados Sorprendidos con Drástica Decisión

Encuentran vínculo entre la forma de la rótula y enfermedad articular debilitante

El bótox podría facilitar la marcha en niños con parálisis cerebral

Estudio vincula variantes de secuencia con metilación del ADN y enfermedades

Últimas noticias