¿Son ‘dolores de crecimiento’ o es que ChatGPT es cada vez más tonto?

El aclamado modelo de lenguaje desarrollado por OpenAI, ChatGPT, ha sido elogiado como “simplemente el mejor chatbot de inteligencia artificial lanzado al público en general” por Kevin Roose, autor de “Futureproof: 9 Rules for Humans in the Age of Automation”, y como “una de las mejores cosas que se han hecho en computación” por Jensen Huang, CEO de Nvidia.

ChatGPT ha demostrado una habilidad impresionante para proporcionar respuestas naturales a las preguntas de los usuarios, tanto que algunos creen que ha pasado oficialmente el Test de Turing, una medida duradera de la capacidad de una máquina para alcanzar la inteligencia humana.

Además, ha obtenido puntuaciones muy altas en exámenes de logro en diversos campos, como matemáticas (89), derecho (90) y comprensión verbal del GRE (99).

Incluso investigadores de la Escuela de Medicina de la Universidad de Nueva York han informado que los consejos proporcionados por ChatGPT para preguntas relacionadas con la salud son casi indistinguibles de los proporcionados por el personal médico humano.

Sin embargo, no todos están dispuestos a confiar en ChatGPT para la toma de decisiones críticas. Investigadores de las Universidades de Stanford y California, Berkeley, han expresado preocupación por el rendimiento inconsistente del modelo. Han notado que las respuestas en algunas tareas “han empeorado sustancialmente con el tiempo”.

Is it growing pains or is ChatGPT just becoming dumber?
Rendimiento de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en cuatro tareas: resolución de problemas matemáticos, respuesta a preguntas delicadas, generación de código y razonamiento visual. El rendimiento de GPT-4 y GPT-3.5 puede variar sustancialmente con el tiempo, y a peor en algunas tareas. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2307.09009

Estos investigadores se enfocaron en áreas como la resolución de problemas matemáticos y la generación de código informático. Descubrieron que el rendimiento de GPT-3.5 y GPT-4 varía significativamente y que algunas tareas han experimentado un deterioro considerable en el transcurso de cuatro meses, de marzo a junio.

Por ejemplo, GPT-4 tuvo una tasa de precisión del 97,6% en la resolución de problemas de números primos en marzo de 2023, pero esta tasa cayó al 2,4% en el modelo actualizado de junio de 2023. También se notó una disminución en la precisión en la generación de código para los usuarios.

El equipo de investigación señaló que los cambios en el rendimiento podrían estar relacionados con modificaciones y actualizaciones en el sistema.

_____

_____

Ante las teorías de conspiración que sugieren que OpenAI está experimentando con versiones más pequeñas de LLMs para reducir costos, la compañía ha negado tales afirmaciones, asegurando que cada nueva versión se vuelve más inteligente que la anterior.

Mientras tanto, algunos observadores preocupados por el “desvío” disruptivo en los resultados del modelo están presionando a OpenAI para que divulgue las fuentes de entrenamiento, el código y otros elementos estructurales detrás de ChatGPT 4.0. Argumentan que los resultados en modelos de código cerrado no son reproducibles ni verificables desde una perspectiva científica.

En medio de esta discusión, la comunidad científica busca más transparencia para auditar estos modelos y asegurar que su implementación sea confiable y ética.

Con información de Phys.org y TechXplore | Traducción y notas del Colectivo Alterius

Previo

Altas temperaturas nocturnas representan mayor riesgo que las del día: OMM

Siguiente

Sorprende descubrimiento accidental: el metal que se autorregenera