fbpx
Close

Login

Close

Register

Close

Lost Password

ChatGPT-4: análisis técnico de sus capacidades y riesgos

Evaluación técnica a GPT-4: qué tanto domina el lenguaje visual y escrito, cuáles son sus limitaciones y riesgos actuales.

Días atrás un amigo redactor se sentó a la mesa con un grupo de amigos. Hizo una muesca de asco y espetó sin mayor reparo: “ChatGPT no escribe perfecto, los redactores seguiremos siendo necesarios. Le falta alma, creatividad, visión estratégica”.

Pocos días después, OpenAI lanzaría GPT-4, una versión mejorada del modelo de lenguaje usado por ChatGPT. Esta nueva iteración de este modelo de lenguaje por inteligencia artificial maneja 100 billones de parámetros, es decir casi 600 veces más que su predecesor, GPT-3.5

Lee también: Análisis: los trabajos que cambiarán por ChatGPT y los que no

Evaluación técnica a GPT-4

Desde un punto de vista teórico, GPT-4 es un modelo multimodal grande capaz de procesar imágenes y texto, y generar producciones de texto. “Estos modelos son importantes ya que tienen el potencial de utilizarse en diversas aplicaciones, como sistemas de diálogo, resumen de texto y traducción automática”, explica el informe técnico de GPT-4.

El objetivo principal de GPT-4 es mejorar la comprensión y generación de lenguaje natural, especialmente en escenarios complejos. GPT-4 fue evaluado en exámenes diseñados para humanos, superando los puntajes promedio de quienes los suelen presentar. Por ejemplo, en un examen simulado de abogacía, GPT-4 logró un puntaje 10 % superior al promedio, en contraste con GPT-3.5, que consigue una calificación 10 % inferior al promedio.

“En evaluaciones de procesamiento del lenguaje natural, GPT-4 supera a modelos anteriores y a la mayoría de sistemas de vanguardia. En el benchmark MMLU, GPT-4 supera a modelos existentes en inglés y muestra un sólido desempeño en otros idiomas. En variantes traducidas de MMLU, GPT-4 supera al estado del arte en inglés en 24 de 26 idiomas considerados”, explica el estudio técnico del modelo.

GPT-4 fue sometido por el equipo investigador a 34 exámenes, entre ellos pruebas tan conocidas como el Uniform Bar Exam, el SAT y el GRE. Resultan notables sus resultados en el componente cuantitativo del SAT donde logró 163 de 170 puntos y el componente verbal donde casi consigue un puntaje perfecto de 169 puntos sobre 170 posibles. El puntaje de 298 puntos sobre 400 en el BAR es también digno de mención: es una calificación tan alta que solo el 10 % de los aplicantes logra algo mejor. El promedio en este examen suele ser de entre 140 y 150 puntos.

examenes presentados por chatgpt
Exámenes presentados por GPT-4 y sus respectivos puntajes.

El equipo investigador también evaluó el grado de precisión de GPT-4 con diferentes lenguajes. El idioma que mejor domina es el inglés. Lo que resulta sorprendente es que su dominio de una amplia variedad de idiomas es muy similar, como se constata en este gráfico:

dominio del lenguaje por parte de gpt 4

El dominio que exhibe del inglés es del 85,5 %, 15,5 % más que en el modelo anterior, GPT-3.5. Para beneplácito -o desgracia- de los hispanoparlantes, GPT-4 registra un dominio de 84 %. Su manejo de idiomas de alta complejidad como el arábico, el ruso o el mandarín también ronda el 80 %.

Capacidades de interpretación visual en GPT-4

GPT-4 puede trabajar con imágenes y texto al mismo tiempo, lo que permite a los usuarios abordar tareas de visión o lenguaje. En diversos contextos, como documentos con fotos, diagramas o capturas de pantalla, GPT-4 muestra habilidades parecidas a las que tiene cuando solo se utilizan textos.

Esta capacidad aún no está disponible en la versión premium de ChatGPT. Sin embargo, este es un ejemplo de su funcionamiento:

Usuario: ¿Qué es gracioso en esta imagen? Descríbela panel por panel.

ejemplo de chat gpt 4
Fuente: https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

Respuesta de GPT-4:

La imagen muestra un paquete de un adaptador de “Cable Lightning” con tres paneles.

Panel 1: Un teléfono móvil con un conector VGA (un conector grande, azul, de 15 pines típicamente utilizado para monitores de computadora) enchufado en su puerto de carga.

Panel 2: El paquete del adaptador de “Cable Lightning” con una imagen de un conector VGA en él.

Panel 3: Un primer plano del conector VGA con un pequeño conector Lightning (utilizado para cargar iPhones y otros dispositivos Apple) en el extremo. El humor en esta imagen proviene de lo absurdo de conectar un conector VGA grande y obsoleto en un puerto de carga de teléfono móvil moderno y pequeño.

Limitaciones del modelo GPT-4

GPT-4 tiene habilidades impresionantes, pero también limitaciones como los modelos GPT anteriores. No es totalmente confiable y puede inventar cosas o cometer errores. Debemos ser cuidadosos al usar sus resultados, especialmente en situaciones importantes. Es necesario elegir el enfoque adecuado para cada aplicación, como revisión humana o ajuste al contexto.

GPT-4 ha mejorado en comparación con los modelos GPT-3.5 anteriores, reduciendo la cantidad de información inventada. En pruebas internas, GPT-4 obtuvo un 19 % más de puntos que el último GPT-3.5.

GPT-4 mejora en pruebas como TruthfulQA, que evalúa su habilidad para distinguir hechos de afirmaciones incorrectas. Aunque supera ligeramente a GPT-3.5, tras un entrenamiento adicional mejora bastante. GPT-4 evita frases comunes pero puede perder detalles sutiles.

GPT-4 no conoce eventos posteriores a septiembre de 2021 y no aprende de su experiencia. Puede cometer errores simples, ser crédulo ante afirmaciones falsas y fallar en problemas difíciles como los humanos.

GPT-4 puede estar seguro en sus predicciones erróneas y no revisar su trabajo. Aun así, el modelo previamente entrenado está bien calibrado.

Los investigadores aclaran que aún existen mecanismos para inducir a que GPT-4 genere contenidos que viole las políticas de uso del modelo. Sin embargo, se viene trabajando para reducir al mínimo la ocurrencia de respuestas con contenido no permitido.

Por ejemplo, es improbable, aunque no imposible, que GPT-4 te enseñe a fabricar una bomba o dónde conseguir productos que puedan significar un perjuicio para tu salud como la cocaína. Tampoco te dará instrucciones para adquirir armas o estupefacientes.

Análisis de resultados

Los resultados de GPT-4 en los exámenes realizados dan cuenta de una realidad:

Se trata de un modelo con la capacidad de competir con seres humanos en varios campos del conocimiento, en especial aquellos que guardan profunda relación con el lenguaje.

Esto supone que, en efecto, varios oficios se enfrentan a una profunda transformación. GPT-4 puede comportarse como un profesional competente en labores como la redacción, las matemáticas, la programación y el derecho.

Su capacidad de responder a contenido visual abre otro abanico de posibilidades. “Por ejemplo, en la actualidad, un programador tiene que tomar un wireframe y convertirlo en código. GPT-4 parece tener la capacidad de interpretar la imagen y traducirla en el código correspondiente. Ello supone una revolución”, afirma el director de marketing de Lean Solution Group, Ryan Mann.

Las capacidades de Copilot de Microsoft dan cuenta de sus amplias posibilidades. No solo es capaz de ayudarnos con elementos textuales de nuestros documentos, sino con componentes de diseño (es capaz de crear las dispositivas de una presentación). Además, permite crear documentos a partir de otros documentos.

El estudio realizado por OpenAI da cuenta de sus limitaciones. Y si bien existen, y pueden resultar un alivio momentáneo para las presiones sobre el mercado laboral, resulta claro que el perfeccionamiento del modelo avanza a ritmo trepidante.

Sin duda, esto supondrá cambios en varios oficios. En ese sentido, ChatGPT declara con pertinencia: “La inteligencia artificial y la automatización tienen el potencial de afectar el empleo en diversos sectores. Sin embargo, también pueden generar nuevas oportunidades y tipos de trabajo. La clave está en adaptarse y prepararse para estos cambios, fomentando la educación y la capacitación en habilidades relevantes para el futuro”.

Anuncios

Suscríbete

Recibe los últimos artículos en tu correo electrónico:

Síguenos

El autor

Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Ha trabajado en marketing digital con candidatos presidenciales, entidades del sector público como Icetex y la Alcaldía de Bogotá.

1 comentario

  1. muy interesante sin embargo estimo que faltan explicaciones y detalles más a fondo ya que las matemáticas no solo son texto, hay ecuaciones y operadores entre espacios vectoriales, matrices, ecuaciones diferenciales entre derivadas parciales, procesos estocásticos, análisis funcional, y mucho más, ¿ entonces, cómo se elaboraría una pregunta de matemáticas avanzadas en chat GPT4?

    0
    0
    Responder

Escribe tus comentarios

Tu dirección de correo no será publicada Los campos requeridos marcados con *

¡Gracias por tu comentario!

Anuncios

Suscríbete

Recibe los últimos artículos en tu correo electrónico:

Síguenos

El autor

Edgar Medina es el fundador de Crónicatech. Ha escrito para medios reconocidos como El Tiempo, revista Donjuán, Portafolio, La República, revista Semana y Canal RCN. Ha trabajado en marketing digital con candidatos presidenciales, entidades del sector público como Icetex y la Alcaldía de Bogotá.