ChatGPT-4.5, la última actualización del modelo de lenguaje de OpenAI, ha integrado potentes capacidades de generación de imágenes que transforman la manera en que interactuamos con la inteligencia artificial. Esta nueva funcionalidad, implementada a través del modelo GPT-4o, permite crear imágenes realistas directamente desde la conversación, eliminando la necesidad de herramientas externas como DALL-E. La integración representa un salto cualitativo en la generación visual automatizada, ofreciendo nuevas posibilidades para profesionales, creadores y usuarios regulares.
La revolución visual de ChatGPT
La incorporación de capacidades de generación de imágenes en ChatGPT marca un punto de inflexión en el desarrollo de modelos de IA conversacional. Lo que comenzó como una herramienta enfocada en texto ha evolucionado hacia una plataforma multimodal completa, capaz de comprender y generar contenido visual.
OpenAI anunció oficialmente que “ChatGPT ya puede crear imágenes realistas directamente desde el chat, evitando tener que hacer uso de herramientas externas como DALL-E”1. Esta nueva funcionalidad está basada en el modelo GPT-4o que, según la compañía, “utiliza un enfoque autorregresivo y su conocimiento del mundo real para ofrecer resultados de nivel profesional de manera más intuitiva y útil”.
La generación de imágenes forma parte del conjunto de mejoras incluidas en la actualización que incorpora ChatGPT-4.5, considerada por muchos especialistas como “una versión avanzada de su popular chatbot de Inteligencia Artificial”. El sistema permite crear imágenes a partir de descripciones textuales, archivos cargados y mantiene coherencia en conversaciones, aprovechando la capacidad del modelo para entender contextos complejos.
Sam Altman, CEO de OpenAI, destacó la importancia de esta nueva función en su cuenta de X (anteriormente Twitter), señalando que los usuarios de ChatGPT “podrán generar imágenes sin necesidad de utilizar modelos externos como DALL-E 3”, según reportó el medio Extra. Esta declaración enfatiza la estrategia de OpenAI de consolidar sus servicios en una plataforma integrada, facilitando el acceso a herramientas avanzadas de IA para un público más amplio.
La disponibilidad de esta función es notablemente inclusiva, ya que está “disponible para todos los usuarios de ChatGPT en los planes Free, Plus, Pro y Team, así como en la plataforma de video Sora”. Próximamente, la empresa planea extender el acceso a usuarios de Enterprise y Edu, además de integrarla en su API para desarrolladores, lo que ampliará considerablemente su alcance.
Capacidades técnicas y mejoras respecto a modelos anteriores
El sistema de generación de imágenes de ChatGPT-4.5 representa un avance significativo respecto a versiones anteriores y otras herramientas similares en el mercado. La principal innovación radica en su enfoque integrado y su capacidad para mantener coherencia contextual.
Según Wired en español, “la generación de imágenes GPT‑4o destaca por la precisión en la representación de texto, el seguimiento exacto de indicaciones y el aprovechamiento de la base de conocimientos y el contexto del chat de GPT‑4o, lo que incluye la transformación de imágenes cargadas o su uso como inspiración visual”. Esto permite que la herramienta no solo genere imágenes aisladas, sino que mantenga coherencia visual a lo largo de una conversación.
Una de las ventajas técnicas más destacables es su capacidad para manejar múltiples objetos. OpenAI asegura que “mientras otros sistemas tienen dificultades con entre 5 y 8 objetos, GPT-4o puede gestionar hasta 10 o 20 objetos diferentes”1. Esta característica es el resultado de un año de trabajo junto con un centenar de entrenadores humanos que han conseguido que el modelo comprenda mejor las indicaciones, permitiendo crear imágenes más realistas y complejas.
El modelo ha sido entrenado con una “distribución conjunta de imágenes y texto”, lo que le permite comprender mejor la relación entre estos elementos4. Esta capacidad es crucial para generar imágenes que respeten fielmente las indicaciones textuales del usuario, incluyendo detalles específicos que otros modelos podrían pasar por alto.
En comparación con modelos anteriores, ChatGPT-4.5 presenta un “índice de ‘alucinaciones’ menor en comparación con GPT-4o, o1 y o3-mini. Esto significa que el modelo inventa menos información y, por lo tanto, miente menos”2. Esta precisión se extiende a la generación de imágenes, donde el sistema logra representar escenas complejas con un mayor grado de realismo y coherencia.
La arquitectura del modelo también permite “gestionar hasta 10-20 objetos diferentes” con precisión, lo que supera significativamente las capacidades de otros sistemas7. Esto facilita la creación de escenas elaboradas y composiciones visuales complejas que antes requerían múltiples iteraciones o ajustes manuales.
Aplicaciones prácticas: De lo profesional a lo creativo
Las posibilidades de aplicación del nuevo sistema de generación de imágenes son extraordinariamente variadas, abarcando desde usos profesionales hasta creativos. OpenAI ha destacado varios casos de uso específicos que demuestran la versatilidad de la herramienta.
Entre las aplicaciones clave que incluye el sistema, se encuentran:
- Generación de imágenes para trabajos profesionales: El modelo permite crear “diagramas, infografías, gráficos promocionales para redes sociales con códigos hexadecimales, logotipos, instrucciones complejas”1. Esta capacidad resulta especialmente útil para profesionales del diseño, marketing y comunicación que necesitan generar material visual de forma rápida y coherente con sus requerimientos específicos.
- Imágenes con alto contenido de texto: Una de las fortalezas del sistema es su capacidad para crear “carteles de instrucciones, visualización de conceptos de aprendizaje, marcas de texto, tarjetas de presentación”1. Esta función es particularmente valiosa para educadores, formadores y profesionales que necesitan comunicar conceptos complejos de manera visual.
- Resultados personalizables para uso externo: El sistema puede generar “fotos de stock personalizadas con fondo transparente para diapositivas”1, lo que permite a los usuarios crear material visual único adaptado a sus necesidades específicas, sin depender de bancos de imágenes genéricos.
- Imágenes fotográficas de alta calidad y realismo: La “capacidad avanzada para el fotorrealismo, incluyendo precisión en la iluminación, sombras y texturas”1 permite crear visualizaciones de productos, conceptos o escenarios con un nivel de detalle y realismo sorprendente.
- Capacidad de usar imágenes como punto de partida: El sistema permite la “personalización de una pintura de una mascota, edición de retratos, inspiración para decoración de interiores basada en una imagen de un espacio real”1, facilitando la iteración creativa a partir de referencias visuales existentes.
Según Xavier Mitjana, creador de contenido especializado en IA, quien realizó pruebas exhaustivas del nuevo modelo, las capacidades visuales de ChatGPT-4.5 representan un avance significativo en términos de fidelidad y coherencia visual. Sus pruebas demuestran que el sistema puede generar imágenes complejas manteniendo la coherencia de estilo y elementos visuales, algo que resultaba problemático en versiones anteriores.
Limitaciones técnicas actuales y desafíos por resolver
Pese a los importantes avances, el sistema de generación de imágenes de ChatGPT-4.5 presenta algunas limitaciones técnicas que OpenAI reconoce abiertamente y en las que continúa trabajando.
OpenAI ha identificado que el modelo aún puede “generar imágenes con recortes no deseados en formatos verticales largos, mostrar dificultades al representar más de 20 objetos con precisión o tener problemas con caracteres latinos en textos insertados”. Estas limitaciones son particularmente relevantes para usuarios que necesitan crear carteles, infografías verticales o material con tipografías específicas.
Otra área de mejora se relaciona con la representación de texto dentro de las imágenes. Aunque el sistema ha mejorado considerablemente en este aspecto, todavía puede presentar inconsistencias al generar caracteres complejos o disposiciones tipográficas elaboradas, especialmente en idiomas distintos al inglés.
En términos de seguridad, OpenAI “refuerza las restricciones para evitar el uso inapropiado del sistema, limitando la generación de contenido que incluya violencia explícita, desnudez o representaciones no consentidas”. Estas restricciones, aunque necesarias desde una perspectiva ética, pueden limitar algunos usos legítimos en campos como el arte, la medicina o la educación.
El costo también representa una barrera para algunos usuarios. Aunque la función está disponible en el plan gratuito, las capacidades más avanzadas se reservan para usuarios premium. El plan ChatGPT Pro, que incluye acceso completo a GPT-4o y otras funcionalidades avanzadas, tiene “un precio mensual de $200, puede no ser accesible para todos los usuarios o pequeñas empresas”.
Además, existen preocupaciones sobre la posible generación de contenido engañoso o la creación de imágenes que podrían infringir derechos de autor. OpenAI continúa trabajando en sistemas de detección y políticas de uso responsable para mitigar estos riesgos, pero representan desafíos importantes en el desarrollo y adopción masiva de estas tecnologías.
Las pruebas de Crónicatech
Creación de un logo
Una de las pruebas más complejas para el modelo de ChatGPT es generar un logo. Su creación involucra cierto grado de ejercicio creativo. En el caso de este logo le solicité propuestas de logo que conjugarán elementos del universo creativo con el de las técnica. Su propuesta fue mezclar dos elementos simbólicos: por un lado una cámara y por otro un símbolo de apertura de un tag de HTML. Le pedí alinearse con los colores y el estilo del logo de Crónicatech. Por ende, usó la fuente Rubik y los colores existentes en el logo actual. Se realizaron varios ajustes para alinear visualmente el bloque de texto con el ícono: se redujo el tamaño de la tipografía, se ajustó el espaciado y se movieron los elementos verticalmente, primero subiendo el texto y luego bajando progresivamente el ícono en dos etapas de 50px hasta lograr un mejor equilibrio. Dicho proceso fue el más difícil de lograr con este último modelo y no arrojo un resultado del todo satisfactorio.
Creación de cómics
Este cómic maneja estilo ‘noir’. Dos aspectos destacan en el proceso: la IA fue capaz de proponer los elementos gráficos de las viñetas, así como las expresiones y acciones ejecutadas por los personajes. El cómic tiene 95 palabras y el 88 % están escritas de forma correcta (84 palabras de las 95). Este mismo comportamiento se evidenció en otras pruebas. Alrededor del 90 % de las palabras suelen plasmarse de forma correcta. El porcentaje se eleva cuando el número de palabras es menor, como queda claro en este otro cómic:
En esta segunda prueba el cómic solo tiene 43 palabras y un acierto de 100%. Cabe destacar que ChatGPT eligió el estilo gráfico y los dibujos los hizo basándose únicamente en los diálogos proporcionados en el prompt.