
China lo hizo de nuevo: a pocas semanas de desatar la locura, el modelo de texto a imagen de Google, Nano Banana acaba de perder la supremacía en la famosa plataforma LMArena, que compara distintos modelos de IA según la valoración de los usuarios.
El podio ahora lo ocupa HunyuanImage 3.0, un modelo de código abierto de la compañía china Tencent, que sorprende por su calidad visual, detalle y capacidad de comprensión semántica compleja. Los desarrolladores de Hunyuan han orientado la herramienta para superar esas métricas en comparación directa y optimizar la alineación entre texto e imagen con una arquitectura nativa de fusión multimodal. El objetivo: competir con modelos como Midjourney o Dall-e, pero con un enfoque de código abierto y una comprensión más profunda del texto.

Cabe mencionar que aún las valoraciones de los usuarios es baja en comparación con las de otras herramientas anteriores (3.608 versus 517.410 que tiene Nano Banana, segunda en el ranking). Además, el margen de error es más amplio (±10) y el puntaje final obtenido es preliminar, pero los resultados de las primeras pruebas han resultado alucinantes.
Qué es HunyuanImage 3.0
HunyuanImage 3.0 es un modelo de generación de imágenes basado en texto (text-to-image) que forma parte del ecosistema de inteligencia artificial multimodal impulsado por Tencent, una de las empresas tecnológicas más grandes del mundo, con sede en Shenzhen, China.
La compañía lanzó este modelo de código abierto hace menos de un mes y ya se ha convertido en uno de los modelos abiertos comerciales más grandes que existen hasta ahora, con un total de 80 mil millones de parámetros.
A diferencia de otras LLM que emplean arquitecturas tipo DiT (transformer de difusión), HunyuanImage 3.0 adopta una arquitectura unificada autoregresiva multimodal que integra generación y comprensión de texto e imagen dentro de un único marco modelo.
Gracias a esto, logra una “fusión profunda” entre las modalidades y puede, por ejemplo, razonar sobre el conocimiento del mundo, procesar semánticas de hasta mil caracteres y producir textos dentro de la imagen con alta precisión.
Está entrenado con más de 5 mil millones de pares imagen-texto y 6 TB de datos, lo que le permite entender textos extensos y generar imágenes coherentes incluso en contextos complejos.
Como explica la misma compañía, «Si bien existen algunos modelos de código abierto, estos son pequeños y se centran principalmente en la investigación y la experimentación académica, y su rendimiento con imágenes sin procesar dista mucho de ser óptimo en la industria».
Una IA que “piensa” como un artista
HunyuanImage 3.0 no solo traduce palabras en imágenes: «razona» sobre el diseño, la composición y las pinceladas de cada escena, creando ilustraciones con sentido común y coherencia visual.
Por ejemplo, si escribes “Generar un cómic de divulgación científica de cuatro cuadros sobre un eclipse lunar total”, el modelo genera automáticamente un cómic completo sin necesidad de detallar cada viñeta. Esto muestra su capacidad para entender instrucciones complejas y convertirlas en piezas visuales completas.

También puede seguir descripciones detalladas, como “Eres un blogger de moda; crea una portada con una foto del atuendo a la izquierda y las prendas detalladas a la derecha”. En ese caso, la IA separa los elementos del outfit y compone una imagen realista con una paleta de colores coherente, como si fuera una sesión fotográfica profesional.

También puede diseñar en cuestión de segundos posters creativos, ilustraciones educativas, memes, fotografías de producto, banners comerciales, carteles para eventos o festivales, entre muchas otras opciones. Gracias a su rapidez y precisión, tareas que antes requerían horas de trabajo manual pueden completarse en minutos, permitiendo que ilustradores, diseñadores y creadores de contenido produzcan material visual más variado sin necesidad de conocimientos técnicos avanzados.
Cómo probar HunyuanImage 3.0
Para probarlo en tu PC, debes ingresar a su web oficial y loguearte con tu mail o a través de un QR de WeChat.

Por ahora, la versión pública permite generar imágenes a partir de texto (text-to-image), pero Tencent planea incorporar pronto funciones como edición de imágenes, generación de imagen a imagen e interacción en múltiples rondas, ampliando aún más sus posibilidades creativas.
Foto: Tercent
[…]
La entrada Así es HunyuanImage 3.0, la IA generadora de imágenes que supera a Nano Banana se publicó primero en Marketing4eCommerce.