
OpenAI presentó o3 y o4-mini, dos modelos de inteligencia fabricado que inauguran una nueva era para ChatGPT, con capacidades que van desde el razonamiento visual innovador hasta el uso autónomo de herramientas. Los dos destacan por ofrecer respuestas más precisas, aperos y verificables, con mejor seguimiento de instrucciones y un estilo más conversacional y personalizado, apoyado por el uso de memoria y contexto previo.
El maniquí o3, el más potente decidido hasta ahora por OpenAI, es capaz de integrar imágenes directamente en su proceso de razonamiento, lo que le permite analizar y manipular visuales como diagramas o gráficos para mejorar su comprensión y respuestas. Por su parte, o4-mini ofrece un rendimiento competitivo optimizado para velocidad y eficiencia, ideal para entornos que requieren stop rendimiento a bajo costo.
Los dos están disponibles para usuarios de ChatGPT en los planes Plus, Pro y Team. Con el tiro de estos modelos, la compañía liderada por Sam Altman planea retirar a sus antecesores, o1 y 03-mini, consolidando así su proposición en las versiones más avanzadas y eficientes.
Qué ha cambiado respecto a modelos anteriores
Los modelos o3 y o4-mini marcan una clara progreso respecto a sus versiones previas, o1 y o3-mini. La principal innovación es su capacidad de usar herramientas integradas de forma completamente autónoma. Mientras que en versiones anteriores el sucesor debía activar manualmente funciones como la navegación, el intérprete de código o la procreación de imágenes, ahora los modelos deciden cuándo y cómo emplearlas, lo que permite una interacción mucho más fluida y natural.
Como explica la misma empresa en su blog oficial, «estos modelos están entrenados para razonar sobre cuándo y cómo usar las herramientas para producir respuestas detalladas y admisiblemente pensadas en los formatos de salida adecuados, generalmente en menos de un minuto, para resolver problemas más complejos».
Todavía se ha trabajado en mejorar el seguimiento de instrucciones largas y el rendimiento en tareas complejas, especialmente en matemáticas, programación y disección visual, áreas en las que GPT-4 comenzaba a mostrar límites.
Finalmente, se reforzaron los filtros de moderación y se redujeron las alucinaciones (respuestas falsas), haciendo que tanto o3 y o4-mini sean modelos más fiables y seguros para aplicaciones profesionales.
o3, el maniquí más innovador de OpenAI
OpenAI o3 representa el maniquí de razonamiento más innovador de la compañía, diseñado para elaborar áreas como la programación, las matemáticas, las ciencias y la percepción visual.
Su rendimiento ha impresionado nuevos estándares en benchmarks secreto como:
- Codeforces: una plataforma de competiciones de programación algorítmica que mide la sagacidad para resolver problemas complejos bajo presión.
- SWE-bench: evaluación de tareas reales de ingeniería de software extraídas de GitHub, que mide la capacidad del maniquí para resolver bugs o implementar funciones.
- MMMU (Massive Multitask Multilingual Understanding): un benchmark que agrupa tareas académicas de diversas disciplinas, evaluando la comprensión generalista del maniquí.
o3 es ideal para chocar preguntas complejas que requieren un disección multifacético y cuya respuesta no es evidente de inmediato. Por otra parte, es especialmente eficaz en tareas visuales, como interpretar imágenes, gráficos y diagramas.
Evaluaciones externas muestran que o3 comete un 20% menos de errores graves que su antecesor o1 en tareas del mundo auténtico, sobresaliendo en campos como ingeniería, biología, negocios y creatividad aplicada. Los evaluadores lo describen como un socio riguroso para el pensamiento crítico y la procreación de hipótesis innovadoras.
Por otra parte, el maniquí obtuvo un 69,1% en el benchmark SWE-Bench Verified, convirtiéndose en el maniquí más eficaz en tareas de codificación según este unificado. Sin confiscación, un informe de TechCrunch señaló que su puntuación en el benchmark FrontierMath fue inferior a la anunciada inicialmente por OpenAI (50,4% frente a un 52,9% publicado antaño), generando cierta controversia sobre la transparencia de los resultados.
Razonamiento con imágenes
Una de las características más innovadoras de o3 es su capacidad de «pensar con imágenes». Esto le permite analizar gráficos, mapas, diagramas y hasta capturas de pantalla como parte de su proceso de razonamiento. Se puede subir una foto de una pizarra, un diagrama de un volumen de texto o un esbozo hecho a mano, y el maniquí puede interpretarlo, incluso si la imagen está borrosa, invertida o es de mengua calidad.
Por ejemplo, un sucesor puede subir un croquis de ventas y pedirle al maniquí que identifique tendencias, compare meses o haga recomendaciones basadas en los datos visuales.
Esta función resulta especialmente útil en campos como la educación, el diseño, el marketing o el disección de datos, y representa una clara superioridad competitiva frente a otros modelos generativos.
04-mini, la traducción más ligera y rentable
Por otro costado, o4-mini es una traducción más ligera y rentable, optimizada para razonamiento ágil sin ofrecer precisión. Brilla en tareas de matemáticas, programación y disección visual, y ha conseguido un rendimiento líder en los exámenes AIME 2024 y 2025 (que mide las capacidades matemáticas), alcanzando un 99,5% de respuestas correctas con golpe a herramientas como el intérprete de Python.
Por otra parte, o4-mini supera a o3-mini en tareas no STEM (siglas en inglés que engloba las 4 disciplinas del conocimiento: ciencia, tecnología, ingeniería, matemáticas) y dominios como la ciencia de datos, siendo ideal para flujos de trabajo intensivos por su inscripción eficiencia y límites de uso más amplios.
Con destino a agentes autónomos: la nueva visión de OpenAI
El tiro de estos modelos forma parte de una logística más amplia que apunta en torno a el ampliación de agentes de IA autónomos. Estos agentes no solo conversan, sino que entienden contextos complejos, planifican tareas, acceden a herramientas, manipulan entornos y toman decisiones.
Para ilustrar esta visión, OpenAI ha desarrollado un cuestionario llamado Codex CLI, una interfaz en itinerario de comandos donde o3 puede tratar un entorno Linux simulado. En él, el maniquí instala paquetes, edita archivos o navega por carpetas de forma autónoma, lo que permite probar y desarrollar futuras aplicaciones donde la IA actúe como un administrador de sistemas, desarrollador o asistente técnico.
Este enfoque modular, basado en agentes, se alinea con la tendencia del sector de avanzar en torno a modelos que «piensen, decidan y actúen», y no solo generen texto. Esto puede elaborar radicalmente sectores como el eCommerce, la educación, el marketing digital o la ingeniería.
Cómo alcanzar a los modelos o3 y o4-mini
Los usuarios de ChatGPT Plus, Pro y Team ya pueden alcanzar a los modelos o3, o4-mini y o4-mini-high en el selector de modelos. Los usuarios de ChatGPT Enterprise y Edu tendrán golpe en una semana. Los usuarios gratuitos pueden probar o4-mini seleccionando «Pensar» en el editor antaño de destinar su consulta.
OpenAI planea difundir en breve una traducción aún más potente, o3-pro, y retirar progresivamente los modelos anteriores como o1 y sus variantes mini. Por otra parte, adentro de la interfaz de ChatGPT se anuncia el tiro de GPT-4 para el próximo 30 de abril.
El cambio de nomenclatura -de GPT-4 a o3/o4- argumenta a una logística de lanzamientos más rápidos y nombres más simples, alejándose de la razonamiento de versiones secuenciales (GPT-3, 3.5, 4). Esta nueva convención búsqueda reflectar mejor el propósito o características del maniquí, permitiendo a OpenAI innovar con más agilidad y claridad.
Foto: openAI
[…]
La entrada OpenAI presenta o3 y o4-mini, sus modelos de IA más avanzados hasta la fecha se publicó primero en M4C NET.