OpenAI mira a Cerebras para acelerar la inferencia: qué cambia frente a H200 y Vera Rubin
La carrera de la Inteligencia Artificial ya no se libra solo en quién entrena el modelo más grande. Cada vez importa más quién puede servir ese modelo más rápido, con menor latencia y a un coste sostenible cuando hay millones de usuarios esperando respuesta. En ese cambio de foco, OpenAI y Cerebras podrían estar preparando un movimiento de gran calado.
Según Reuters, que cita una información previa de The Information, OpenAI habría pactado gastar más de 20.000 millones de dólares en tres años en servidores impulsados por chips de Cerebras, en una operación que además podría incluir warrants y apoyo para centros de datos adaptados a este hardware. OpenAI no confirmó ese extremo y Cerebras rechazó hacer comentarios, por lo que hoy sigue siendo una información no confirmada oficialmente.
Lo que sí está confirmado es que ambas compañías anunciaron en enero una alianza plurianual para desplegar 750 MW de cómputo de inferencia de ultrabaja latencia, con un despliegue por fases que arranca en 2026. OpenAI explicó entonces que el objetivo era hacer más rápidos sus servicios en tareas donde la respuesta en tiempo real es decisiva, como generación de código, búsquedas complejas, imágenes o agentes.
Esa diferencia es clave. OpenAI no parece estar buscando un sustituto universal para todo su parque de aceleradores, sino una pieza especializada para una parte concreta del problema: la inferencia interactiva.
El verdadero giro: la IA se mueve del entrenamiento a la inferencia
Durante los últimos dos años, el gran relato del sector ha girado en torno al entrenamiento de modelos fundacionales y al dominio de las GPU en los grandes clústeres. Pero el mercado empieza a valorar otra variable: cuánto cuesta servir esos modelos a escala, con tiempos de respuesta competitivos y sin disparar el consumo de infraestructura.
Ahí es donde Cerebras ha encontrado su oportunidad. La compañía se hizo conocida por romper una de las reglas no escritas del sector: en lugar de seguir el camino habitual de usar muchos chips relativamente pequeños, apostó por construir un procesador a escala de oblea completa. Su Wafer Scale Engine 3 (WSE-3) mide 46.225 mm², integra 4 billones de transistores, suma 900.000 núcleos optimizados para IA y alcanza 125 petaflops de cómputo para IA, según la propia empresa.
La tesis de Cerebras es que esa arquitectura reduce cuellos de botella, simplifica parte del escalado y mejora especialmente los escenarios donde la latencia pesa mucho. No es casualidad que OpenAI, en su anuncio oficial, hablara de “ultra low-latency AI compute” y no solo de más potencia bruta.
Por qué la comparación con H200 o Vera Rubin no es tan simple
Cuando aparece una noticia así, la comparación inmediata suele ser con NVIDIA. Tiene sentido, pero conviene hacer una precisión importante: Cerebras WSE-3, NVIDIA H200 y NVIDIA Rubin no son productos exactamente equivalentes.
El WSE-3 es un procesador wafer-scale. El H200 es una GPU basada en Hopper. Y Vera Rubin es tanto una nueva GPU como una plataforma rack-scale mucho más amplia, con CPU, GPU, interconexión y red codiseñadas. Compararlos sin contexto puede llevar a conclusiones engañosas.
Aun así, sí se pueden poner sus cifras oficiales una al lado de la otra para entender qué intenta optimizar cada enfoque.
Tabla comparativa: Cerebras WSE-3 frente a NVIDIA H200 y NVIDIA Rubin GPU
| Producto | Tipo | Memoria | Ancho de banda de memoria | Rendimiento IA destacado | Interconexión / escala |
|---|---|---|---|---|---|
| Cerebras WSE-3 | Procesador wafer-scale | 44 GB SRAM on-chip | n/d en la ficha resumida | 125 PFLOPS de cómputo IA | Escala mediante sistemas CS-3 y clústeres; 900.000 núcleos IA |
| NVIDIA H200 SXM | GPU Hopper | 141 GB HBM3e | 4,8 TB/s | 3,958 PFLOPS FP8 / 1,979 PFLOPS FP16-BF16 | 900 GB/s NVLink por GPU |
| NVIDIA Rubin GPU | GPU Rubin | 288 GB HBM4 | 22 TB/s | 50 PFLOPS NVFP4 inferencia / 4 PFLOPS FP16-BF16 | 3,6 TB/s NVLink por GPU |
Datos oficiales de Cerebras y NVIDIA. En Rubin, las especificaciones publicadas son preliminares y pueden cambiar.
La tabla deja una idea bastante clara. El H200 fue una respuesta muy fuerte para elevar memoria y ancho de banda dentro de la generación Hopper. Rubin da un salto mucho mayor con HBM4, más memoria por GPU y bastante más ancho de banda. Cerebras, por su parte, juega otra partida: no destaca tanto por seguir la lógica clásica de “más GPUs por rack”, sino por concentrar muchísima capacidad dentro de una arquitectura wafer-scale propia.
La comparación que de verdad importa: plataforma contra plataforma
Para un medio de noticias de Inteligencia Artificial, quizá la comparación más útil no sea solo chip contra chip, sino plataforma contra plataforma. En ese terreno, NVIDIA ya está hablando de sistemas completos, no de una GPU aislada.
La plataforma NVIDIA Vera Rubin NVL72 integra 72 GPUs Rubin y 36 CPUs Vera en un solo sistema. NVIDIA afirma que este rack-scale supercomputer ofrece 3.600 PFLOPS NVFP4 en inferencia, 20,7 TB de HBM4, 1.580 TB/s de ancho de banda de memoria agregado y 260 TB/s de NVLink a nivel de sistema. La compañía también sostiene que Rubin puede reducir el coste por millón de tokens hasta una décima parte frente a Blackwell en cargas de razonamiento e inferencia altamente interactiva. Son cifras oficiales de NVIDIA, aunque varias aparecen marcadas como preliminares.
Tabla comparativa de plataformas: de H200 a Rubin y Cerebras
| Plataforma | Configuración | Memoria total aceleradora | Ancho de banda agregado | Métrica destacada |
|---|---|---|---|---|
| NVIDIA H200 (escala GPU) | Hasta 8 GPUs en HGX H200 | 141 GB por GPU | 4,8 TB/s por GPU | H200 impulsa inferencia LLM con hasta 2x frente a H100 en ciertos casos |
| NVIDIA Vera Rubin NVL72 | 72 GPUs Rubin + 36 CPUs Vera | 20,7 TB HBM4 | 1.580 TB/s | 3.600 PFLOPS NVFP4 en inferencia |
| OpenAI + Cerebras (anunciado) | Despliegue por fases hasta 750 MW | No detallado públicamente en TB agregados | No detallado públicamente | Enfoque en ultrabaja latencia para inferencia |
Las tres filas no son equivalentes al 100%, pero ayudan a ver la dirección del mercado: menos foco en la tarjeta aislada y más en sistemas completos optimizados para cargas concretas.
Qué está buscando OpenAI realmente
El anuncio oficial de OpenAI deja ver bastante bien la intención estratégica. La empresa no presentó a Cerebras como un reemplazo total de otros proveedores, sino como una forma de añadir capacidad de baja latencia para mejorar productos ya existentes. Eso sugiere una diversificación del stack de infraestructura según el tipo de carga: una cosa es el entrenamiento masivo; otra, servir agentes, respuestas de código o interacciones complejas donde cada segundo cuenta.
En otras palabras, OpenAI parece avanzar hacia una arquitectura de cómputo mucho más heterogénea. La IA comercial del futuro no se apoyará necesariamente en una sola familia de chips ni en un único fabricante. Se parecerá más a una combinación de piezas optimizadas: unas para entrenamiento, otras para inferencia masiva, otras para baja latencia y otras quizá para ciertos tipos de agentes o multimodalidad.
Ese movimiento encaja con una realidad cada vez más visible: el cuello de botella ya no es solo conseguir más potencia, sino conseguir la potencia correcta para el trabajo correcto.
Cerebras gana relevancia en el momento justo
Para Cerebras, el momento no puede ser mejor. La empresa acaba de reactivar su salida a bolsa y una relación estrecha con OpenAI mejora claramente su posición ante el mercado. Reuters informó esta semana de que la compañía había reanudado su proceso para cotizar en Nasdaq bajo el ticker CBRS, después de que su anterior intento quedara bloqueado en 2024.
Pero incluso sin entrar en la lectura financiera, hay algo más importante: Cerebras empieza a dejar de ser “la startup del chip gigante” para convertirse en un actor real dentro de la conversación sobre inferencia avanzada. Eso, en un sector todavía dominado por NVIDIA, ya es un cambio de peso.
La noticia de fondo no es el rumor: es el nuevo mapa del hardware de IA
La posible inversión de más de 20.000 millones de dólares es el titular más llamativo, pero no necesariamente el más importante. La noticia de fondo es otra: OpenAI está reforzando una estrategia en la que la inferencia rápida se vuelve crítica y donde el hardware se especializa mucho más.
En ese mapa, el H200 representa la madurez de Hopper, Rubin apunta a la siguiente gran plataforma rack-scale de NVIDIA, y Cerebras intenta abrirse hueco con una arquitectura radicalmente distinta, pensada para resolver de otra forma el problema de la latencia y la escalabilidad de la inferencia.
La carrera de la Inteligencia Artificial sigue siendo una carrera de modelos. Pero cada vez se parece más a una carrera de infraestructura.
Preguntas frecuentes
¿OpenAI ha confirmado el acuerdo de más de 20.000 millones de dólares con Cerebras?
No. Lo confirmado oficialmente es la alianza anunciada en enero para desplegar 750 MW de inferencia de ultrabaja latencia. La cifra superior a 20.000 millones procede de una información publicada por The Information y recogida por Reuters, pero no ha sido confirmada por OpenAI ni por Cerebras.
¿Qué hace especial al chip Cerebras WSE-3?
Es un procesador a escala de oblea completa. Cerebras afirma que integra 4 billones de transistores, 900.000 núcleos para IA y 125 petaflops de cómputo IA en un único chip.
¿Cómo se sitúa H200 frente a Rubin?
H200 pertenece a la generación Hopper y ofrece 141 GB de HBM3e con 4,8 TB/s de ancho de banda. Rubin da un salto más ambicioso: 288 GB de HBM4 por GPU, 22 TB/s de ancho de banda y 50 PFLOPS NVFP4 por GPU, según NVIDIA.
¿Por qué interesa tanto la inferencia de baja latencia?
Porque cada vez más servicios de IA dependen de respuestas inmediatas: asistentes conversacionales, agentes, generación de código, razonamiento interactivo o búsqueda aumentada. En esos casos, no basta con tener potencia; también importa muchísimo el tiempo de respuesta.
vía: s
Lascia un commento