Vivimos un año en el que se dio la explosión de la creación de video a partir de la IA generativa. OpenAI lanzó Sora; Google DeepMind, Veo 3; y la startup de video Runway lanzó Gen-4. Fue también 2025 el año en el que Netflix estrenó un efecto visual con IA en la serie El Eternauta, marcando la primera vez que la generación de video se utilizó en una producción televisiva.
En la contracara, miles de videos hechos y, sobre todo, mal hechos con IA, inundan las redes sociales en lo que se conoce una vez más con un término en inglés: AI slop. Pero, ¿cómo se hace un video usando IA?
Imaginá que elegís una imagen y le agregás un salpicado aleatorio de píxeles. Una vez salpicada, la volvés a salpicar, y así una y otra vez. Al final del proceso no tendrás otra cosa que un caos de píxeles sin forma discernible.
Un modelo de difusión es una red neuronal entrenada para revertir ese proceso: convertir la estática aleatoria en imágenes coherentes. Durante el entrenamiento, la herramienta analiza millones de imágenes en distintas etapas de “ruido”. Aprende cómo se transforman cada vez que se les agrega perturbación aleatoria y, por lo tanto, cómo deshacer gradualmente esos cambios.
El resultado es que, cuando se le pide a un modelo de difusión que genere una imagen, comienza con un caos aleatorio de píxeles y, paso a paso, transforma ese ruido en una imagen cada vez más coherente y similar a las de su conjunto de entrenamiento.
Pero el usuario no quiere cualquier imagen: quiere la que solicitó, normalmente mediante un prompt de texto.
Por eso, el modelo de difusión se combina con un segundo modelo —por ejemplo, un modelo de lenguaje de gran tamaño (LLM) entrenado para vincular imágenes con descripciones textuales— que guía cada etapa del proceso de “desruido”, orientando al modelo de difusión hacia imágenes que el modelo de lenguaje considera una buena correspondencia con el prompt.
Todo esto requiere una enorme cantidad de cómputo y energía. Por eso, la mayoría de los modelos de difusión utilizados para generar video emplean una técnica llamada difusión latente. En lugar de procesar datos en bruto —los millones de píxeles de cada cuadro de video—, el modelo opera en un espacio latente, donde los cuadros (y el prompt de texto) se comprimen en una representación matemática que conserva solo las características esenciales de los datos y descarta el resto.
Pero todavía falta una pieza más: cómo asegurarse de que el proceso de difusión produzca una secuencia de cuadros consistente de uno a otro. El camino de OpenAI para resolverlo fue combinar su modelo de difusión con otro llamado transformer.
Los transformers están diseñados para procesar secuencias largas de datos, como palabras o tokens. Eso los convirtió en componentes fundamentales de los grandes modelos de lenguaje, como GPT-5 y Gemini de Google DeepMind.
Combinar modelos de difusión con transformers ayuda al primero a mantener la consistencia entre cuadros a medida que los genera. Esto permite producir videos en los que, por ejemplo, los objetos no aparecen y desaparecen de manera arbitraria.
Dado que los videos se procesan en fragmentos, su tamaño y orientación dejan de ser un problema central. Esto significa que la última ola de modelos de generación de video puede entrenarse con una gran variedad de materiales, desde clips verticales grabados con teléfono hasta películas cinematográficas en formato panorámico.
Pero todavía falta un paso más. En los modelos más recientes se incorpora también el audio: diálogo, sonido ambiente y efectos. Eso exige sincronizar dos tipos de información distintos —imagen y sonido— dentro de un mismo proceso generativo. Es un salto técnico importante, porque ya no se trata solo de que “se vea bien”, sino de que también suene coherente con lo que ocurre en pantalla.