The Evolution of Video Models

MOTION · VIER VEO-GENERATIES · ÉÉN SCÈNE

De brief werd stiller.

Ik prompt dezelfde scène van acht seconden al sinds eind 2024 keer op keer opnieuw. Ik aan de Moog in de studio. Een trage progressie van vier akkoorden, warm hoofdlicht, stof in de lucht. Niets bijzonders. Het soort clip dat ik in een portfolioreel zou monteren.

De output werd beter, voorspelbaar. De brief werd korter, veel minder voorspelbaar. Veo 2 had 260 woorden nodig en een omweg voor de stilte. Omni had veertien woorden nodig en een vervolgnotitie. Bekijk de vier briefs naast elkaar en het architecturale verhaal vertelt zichzelf.

BRIEF260

Een cinematische video, medium shot, op ooghoogte. Een kale man van begin veertig — volle baard, lichte stoppels langs de kaaklijn, donker leigrijze hoodie onder een zwaarder zwart overshirt — zit aan een vintage analoge synthesizer in een omgebouwde Rotterdamse loodsstudio. De synth is een Moog Voyager, houten zijpanelen, tweehandige houding, zijn rechterhand op de toetsen halverwege het klavier, zijn linkerhand stelt de cutoff-knop in de linkerbovenhoek van het paneel bij.

Zacht, gelijkmatig hoofdlicht van linksaf bij ongeveer 3200K. Een koeler 4500K-randlicht van rechtsaf, dat hem losmaakt van de donkere betonnen muur achter hem. Zichtbare stofdeeltjes in de lichtbundels. Camera: 35mm-lens, lichte push-in van 5% over de acht seconden. Het onderwerp is volledig geconcentreerd; hij kijkt niet in de camera. Hij speelt drie of vier akkoorden over de acht seconden. Zijn hand op de cutoff-knop beweegt één keer, langzaam, halverwege de clip.

Kader het shot strak genoeg om zijn gezicht te lezen, maar breed genoeg om het synth-paneel van rand tot rand mee te nemen. Belichtingswaarden warmer in de middentonen, diepe zwarten in de schaduwen. Stijlreferentie: cinematische film, 1080p, 24 fps, lichte cinematische filmkorrel. Geen tekst in beeld.

*Geen muziek in de gegenereerde audio — de synth zelf mag niet hoorbaar zijn, deze clip wordt apart in post van muziek voorzien.*

OUTPUTVEO 2

VEO 2 · DEC 2024 · 260 WOORDEN

Architecturale staat: latente diffusie, geen native audiopad, geen multi-turn-geheugen.

Wat de brief moet dragen: de hele wereld. Coördinaten, kleurtemperaturen, lenskeuze, houding, timing van de beweging. De laatste regel van de prompt is een omweg voor een vermogen dat het model niet heeft.

Noem het de Briefing Inversion. De verhouding tussen regisseur en renderer kantelt. De Veo 2-brief leest als regie-aanwijzingen omdat het model niets kon afleiden — de prompt moest de wereld zijn. De Omni-brief leest als een notitie aan een bekwame collega die de situatie al heeft ingeschat. Dezelfde scène. Dezelfde imperfecte referentie. Een ander cognitief contract.

De waarheid in vier kolommen

Generatie	Brief draagt	Model leidt af
Veo 2	De hele wereld. Specs op hardwareniveau. Een omweg voor stilte.	Bijna niets — het rendert wat je beschrijft.
Veo 3	Scène + sfeer + audioregie.	Visuele details op hardwareniveau. De brug tussen cutoff-knop en geluid.
Veo 3.1	Een alinea intentie. Een referentiebeeld. Twee rekentiers.	Identiteit van het personage. Garderobe. Camerapad uit een bijvoeglijk naamwoord.
Omni	Eén zin. Een reeks vervolgnotities die elk niets kosten.	Fysieke continuïteit over bewerkingen heen. De architectuur van de scène.

De Briefing Inversion. De brief wás vroeger de wereld. Nu is het model de wereld, en de brief is een notitie eraan.

Die verschuiving in het contract is waar de rest van deze pagina over gaat. De vier secties hieronder zijn vier verschillende manieren om te kijken naar waarom het gebeurde.

CATALOGUS · WAAR ELK MODEL EIGENLIJK VOOR IS

Vier lijnen. Eén familie.

De krimpende brief in Sectie 1 is het gevolg. De oorzaak is dat Google tussen 2023 en 2026 stilletjes vier parallelle modelfamilies bouwde, en ze daarna samenvoegde tot één. Om de samenvoeging te begrijpen helpt het om te zien waar elk eigenlijk voor was — en waar het nog steeds eigenlijk voor is, ook nadat Omni de renderklussen heeft opgeslokt.

Vier kaarten hieronder. Kies degene die het dichtst bij je gebruik ligt.

Alle vier bestaan nog als product. Omni heeft ze niet gedood — het consolideerde de render-pipeline, niet de roadmap. Veo 3.1 Lite wordt nog uitgebracht omdat batch-rendering naar kostentier een andere klus is dan conversationeel bewerken. Lyria RealTime wordt nog uitgebracht omdat adaptieve gamemuziek een andere klus is dan compositie in één keer. Kies het model dat bij de klus past. Het "Omni doet alles" van de marketingafdeling klopt op hoofdlijnen en is op werkstroomniveau onbehulpzaam.

ARCHITECTUUR · CASCADE VS. SINGLE-PASS

Waarom één model er drie verving.

Tot mei 2026 was de standaardmanier om AI-video met geluid te maken een keten van gereedschappen. Veo rendert het beeld. Een apart model dubt de audio erin. Een aparte editor verzorgt de cuts. Een aparte watermerk-passage bedt de herkomst in. Vier gereedschappen, vier contextvensters, vier momenten waarop de naden kunnen gaan tonen.

De naden tonen ook. Audio loopt tegen de tweede cut een paar frames uit de lipsync. De hand van het personage ziet er in de close-up net iets anders uit, omdat het tweede gereedschap de volledige latente staat van het eerste gereedschap niet zag. Zes uur postproductie gaat op aan het verbergen van wat structureel hetzelfde probleem is: elk gereedschap ziet alleen zijn eigen plak.

Gemini Omni lost dat probleem niet op. Het weigert het te hebben.

Dit veranderde er onder de motorkap.

PANEEL A · CASCADE

Stapelt fouten op. Verliest consistentie van het personage over cuts heen. Audio loopt weg. Zes uur postproductie gaat op aan het verbergen van de naden.

PANEEL B · SINGLE-PASS

Eén coherente pass. Het model ziet elke modaliteit tegelijk. De amplitudepieken van de audio worden op de visuele tijdlijn gemapt als onderdeel van dezelfde berekening die de pixels plaatst.

Wat het mogelijk maakte — drie klussen.

VERANDER DE VLINDER IN EEN BIJ. VERANDER VERDER NIETS.

Verander de vlinder in een bij. Verander verder niets.

De bewerking leeft in het gesprek, niet in de opnieuw gegenereerde scène. Veo had je een nieuwe bloem in een nieuwe kamer gegeven.

BEELD GECHOREOGRAFEERD OP EEN TRACK DIE JE UPLOADT.

Beeld gechoreografeerd op een track die je uploadt.

Het model genereert geen audio om bij het beeld te passen. Het ontleedt de amplitudepieken van jouw audio en behandelt ze als een visuele tijdlijn. Veo kon het bestand helemaal niet lezen.

TEKST IN BEELD DIE NIET VERVORMT.

Tekst in beeld die niet vervormt.

Diffusietekst drift normaal gesproken halverwege het frame weg. Single-pass-tokenisatie zet de letters vast op het temporele raster. Dit was technisch het lastigst van de drie.

LANGE CONTINUÏTEIT. NOG NIET OPGELOST.

Lange continuïteit. Nog niet opgelost.

Omni Flash topt af op 10 seconden. Dat is een uitrolbeslissing — het model zou langer kunnen, de GPU-rekening wordt onbetaalbaar. Randgevallen van rigid-body-physics (botsingen, instortingen) gedragen zich ook nog steeds slecht. De architecturale verschuiving heeft niet alles opgelost; ze heeft de grens verlegd.

EERLIJKE BEPERKING

De architecturale samenvoeging is echt, maar ze is niet totaal. Drie creatieve klussen werden native mogelijk. Eén belangrijke klasse klussen werd niet opgelost. Het "Omni doet alles" van de marketingafdeling is een nuttige zin in een keynote en een misleidende in een inkoopvergadering.

Het meest zichtbare gevolg van single-pass-aandacht is dat het bewerkoppervlak geen tijdlijn meer is. Het is een gesprek. Sectie 4 laat je er een voeren.

SIMULATOR · CONVERSATIONEEL BEWERKEN · MOCK

Probeer het nu zelf.

Lezen over conversationeel bewerken is niet hetzelfde als erin typen. De simulator hieronder is niet echt — het is een namaak met gescripte antwoorden. Maar hij is trouw aan hoe het bewerkoppervlak van Omni zich werkelijk gedraagt: elke beurt past de vorige staat aan in plaats van vanaf nul opnieuw te genereren.

De startscène is die uit Sectie 1 — ik aan de Moog, acht seconden. Probeer een paar bewerkingen. Let op wat verandert en wat niet.

INVOERSLOTS

PROBEER DEZE

Mock Omni-monitor — startscène aan de Moog

OMNI FLASH · MOCK

BEURT 1 VAN ONBEPERKT

Push-in: traag · Referentie: 08-desk.png · Audio: synth gesynct

JIJ

[referentiebeeld bijgevoegd: 08-desk.png] Ik aan de Moog. Acht seconden. Cinematisch, trage akkoordprogressie. Mix van warm + koel licht.

OMNI (MOCK)

Gegenereerd. Het personage komt overeen met lichaam en garderobe van de referentie — het gezicht is gereconstrueerd uit het gedeeltelijke signaal. Clip van acht seconden op 1080p met gesynchroniseerde synth-audio. Trage push-in over de hele duur.

Twee dingen om op te merken aan je laatste bewerking:

Eén: de ruimte bleef. De belichting bleef. De Moog bleef. Zelfs toen je om een nieuw element vroeg, bleef de rest van de scène behouden. Dat is de multi-turn-context die het gesprek overleeft.

Twee: je schreef alsof je tegen iemand praatte. Geen coördinaten opgeven. Niet in de derde persoon schrijven. De manier waarop je de brief schreef, verschoof voordat je het doorhad.

Dat conversationele gemak heeft een prijs. Elke beurt is een verse inferentie-pass op een heel groot, duur te draaien model. Sectie 5 maakt die kosten zichtbaar.

COMPUTE · WAAROM FAST, LITE EN REALTIME BESTAAN

De kosten van een frame.

Generatieve video lijkt geen marginale kosten te hebben. Toch is dat niet zo. Trek aan de schuif hieronder om te zien wat een clip werkelijk kost aan elektriciteit. Dat getal is de reden dat Google's productlijn eruitziet zoals hij eruitziet — en het is de onuitgesproken beperking achter elk roadmapgesprek dat een CMO straks met een leverancier gaat voeren.

10 seconden

~200 Wh per gegenereerde seconde

TOTALE ENERGIE2.00 kWh

120MAGNETRON-MINUTEN

167SMARTPHONE-LADINGEN

2229W LED-UREN

Bron: geëxtrapoleerd uit publieke studies naar AI-rekenkracht. Specifieke per-model-cijfers van Google zijn niet beschikbaar.

Het videogetal is degene die ertoe doet. Eén minuut AI-video genereren verstookt ruwweg 200 wattuur per seconde — dat is ongeveer twaalf minuten een magnetron laten draaien voor elke seconde beeld. Een social-cut van vier minuten staat ruwweg gelijk aan de elektriciteit van veertig vaatwasbeurten.

Daarom kost Veo 3.1 Fast 90% minder dan standaard Veo 3.1. Daarom bestaat Veo 3.1 Lite. Daarom komt Lyria RealTime in brokken van 2 seconden in plaats van hele liedjes. Daarom topt Gemini Omni Flash af op 10 seconden.

De tiering is geen verwarring in de productlijn. Het is het zichtbare oppervlak van een thermodynamische beperking.

Kosten-en-latentietabel

Model · tier	Geschatte trainingsrekenkracht	Typische inferentielatentie	Waar het op geoptimaliseerd is
Veo 3.1 (Premium)	Grootste trainingsschaal (niet bekendgemaakt)	60–90 s voor clip van 8 seconden	Cinematisch 4K, hoge physics-getrouwheid
Veo 3.1 Fast	Gecomprimeerde variant	12–20 s voor clip van 8 seconden	Kostenbeheersing, iteratiesnelheid
Veo 3.1 Lite	Verder gecomprimeerd	Onder 15s voor 1080p	Goedkoopste batch-rendering
Lyria 3 Pro	Middelgrote trainingsschaal	15–30 s voor track van 3 min	Gestructureerde compositie met intro/coupletten/refrein
Lyria RealTime	Streaming-architectuur	~2 s per brok van 2 seconden	Continu interactief inscoren
Gemini Omni Flash	Verenigde multimodale kern	10–15 s voor clip van 10 seconden	Multi-turn conversationeel bewerken

Latentie is wat de API je vertelt. Kosten zijn waar het inkoopteam naar vraagt. Het is hetzelfde gesprek in een andere woordenschat.

Dus wanneer de deck van een leverancier je een Premium-tier en een Fast-tier en een Lite-tier laat zien voor wat op hetzelfde model lijkt, gaat de keuze niet echt tussen kwaliteit en snelheid. Het gaat tussen kwaliteit en hoeveel van deze je dit kwartaal kunt veroorloven te renderen. Dat is de inkoopvraag. Het resolutiegetal niet.

En daarom topt Omni Flash af op 10 seconden. Niet omdat het model niet langer kan. Maar omdat bij de stuksprijs van één enkele seconde verenigd-multimodale inferentie langer een zakelijke beslissing is die iemand nog niet heeft goedgekeurd.

Wat ons bij de enige alinea op deze pagina brengt die echt over jouw vergadering op donderdag gaat.

UITNODIGING · WAT JE HIERMEE DOET

De brief, op donderdag.

De versie van dit gesprek die op donderdag op jouw kantoor plaatsvindt, gaat niet over resolutie. Het gaat erover welke roadmap van welke leverancier 2027 overleeft.

Hier is de vuistregel waar ik steeds op terugkom. Wanneer een leverancier van generatieve video bij je pitcht, stel dan twee vragen. Ten eerste: uit hoeveel woorden bestaat de brief die hun beste demo voortbrengt? Als het nog steeds 200 woorden regie-aanwijzing is, kijk je naar architectuur van de vorige generatie in een nieuw marketingjasje. Ten tweede: hoe ontwikkelt de reken-kostprijs per seconde zich over hun tierlijn? Als hunLite-tier de outputkwaliteit van hun Premium-tier nadert, hebben ze de architectuur gevonden die schaalt. Zo niet, dan gaan ze verliezen van een concurrent die dat wel heeft.

Geen van beide staat op het specsheet van een leverancier. Beide liggen in het volle zicht in elke demo die een leverancier je maar al te graag geeft. De krimpende brief en de afvlakkende kostencurve zijn de twee voorlopende indicatoren. Resolutiegetallen zijn op zijn best een achterlopende indicator.

De verschuiving is niet het model. Het is het contract.
Tussen regisseur en renderer. Tussen brief en output. Tussen leverancier en koper.

VERWANT LEESVOER

The Multiplier Myth.

De boardroom-fout die een multiplier in een margekorting verandert, verandert ook een creatieve-AI-roadmap in een inkoopafgrond. Andere woordenschat, dezelfde vorm.

Lees het artikel

Werk je binnen je eigen organisatie aan een serieuze versie van deze vraag, dan geldt de stuur-me-een-bericht-uitnodiging uit de business-artikelen hier ook. Ik ga je niets verkopen. Ik zou alleen graag willen weten wat er echt werkt.

Hoe dit gemaakt is

The brief got quieter.