Hoe de podcast wordt gemaakt.
The Seam is een AI-gemaakte podcast, en het moeilijke was nooit het genereren van de spraak — dat is opgelost. Het moeilijke is het laten klinken als drie mensen in een kamer in plaats van drie schone voice-overs. De workflow doet dat door de imperfectie er bewust weer in te schrijven: scripts opgezet als een scenario met de haperingen erin, stemmen op de meest expressieve stand van ElevenLabs, echte overlappende audio, één gedeelde “microfoon” over elke spreker, een beetje ruimte, en een geseede laag stoelen en kuchjes die zich nooit herhaalt. Geprompt, daarna gekozen.
01Het unheimische
De eerste keer dat ik een afgewerkte aflevering terugluisterde, was het verontrustende niet dat de stemmen synthetisch waren. Het was dat één ervan de mijne was — een kloon van mijn eigen stem, in discussie over marketing met vier mensen die nooit hebben bestaan, in een studio die nooit is gebouwd. En het klonk, min of meer, als een echt gesprek.
Dat “min of meer” is de hele klus. Een machine overtuigend woorden laten zeggen is in 2026 een opgelost probleem. Een machine als een ruimte laten klinken — mensen die ademen, tegen de microfoon stoten, door elkaar praten, hardop denken — is dat niet. The Seam is mijn doorlopende experiment om dat laatste gat te dichten, en zo wordt het écht gemaakt.
02Schoon verraadt het
Het tegen-intuïtieve: de neiging bij een nieuwe tool is jagen op getrouwheid — schonere audio, scherpere woorden, minder artefacten. Maar juist schoon verraadt een synthetische podcast. Een echte opname zit vol kleine missers: een stoel kraakt, iemand begint een zin twee keer, twee mensen landen op hetzelfde woord en één trekt zich terug, een kopje gaat halverwege een gedachte op tafel. Haal dat er allemaal uit en je krijgt iets technisch perfects en meteen nep — de audioboek-uncanny-valley.
Dus het werk loopt tegengesteld aan de tooling. Het model wil je een vlekkeloze read geven; het ambacht is de missers er bewust weer in zetten, op de juiste plekken. Realisme zit in de naden — wat toevallig de naam van de show is.
03De pijplijn
De workflow is een setje scripts, op volgorde gedraaid. Eerst het script zelf, geschreven als een scenario in plaats van een essay: een vaste cast met eigen registers, een echte discussie, en — cruciaal — de haperingen in de tekst. Half-afgemaakte zinnen, “nou, nee, ik bedoel”, een host die hardop denkt en een gast die droog en zeker is. Het model speelt wat er staat, dus als de pagina te netjes is, is de read te netjes.
Dan de stemmen. Elk personage is een ElevenLabs-stem — de mijne is een kloon; de rest is ontworpen — gerenderd via het v3 text-to-dialogue-model, dat het hele gesprek in één keer neemt en de prosodie over sprekers afstemt. De expressie-knop staat op zijn losst (“Creative”), wat wat stabiliteit inruilt voor een read die hapert en landt als een mens, niet als een verteller. Daarbovenop een bookend-trailer en een klein advertentiesysteem, zodat elke aflevering opent en sluit als een echte show.
04De missers er weer in bouwen
Dit is het deel dat het verkoopt — een stapel bewuste imperfecties, gelaagd nadat de stemmen zijn gegenereerd:
- Echt door elkaar praten. Het dialoogmodel rendert beurten ná elkaar, dus een geschreven “[onderbreekt]” overlapt nooit echt. Om twee mensen écht te laten botsen, wordt de onderbrekende zin als eigen clip gerenderd en terug over de staart van de vorige gemixt — je hoort ze even allebei.
- Eén microfoon. Elke gekloonde stem komt met een net andere toon. Eén gedeelde channel strip — een broadcast-EQ in de geest van een SM7B — wordt op elke spreker gedrukt, zodat je één consistente ruimte krijgt in plaats van drie microfoons.
- Een beetje ruimte. Een heel lichte reverb vóór die “microfoon”, zodat de stem klinkt alsof hij in een ruimte is opgenomen — lucht eromheen, geen echo.
- Foley die zich nooit herhaalt. Een kleine gegenereerde bibliotheek van krakende stoelen, kopjes, papier, zachte kuchjes en ademhaling, spaarzaam en laag onder het gesprek, elke keer gejitterd (toonhoogte, niveau, stereopositie, timing, een seed per aflevering) — gevoeld, niet opgemerkt.
- Dynamiek met rust gelaten. Een milde buscompressor en een breed loudness-bereik, plus een vage room-tone onder het geheel, zodat de track ademt in plaats van vlak en over-gepolijst te zitten.
Geen ervan is op zichzelf slim. Samen verschuiven ze het resultaat van “indrukwekkende demo” naar “wacht, zaten ze écht in dezelfde kamer?”
05Geprompt, daarna gekozen
De regel onderaan deze hele site is “geprompt, daarna gekozen,” en de podcast is het duidelijkste voorbeeld. Het model genereert eindeloos; het geeft je voor altijd een competente versie. Wat het niet kan, is beslissen welke take een hartslag heeft, waar een beat moet ademen, wanneer een onderbreking grappig is in plaats van irritant, of de ruimte eindelijk echt klinkt. Dat oordeel — het kiezen — blijft menselijk, en betere tools maken dat alleen waardevoller.
Dus: niets hiervan is in een studio opgenomen, en elke seconde is door één gekozen. Wil je horen waar de naden landen, de show is één klik weg — luister naar de stoel die op precies het verkeerde moment kraakt. Die was met opzet.
Where the numbers came from.
De podcast zelf — alle afleveringen van The Seam.
Luister op rutgertuit.nl/podcasts. Elke stem is synthetisch; de meningen zijn persoonlijk, niet die van Google.
Het stemmodel: ElevenLabs Eleven v3 (text-to-dialogue).
Multi-speaker-generatie met gedeelde prosodie en audio-tags — elevenlabs.io/docs.
De volledige toolchain staat open vermeld.
Modellen, infrastructuur en prompt-pijplijnen staan in de colofon.
If any claim here is mis-cited or out of date, mail me at rt.nl/contact and I'll fix or retract.
