Hoe ik een AI-kloon van mezelf bouwde die je echt kan bellen
Tijdens het bouwen van Ringtime creëerde ik een AI-versie van mezelf die je effectief kan bellen en mee kan praten.
Niet als een gescripte demo of chatbot, maar iets dat échte gesprekken kon voeren over Ringtime zoals ik dat doe. De inspiratie kwam van de Shell Game podcast, die verkent hoe identiteit, stem en technologie op ongemakkelijke maar fascinerende manieren vervagen. Als dit je ook maar een beetje interesseert, moet je het checken.
Wat begon als een weekend-experiment werd een van de meest concrete manieren waarop ik ervaren heb wat AI agents echt zijn. Geen slides. Geen abstracties. Gewoon een telefoongesprek dat de technologie ongemakkelijk reëel maakte.
In dit artikel loop ik stap voor stap door hoe ik mijn eigen AI voice agent bouwde. Dit is geschreven voor nieuwsgierige beginners, niet voor hardcore engineers. Op het einde zul je zien dat er één bouwen heel haalbaar is - en confronterender dan je zou verwachten.
Stap 1: Neem je stem op en kloon die
De eerste stap was het creëren van een bruikbare kloon van mijn eigen stem.
Praten werkt beter dan lezen, dat is het belangrijkste wat ik leerde. Voice modellen pikken natuurlijk ritme, aarzeling en flow veel beter op wanneer je vrij spreekt in plaats van tekst voorleest. Klonen is mogelijk met amper 30 seconden audio en die korte samples zijn eerlijk gezegd vrij goed, maar voelen niet helemaal echt aan. Als je om subtiele accenten en pacing geeft, loont langer echt de moeite.
Dit is vooral belangrijk voor lokale accenten. Vlaams versus Nederlands is een geweldig voorbeeld. Als je wil dat de subtiele "euhs", pauzes en regionale cadans er natuurlijk uitkomen, heb je meer materiaal nodig.
Ik nam bijna twee uur audio op, niet in één keer, maar in korte snippets. Continu praten voor lange periodes is verrassend moeilijk wanneer je alleen in een kamer zit. Om de dingen vloeiend te houden, gebruikte ik ChatGPT om prompts en onderwerpen te genereren.
De mislukking: Ik nam die eerste twee uur op, uploadde alles naar ElevenLabs en probeerde de voice clone. Het was niet goed genoeg. De cadans voelde verkeerd, het accent te generiek. Ik realiseerde dat ik te veel aan het lezen was in plaats van effectief te praten. Dus ging ik terug en nam nog een sessie op, deze keer puur conversationeel. Dat maakte het hele verschil.
Na het opnemen vraagt de voice cloning tool je om het model te valideren door specifieke zinnen te lezen. Het checkt of je live stem overeenkomt met de opgenomen samples. Interessant genoeg, ook al was het mijn stem, faalde de validatie vaak op de eerste poging. Het kostte een paar pogingen om goedgekeurd te worden, een goede herinnering van hoe precies deze systemen zijn.

Eén onverwacht voordeel: ik publiceerde mijn gekloonde stem naar de ElevenLabs voice library, waar andere gebruikers hem kunnen licensen voor hun projecten. Tot nu toe heb ik €12 verdiend zonder iets te doen, in ongeveer 5 weken. Geen life-changing geld, maar een grappige herinnering dat zodra je jezelf gekloond hebt, je letterlijk geld kan verdienen terwijl je slaapt. Je stem kan aan het werk zijn zelfs wanneer jij het niet bent.
Key takeaway: korte opnames werken, maar langere, meer natuurlijke spraak geeft je veel betere controle over nuance en accent. En lees niet. Praat.
Step 2: Bouw een gestructureerde 'knowledge base'
Vervolgens gaf ik de agent een brein.
Mijn 'knowledge base' was best uitgebreid. Ongeveer 40 pagina's informatie over mezelf en Ringtime, gestructureerd in duidelijke secties:
- Persoonlijke identiteit: naam, taalvoorkeuren, persoonlijkheidstrekken, communicatiekwirks
- Communicatiestijl: taalgevoeligheid, leiderschapsstijl, managementfilosofie
- Persoonlijke interesses & invloeden: boeken, hobby's, overtuigingen en levensfilosofie
- Meta & geheugenlogica: wat ik niet weet, wat privé moet blijven
- Over Ringtime: hoe het begon, productdetails, marktpositionering, competitief landschap
- Industrie-specifieke pijnpunten: vastgoedkantoren, property management, SaaS support, utilities, terugkerende diensten
- Klanten: vroege klanten en marktrespons

Ik voegde ook secties over wetten en regels toe. "Mag je mensen bellen met AI?" met aparte nota's voor België versus de Verenigde Staten. Deze details doen ertoe wanneer je kloon vragen over legaliteit of ethiek kan krijgen.
Het belangrijkste deel hier is structuur. Ik gebruikte Markdown-style formatting, gelijkaardig aan wat goed werkt in tools zoals Notion. Duidelijke headings, secties en hiërarchie maken het veel makkelijker voor een AI agent om de juiste context op te halen tijdens een gesprek.
Dit is ook waar je guardrails definieert. Waarover mag de agent niet praten? Welke onderwerpen zijn taboe? Waar moet hij afwimpelen of vaag blijven?
In mijn geval:
- Geen klantdetails. De agent kan erkennen dat we betalende pilots & klanten hebben, enkele specifieke klanten mogen vernoemd worden maar anderen niet.
- Geen politieke standpunten tenzij expliciet gedocumenteerd in de kennisbank.
- Geen persoonlijke details verder dan wat relevant is om Ringtime of mijn professionele achtergrond te begrijpen.
Als je die grenzen hier niet definieert, zal de agent later improviseren en dat is meestal niet wat je wil.
Bij Ringtime is deze laag cruciaal. Kenniskwaliteit en structuur zijn veel belangrijker dan ruwe model-intelligentie.
Stap 3: Definieer persoonlijkheid en gedrag
Dit is hie je eigen virtuele zelf echt tot leven komt.
De persoonlijkheidsprompt is waar je de agent leert hoe jij te zijn, niet alleen wat te zeggen. Dit zijn de belangrijkste bouwstenen die ik gebruikte:
Identiteit & Taal
- Naam: Diederik Syoen. Bijnaam Didi voor vrienden.
- Spreek standaard Nederlands. Wissel alleen van taal als expliciet gevraagd.
De agent weet wie hij is en welke taal hij standaard moet gebruiken.
Eigenschappen
- Rationeel, opgewekt, authentiek, humor, direct en emotioneel stabiel.
- Humor is droog.
- Rol: Virtuele voice versie van Diederik Syoen: oprichter, tech enthousiast, marketeer die het haat een marketeer genoemd te worden.
Dit weerspiegelt hoe ik effectief communiceer. Geen fake enthousiasme. Geen corporate speak.
Toon & Spraakpatronen
- Antwoorden moeten kort zijn, 1 tot 2 zinnen maximum, tenzij de gebruiker expliciet om meer vraagt.
- Voeg natuurlijke pauzes toe
- Switch naar West-Vlaams wanneer contextueel gepast.
Dit is cruciaal. Zonder expliciete instructies om beknopt te zijn, ratelen LLMs maar door. De instructie laat de agent authentiek West-Vlaams aanvoelen.
Doelen
- Wees een digitaal verlengstuk van Diederiks brein en stem.
- Leg complexe ideeën simpel en praktisch uit.
- Begeleid gesprekken naar duidelijkheid en volgende stappen.
- Laat gebruikers voelen dat ze met iemand echt, gevat, en doordacht gesproken hebben, zelfs als het AI is.
Guardrails
- Stay grounded: overdrijf niet of verdraai standpunten niet.
- Als onzeker, erken het met humor ("Kan bullshit zijn, maar hier is mijn beste gok...").
- Geen Fakery: Als je iets niet weet, zeg het.
- Klanten: Als gevraagd over klanten, zeg dat we een paar betalende pilots hebben maar het is te vroeg om namen te delen.

Deze stap zorgt voor een enorm verschil. Zonder is het een generieke assistent. Met deze prompt krijg je iets dat effectief als een persoon voelt.
De volledige prompt is ongeveer 500 woorden. Elke zin dient een doel: grenzen definiëren, toon zetten, of generiek AI-gedrag voorkomen.
Stap 4: Verbind de agent met een telefoonnummer
Zodra de stem, kennis en persoonlijkheid er waren, verbond ik de agent met een echt telefoonnummer.
Je kan mobiele nummers kopen via providers zoals Twilio of Aircall. Binnen ElevenLabs is een agent linken aan dat nummer letterlijk "import phone number" klikken en het verbinden.
Dat is het. In essentie is deze stap triviaal. Het harde werk is alles wat ervoor kwam: de stemkwaliteit, de kennisstructuur, de persoonlijkheidsdefinitie. Zodra die stukken kloppen, is de technische verbinding straightforward.
Vanaf dat moment betekende het nummer bellen rechtstreeks praten met de AI-versie van mij. Spraak wordt getranscribeerd, verwerkt en teruggesproken in mijn gekloonde stem met slechts een korte delay.
Dit is het moment waar AI ophoudt abstract te zijn. Een telefoongesprek voelt reëel.
Stap 5: Fine-tuning van de gespreksexperience
Zodra de basics werken, zijn er verschillende technische settings die kunnen beïnvloeden hoe natuurlijk de gesprekken aanvoelen.
Audio format
Ik zette het input format op μ-law 8000 Hz (telephony standard). Dit zorgt ervoor dat de audiokwaliteit overeenkomt met wat mensen van telefoongesprekken verwachten, niet te crisp, niet te gecomprimeerd.
Keywords
Ik definieerde een lijst van keywords die de spraakherkenning moet prioriteren: Ringtime, Teamleader, Cheqroom, Ieper, SaaS, ai. Dit zijn termen die anders verkeerd gehoord of autocorrected kunnen worden. Klein detail, maar het voorkomt awkward momenten waar de agent je bedrijfsnaam verkeerd hoort. Grappig, absurd hoe slecht ik het woord 'ai' uitsprak in het begin.
Eagerness
Dit controleert hoe 'eager' de agent is om te antwoorden. Hoge eagerness betekent dat de agent snel inspringt, lage eagerness betekent dat hij langer wacht om zeker te zijn dat je uitgesproken bent. Ik zette de mijne op "Normal", responsief genoeg om natuurlijk te voelen, maar niet zo eager dat hij interrumpeert.
Take turn after silence
Maximum seconden sinds je het laatst sprak voordat de agent antwoordt en een 'turn' forceert. Ik zette de mijne op 7 seconden. Een waarde van -1 betekent dat de agent oneindig wacht op input, wat awkward dode lucht creëert.
Languages
Ik kon plots Spaans en Italiaans spreken. Zelfde stem, verschillende talen. Het is een vreemde maar fascinerende ervaring.
LLM choice
Je kan kiezen welk taalmodel de agent gebruikt. Er zijn veel opties, elk met verschillende latency en intelligence tradeoffs. Voor deze use case doet lage latentie er meer toe dan diepe redenering. De agent hoeft niet briljant te zijn, hij moet responsief aanvoelen en de mijn knowledge base is al bij al beperkt.
Deze settings lijken minor, maar ze zijn het verschil tussen een gesprek dat vloeit en één die robotisch voelt.
Experimenteer hier mee.
Wat dit experiment me leerde
Een virtuele versie van mezelf bouwen maakte een paar dingen heel duidelijk.
- Deze technologie is toegankelijk. Je hoeft geen engineer te zijn.
- Structuur en persoonlijkheid doen er meer toe dan ruwe intelligentie.
- De stem verandert hoe mensen zich tot AI verhouden.
En zodra je een paar keer met zo'n AI gepraat hebt, stopt het met futuristisch aanvoelen. Het voelt gewoon normaal.
Bij Ringtime nemen we diezelfde basis en harden het voor echt bedrijfsgebruik: leads kwalificeren, objecties hanteren, meetings boeken en dat allemaal via stem.
Want praten met AI voelt vreemd aan tot op het moment dat je het doet. Dan is het gewoon een gesprek.
Een weekendproject is geen bedrijfssoftware
Iedereen kan ondertussen een voice agent bouwen. Deze gids zou je er in een paar uur moeten krijgen.
De agent die ik hierboven beschreef is fun, indrukwekkend en een geweldige manier om te begrijpen wat mogelijk is. Hij zal zeker je vrienden, collega's of partners imponeren. Maar laten we eerlijk zijn: hij is niet erg slim. Hij runt geen business. Hij vervangt geen echt operationeel werk.
Dat onderscheid zit in de kern van Ringtime.
Weekend clone vs. Ringtime agent:
- Weekend clone: Beantwoordt vragen over mij
- Ringtime agent: Kwalificeert leads, boekt afspraken, integreert met CRM, routeert naar mens wanneer nodig, leert van resultaten en wordt beter met elke gesprek.
Bij Ringtime starten we van dezelfde fundamenten: LLMs, voice technologie en voice cloning. Maar we stoppen niet bij een pratende agent. We bouwen end-to-end logica rond echte business flows.
Onze agents zijn getraind om taken uit te voeren die je team vandaag uitvoert en in veel gevallen om ze beter te doen. Onze vastgoed kwalificatie agents kunnen inkomende property inquiries 24/7 aanpakken, de juiste kwalificerende vragen stellen, beschikbaarheid checken, en bezichtigingen boeken. In het Nederlands, Frans, of Engels. Onze outbound kwalificatie agents leren van meer dan 100.000 echte gesprekken. Ze weten hoe een sterk verkoopgesprek klinkt, wanneer te bellen, wanneer niet te bellen, welk persona op de telefoon te gebruiken en welk script bij de situatie past.
Bovenop dat zijn Ringtime agents diep geïntegreerd in je bestaande processen, zowel front als back. Van lead intake tot kwalificatie, van geavanceerde planning tot follow-up voor je team. Allemaal connected. Allemaal continu lopend. Buiten kantooruren en tijdens het weekend.
Hier is een concreet voorbeeld: voor één van onze klanten zien we al dat 53% van de meetings geboekt via Ringtime buiten kantooruren gebeuren. Dat is business die je anders misschien niet gehad had, leads die naar voicemail gegaan waren of tot maandagmorgen gewacht hadden, potentieel afkoelend of naar een concurrent gaand.
De magie is niet de stem. De magie is het systeem erachter.
.png)



