Technologie
8
min read

Speech-to-text naamnauwkeurigheid - AI's grootste zwakte oplossen

Published on
November 1, 2025
by
Vincent Theeten

Wanneer AI je naam verkeerd verstaat

Je hebt het waarschijnlijk al meegemaakt.

Je spelt je naam uit tijdens een telefoongesprek, langzaam, duidelijk, zoals je dat door de jaren heen hebt geleerd.

"Stephan. Dat is S-T-E-P-H-A-N."

De bot bedankt je beleefd.

En slaat je naam vervolgens op als Stefan.

Op dat moment gaat alles mis.

De opvolg-email komt nooit aan.

Je supportticket is niet terug te vinden.

Het verkoopteam belt nooit terug, omdat ze je naam helemaal niet hebben gezien.

En het gebeurt vaker dan je denkt.

Het probleem met namen in spraak

De meeste voice systemen gebruiken vandaag algemene Speech-to-Text (STT) tools. Die werken prima voor natuurlijke gesprekken, maar hebben het moeilijk wanneer iemand begint te spellen. Vooral bij namen, waar zelfs één verkeerde letter alles verandert.

Hier gaat het mis:

  • Kleine variaties die de hele identiteit veranderen (Stephan vs Stefan)
  • Lange of samengestelde achternamen (Van Den Broeck vs Vanden Brouck)
  • Veelvoorkomende verwarringen zoals B vs P, M vs N, V vs F
  • E-mailadressen waar "at" wordt overgeslagen of "punt" "pint" wordt

Een veelgebruikte oplossing in andere landen is het NAVO- of militaire alfabet – "B als in Bravo," "F als in Foxtrot."

Mijn achternaam is Desmet. Dat is D als in Delta, E als in Echo, S als in Sierra, M als in Mike, E als in Echo, T als in Tango.

Maar hier in België doet bijna niemand dat. Het is langdradig, omslachtig, ongewoon, onnatuurlijk en het zou gewoon niet werken. Dus we forceren het niet.

In plaats daarvan, wanneer onze voice agent niet zeker is, vraagt die gewoon:

"Is dat Stephan met P-H, of gewoon met een F?"

Want soms is alles uitspellen niet de beste weg, de juiste vervolgvraag stellen wel.

Waarom we dit doen bij Ringtime

Bij Ringtime bouwen we voice agents die menselijk aanvoelen. Niet alleen in toon, maar in hoe goed ze luisteren. Dat betekent je naam en email correct krijgen op de eerste poging of om verduidelijking vragen op een manier die natuurlijk aanvoelt, niet robotisch.

Want wanneer namen of emails fout zijn:

  • Verdwijnen leads
  • Blijven tickets vastzitten
  • Faalt automatisering
  • Verliezen gebruikers hun geduld

Het is een klein maar cruciaal onderdeel van de flow en het oplossen ervan past perfect in onze missie om voice technologie te bouwen die écht werkt in de echte wereld.

Introductie van onze simpele demo voice agent

Doorheen deze reeks gebruiken we een praktijkvoorbeeld om precies te illustreren waarom namen en emails er zo toe doen.

We bouwen een simpele voice agent voor een zonnepanelen installatiebedrijf. Zijn enige job is het nauwkeurig vastleggen van contactinformatie van klanten bij inkomende telefoonleads:

"Hallo daar! Bedankt voor je telefoontje naar SolarTech. Ons team is momenteel niet beschikbaar, maar we contacteren je graag. Mag ik je volledige naam en e-mailadres?"

Klinkt makkelijk? Dat is het niet.

Als het systeem ook maar lichtjes verkeerd hoort of interpreteert, verdwijnt de lead. We zullen dit scenario herhaaldelijk testen tegen standaard speech-to-text platformen, en duidelijk illustreren waar ze tekortschieten en hoe onze aanpak het verschil maakt.

Waar het meestal misgaat

Dit is wat we keer op keer zien bij real-world voice inputs:

  • "Eveline" kan ook "Evelien" of "Evelyne" zijn
  • "Stephane" wordt geïnterpreteerd als "Stefan"
  • "Van Den Broeck" wordt gecompacteerd of herspeld als "Vanden Brouck" of "Vandenbrook"
  • "vincent punt theeten at gmail punt com" wordt vincent.theeten.gmail.com – geen "at" te bespeuren
  • Letters zoals B en P, M en N, F en V worden vaak verward

Dit zijn niet altijd "fouten" in de traditionele zin. Namen zoals Evelien en Evelyne zijn ook perfect geldig. Het probleem is dat uitgesproken namen vaak fonetisch dubbelzinnig zijn. Zonder de juiste context of het vragen om verduidelijking, maakt het systeem gewoon een gok. En vaak gokt het verkeerd.

Voor high-stakes inputs zoals namen en emails is "ongeveer goed" niet goed genoeg.

Probeer deze voorbeeldinput:

"Mijn naam is Eveline Vanden Brouck – E-V-E-L-I-N-E V-A-N-D-E-N B-R-O-U-C-K at gmail punt com"

Maar een paar letters fout. Het resultaat? Volledig onbruikbaar.

Niet speech-to-text vervangen, gewoon laten werken

We bouwen STT niet opnieuw vanaf nul. De modellen die er zijn, zijn krachtig, maar ze zijn algemeen. Wat wij gebouwd hebben, is een laag die erna komt.

Het doet wat geen off-the-shelf tool vandaag doet:

  • Begrijpt de context achter namen en emails.
  • Handelt de fouten af die ertoe doen.
  • Beslist wanneer de gebruiker om verduidelijking vragen in plaats van gokken.

We proberen het wiel niet opnieuw uit te vinden. We zorgen er gewoon voor dat het goed rolt.

Waarom beginnen we met namen en emails? Ze zijn kort. Ze zijn simpel (op papier). Maar ze zijn vaak het eerste wat een gebruiker zegt, en het makkelijkst om fout te krijgen. Ze zijn ook high-stakes: Je kan geen spelfout permitteren in een email. Je kan geen naam veronderstellen.

We beginnen hiermee, omdat dit is waar vertrouwen gewonnen of verloren wordt.

Dit gaat veel verder dan 🇧🇪 België

België is een geweldige plek om te starten: het is rommelig. Je hebt Nederlands, Frans en Engels. Hybrides, spatiëring, stille letters en uitspraakchaos.

Maar dit probleem is globaal. Het duikt op in elk land waar mensen hun naam uitspellen over de telefoon, waar emails worden gedicteerd, waar letters net iets te dicht bij elkaar klinken.

We starten hier omdat het de moeilijkste testcase is. Maar we bouwen met schaal in gedachten.

Wat komt er in de reeks

In de volgende posts delen we:

  • Hoe we een mix van STT engines en voice agent platformen testen – van open modellen tot commerciële tools – om te zien hoe goed ze namen en emails aankunnen.
  • Hoe goed ze namen en emails out of the box aankunnen.
  • Wat we meten (correcte naam identificatie, email nauwkeurigheid, spelling consistentie).

Tot slot

Speech-to-Text is indrukwekkend. Maar het schiet nog steeds tekort op iets zo basaal als het begrijpen van een naam of het nauwkeurig noteren van een e-mailadres. Dat is waar wij op gefocust zijn.