Lauréat AMI Sphère Publique — DINUM × DGE
Comment Gilbert atteint 98,2 % de précision en français
Technologie3 Fév 2026·8 min de lecture

Comment Gilbert atteint 98,2 % de précision en français

Entraîner un modèle de reconnaissance vocale pour le français ne se résume pas à traduire un modèle anglais. Retour sur notre approche technique.

RD

Équipe R&D

Gilbert AI

98,2 % de précision en français. Ce chiffre, nous ne l'avons pas inventé — il est mesuré sur un benchmark interne de 500 heures d'échanges professionnels réels, couvrant 10 secteurs d'activité. Voici comment nous y sommes arrivés.

Pourquoi le français est un défi particulier

La plupart des modèles de reconnaissance vocale sont entraînés principalement sur l'anglais, puis adaptés aux autres langues. Cette approche pose plusieurs problèmes pour le français :

  • Les liaisons et enchaînements — "les entreprises" se prononce comme un bloc, pas comme deux mots séparés
  • Les homophones — "compte", "conte" et "comte" sonnent identiquement
  • Le vocabulaire technique français — les termes juridiques, financiers et médicaux ont des prononciations spécifiques que les modèles anglais ne connaissent pas
  • Les accents régionaux — un même mot peut sonner très différemment entre Marseille, Lille et Paris

Notre approche : entraînement natif, pas traduction

Nous n'avons pas pris un modèle anglais pour le "fine-tuner" en français. Nous avons construit nos modèles acoustiques et linguistiques nativement pour le français, avec plusieurs couches d'intelligence :

1. Modèle acoustique français natif

Entraîné sur des milliers d'heures d'audio français — conversations professionnelles, pas des podcasts ou des livres audio. La différence est cruciale : le rythme, les interruptions, le bruit de fond d'une visio ne ressemblent en rien à un enregistrement studio.

2. Modèle linguistique sectoriel

Pour chaque verticale métier (juridique, finance, tech, santé…), nous avons constitué des corpus de vocabulaire spécialisé. Quand un avocat dit "clause résolutoire", notre modèle sait que c'est plus probable que "close résolutoire". Cette contextualisation sectorielle est ce qui fait passer la précision de 92 % à 98 %.

3. Diarisation avancée

Identifier qui parle est tout aussi important que comprendre ce qui est dit. Notre système de diarisation fonctionne avec 2 à 15 speakers simultanés, même quand ils se coupent la parole — ce qui arrive en moyenne toutes les 47 secondes dans un échange professionnel français.

Le benchmark : 500 heures, 10 secteurs

Notre benchmark couvre :

  • 50h de comités de direction
  • 60h d'échanges juridiques
  • 45h de comités d'investissement
  • 55h d'ateliers de conseil
  • 40h d'appels commerciaux
  • 50h de rituels tech (sprint reviews, post-mortems)
  • 40h d'entretiens RH
  • 35h de staffs médicaux
  • 35h d'expertises immobilières
  • 40h d'audits conformité

Sur l'ensemble, le Word Error Rate (WER) moyen est de 1,8 %, soit une précision de 98,2 %. Sur certains secteurs comme la finance et le juridique, où le vocabulaire est plus structuré, nous atteignons 98,7 %.

Et après ?

Notre objectif est d'atteindre 99 % d'ici fin 2026, notamment en améliorant la gestion des accents régionaux et des échanges multilingues (français-anglais, de plus en plus fréquents en entreprise).

La précision n'est pas un chiffre marketing. C'est le fondement de la confiance. Si un mot technique est mal transcrit, c'est toute la chaîne — synthèse, décisions, actions — qui s'effondre. C'est pourquoi nous investissons autant sur ce sujet.

Prêt à tester ?

300 minutes offertes. Sans carte bancaire. Prêt en 30 secondes.