L’outil de reconnaissance vocale téléphonique développé par Allo-Media enregistre la meilleure performance de son secteur, en langue française

Le 22 octobre 2018 par Magazine En-Contact

(Exclusivité En-Contact )

5 fois plus efficace, commettant 7,7 % d’erreurs quand les principaux concurrents en commettent en moyenne 30 %, tels sont les résultats éloquents issus d’une étude qui sera certainement très commentée et auscultée. Elle intéressera tous ceux qui, dans les centres d’appels ou dans d’autres univers, capitalisent ou s’emparent de la reconnaissance vocale et du « speech analytics ».

La performance du moteur d’Allo-Media désormais établie et fruit des travaux engagés

Anthony Rousseau, responsable R/D, Allo-Media – © Edouard Jacquinet

Selon une étude publiée ce jour et réalisée par le département de recherche de la start-up française (voir les résultats ci-dessous) la performance comparée de son moteur de reconnaissance vocale permettrait, sur des conversations enregistrées dans des call centers, de retranscrire fidèlement les conversations en affichant un taux d’erreur de 7,7 % seulement. Il se rapprocherait ainsi de la performance humaine. Les 3 meilleurs concurrents du marché, qui ont été comparés dans cette étude et dans des conditions similaires (hors données d’apprentissage) affichent en moyenne un taux d’erreur de 30 %.
Anthony Rousseau, responsable de la R/D au sein de l’entreprise et auparavant chercheur au LIUM (au Mans) reconnaît que les travaux réalisés et moyens consentis depuis son arrivée, il y a deux ans, ont largement contribué à la performance actuelle que cette étude révèle.
« Plus les corpus de connaissance, c’est à dire les volumes de conversations que nous analysons, sont nombreux et volumineux, plus nous pouvons entraîner notre moteur à devenir plus performant. Il y a, dans la reconnaissance vocale, encore des données empiriques, des chantiers de recherche mais sur les conversations enregistrées dans les conditions de centres d’appels, où existent des bruits ambiants, notre moteur affiche des résultats très encourageants, largement supérieurs à ceux qu’il affichait voici un an. Lors de l’étude et comme nous le spécifions, les outils concurrents ont été benchmarkés hors de ces données d’apprentissage, c’est à dire dans des conditions équivalentes pour tous les outils. Nous récupérons le fruit de nos investissements et de notre focalisation sur la langue française et sur l’univers des centres d’appels ».

Centres d’appels, compte-rendus opératoires, sécurité nationale, les secteurs où la reconnaissance vocale et la retranscription s’avèrent indispensables

La reconnaissance vocale, un vieux sujet pour certains, est d’autant plus utilisée désormais qu’elle améliore significativement les parcours et l’expérience client : pouvoir dicter un mail ou un sms et le voir mal retranscrit est une expérience irritante que chacun d’entre nous a déjà éprouvée. Mais lorsqu’elle aboutit à un compte-rendu opératoire peu fidèle ou à la retranscription d’une conversation dans le domaine du transport aérien ou de la sécurité nationale erronée, l’incidence peut être dramatique.
Ce marché qui a été longtemps un marché de niche suscite un vif intérêt en raison de deux préoccupations ou usages nouveaux : la commande vocale via les smartphones ou assistants vocaux ou l’enregistrement systématique par les agences de renseignements de quantité de conversations (et l’analyse rapide de leur sens ou la reconnaissance des locuteurs).
Les acteurs significatifs de ce marché sont notamment Google Voice, Nuance ou des entreprises françaises telles que Vocapia. Cette dernière s’est par exemple prioritairement implantée dans les domaines du transport aérien, de la défense ou de l’administration : encapsulée dans un autre outil (Vodalys) son moteur de reconnaissance vocale est utilisé par exemple par le Sénat.
Pour rappel : 270 milliards de conversations sont menées, via des appels, par les seules compagnies américaines, dans leurs centres d’appels internalisés ou outsourcés. 60 % des clients indiquent qu’ils n’ont pas obtenu de réponse satisfaisante (sources 2013).

Lire les résultats de l’étude. 

Ce diaporama nécessite JavaScript.

La performance du moteur Allo-Media, résultat d’investissements conséquents

Après sa deuxième levée de fonds (voir notre article de l’époque) l’entreprise, dirigée par Romain Sambarino, a étoffé son équipe technique et créé, au Mans, sa wizardry (son laboratoire interne).

Romain Sambarino, fondateur d’Allo-Media – © Edouard Jacquinet

L’équipe technique est composée de 15 ingénieurs, est dirigée par Vincent Jousse, associé et docteur en reconnaissance automatique de la parole, ex LIUM. Il dirige les travaux sur les interfaces, la téléphonie et la montée en charge des infrastructures.
L’équipe de R&D, pilotée par Anthony Rousseau*, mène des travaux sur la reconnaissance vocale et la compréhension (NLP, Natural Language Processing). Elle est composée de 6 ingénieurs, data scientists et d’une thésarde. (*associé et docteur en reconnaissance automatique de la parole, ex LIUM), 7 linguistes/transcripteurs travaillent au quotidien sur la création de jeux de données français pour améliorer le moteur de reconnaissance vocale, dans une équipe encadrée par Thierry Bazillon, docteur en science du langage, ex LIUM (labo du Mans).
65 superviseurs et modérateurs travaillent à plein temps sur l’annotation d’appels pour automatiser la classification d’appels, dans une équipe dirigée par Isabelle Loiseau, directrice de production.
Les méthodes utilisées par Allo-Media pour réduire le taux d’erreur mot aussi rapidement que possible et pour augmenter la vitesse sur des interactions live sont en cours de dépôt de brevet.
Le taux d’erreur moyen est mesuré grâce au WER (Word Error Rate) et s’établirait à 7,7 %.
La vitesse du moteur de transcription afficherait la performance suivante : temps réel + 0,82 secondes de décalage (à la fin d’une phrase).
Selon son fondateur (Romain Sambarino), l’équipe ainsi constituée serait la meilleure en France : « Nous avons mis en place et créé une méthode d’amélioration empirique. Nous spécialisons notre moteur sur de l’analyse de conversations téléphoniques humain à humain ; notre moteur est le premier moteur de reconnaissance vocale entrainé uniquement sur du conversationnel spontané (il n’y a pas de broadcast ou de dictées dans nos corpus) ».
Pour les non spécialistes : le logiciel Dragon (édité par Nuance) et que vous pouvez utiliser par exemple, comme quantité de professionnels ou de médecins, nécessite qu’il ait été paramétré avec votre voix et que vous parliez distinctement au dictaphone, avec des blancs.
La reconnaissance vocale avec plusieurs locuteurs, des bruits ambiants, des rythmes similaires à ceux observés et constatés dans des centres d’appels ou des SAMU est une toute autre histoire. Quantité de paramètres doivent être pris en compte et analysés afin que la retranscription soit la plus fidèle possible.

Le prochain numéro d’En-Contact consacrera un dossier à l’importance de la voix et des conversations (numéro 107) et aux acteurs qui travaillent pour l’utiliser dans l’expérience client (identité sonore, apprentissage de l’éloquence) reconnaissance vocale…

Par la rédaction d’En-Contact

 

 

 

 

Abonnez-vous pour accéder aux contenus exclusifs d’En-Contact !

Créer un compte

*
*
*
*
*


Commentaires

2 réponses à “L’outil de reconnaissance vocale téléphonique développé par Allo-Media enregistre la meilleure performance de son secteur, en langue française”

  1. Effectivement je penses JL a raison, le comparatif manque d’objectivité. Chez YobiYoba.fr, nous sommes prêts à relever le défi sur un jeu de données public.

  2. Pour qu’un test comparatif soit valable, il faut comparer des choses comparables et impliquer un organisme indépendant pour piloter les tests. Ces deux conditions ne sont pas réunies ici. Cet article doit être assimilé à de la publicité.

Laisser un commentaire