Le magazine indépendant et international du BPO, du CRM et de l'expérience client.

Avec Allocovid, Allo-Media et son moteur de reconnaissance vocale pourraient désengorger les SAMU.

Publié le 27 avril 2020 à 05:30 par Magazine En-Contact
Avec Allocovid, Allo-Media et son moteur de reconnaissance vocale pourraient désengorger les SAMU.

Avant d’appeler le SAMU, si vous vous inquiétez d’être atteint peut-être du COVID 19, appelez Allocovid. C’est un système d’information  grand public et de qualification des patients qui permet, après avoir répondu à un questionnaire par téléphone, de savoir si vous êtes susceptible d’avoir le COVID 19.  La start-up Allo-Media, dirigée par Romain Sambarino, lance ce jour, un de ces projets médiatiques dont elle a le secret: le 1er callbot d’information grand public sur le COVID-19. Lancé au sein d’un consortium avec l‘Inserm et e-SNCF, Allocovid embarque une partie des savoir faire techniques en reconnaissance vocale développés par l’entreprise française. Son moteur de reconnaissance vocale, propriétaire, est un des grands atouts de l’entreprise française.

Pour faire fonctionner les callbots et voicebots ( de commande, de tri, d’identification ), l’efficacité des systèmes de reconnaissance vocale est indispensable. Ceux-ci s’appuient sur des outils fournis ou developpés par Bertin IT, Google, Amazon etc , auxquels les spécialistes des voicebots apportent des entrainements liés au métier et au secteur dans lesquels ils sont utilisés. C’est ce deep learning, c’est à dire l’accumulation des cas rencontrés et les conclusions et ajustements qui en découlent, qui contribue à faire l’efficacité d’un assistant vocal. Allo-Media aurait conçu un moteur de reconnaissance vocale très performant, propriétaire.

 

Nous publierons, dans le numéro 116,  un benchmark* qui intéressera tous ceux qui sont concernés par le Voice Commerce, la mise en place de callbots et l’analyse des conversations. 

5 fois plus efficace, commettant 7,7 % d’erreurs quand les principaux concurrents en commettent en moyenne 30 %, tels sont les résultats éloquents issus d’une étude qui sera certainement très commentée et auscultée. Elle intéressera tous ceux qui, dans les centres d’appels ou dans d’autres univers, capitalisent ou s’emparent de la reconnaissance vocale et du « speech analytics ».

La performance du moteur d’Allo-Media désormais établie et fruit des travaux engagés

(*étude réalisée en 2018, article d’archive d’En-Contact ).

Anthony Rousseau, responsable R/D, Allo-Media – © Edouard Jacquinet

Selon une étude publiée ce jour *et réalisée par le département de recherche de la start-up française (voir les résultats ci-dessous) la performance comparée de son moteur de reconnaissance vocale permettrait, sur des conversations enregistrées dans des call centers, de retranscrire fidèlement les conversations en affichant un taux d’erreur de 7,7 % seulement. Il se rapprocherait ainsi de la performance humaine. Les 3 meilleurs concurrents du marché, qui ont été comparés dans cette étude et dans des conditions similaires (hors données d’apprentissage) affichent en moyenne un taux d’erreur de 30 %.
Anthony Rousseau, responsable de la R/D au sein de l’entreprise et auparavant chercheur au LIUM (au Mans) reconnaît que les travaux réalisés et moyens consentis depuis son arrivée, il y a deux ans, ont largement contribué à la performance actuelle que cette étude révèle.
« Plus les corpus de connaissance, c’est à dire les volumes de conversations que nous analysons, sont nombreux et volumineux, plus nous pouvons entraîner notre moteur à devenir plus performant. Il y a, dans la reconnaissance vocale, encore des données empiriques, des chantiers de recherche mais sur les conversations enregistrées dans les conditions de centres d’appels, où existent des bruits ambiants, notre moteur affiche des résultats très encourageants, largement supérieurs à ceux qu’il affichait voici un an. Lors de l’étude et comme nous le spécifions, les outils concurrents ont été benchmarkés hors de ces données d’apprentissage, c’est à dire dans des conditions équivalentes pour tous les outils. Nous récupérons le fruit de nos investissements et de notre focalisation sur la langue française et sur l’univers des centres d’appels ».

Centres d’appels, compte-rendus opératoires, sécurité nationale, les secteurs où la reconnaissance vocale et la retranscription s’avèrent indispensables

La reconnaissance vocale, un vieux sujet pour certains, est d’autant plus utilisée désormais qu’elle améliore significativement les parcours et l’expérience client : pouvoir dicter un mail ou un sms et le voir mal retranscrit est une expérience irritante que chacun d’entre nous a déjà éprouvée. Mais lorsqu’elle aboutit à un compte-rendu opératoire peu fidèle ou à la retranscription d’une conversation dans le domaine du transport aérien ou de la sécurité nationale erronée, l’incidence peut être dramatique.
Ce marché qui a été longtemps un marché de niche suscite un vif intérêt en raison de deux préoccupations ou usages nouveaux : la commande vocale via les smartphones ou assistants vocaux ou l’enregistrement systématique par les agences de renseignements de quantité de conversations (et l’analyse rapide de leur sens ou la reconnaissance des locuteurs).
Les acteurs significatifs de ce marché sont notamment Google Voice, Nuance ou des entreprises françaises telles que  Bertin IT, Vocapia. Cette dernière s’est par exemple prioritairement implantée dans les domaines du transport aérien, de la défense ou de l’administration : encapsulée dans un autre outil (Vodalys) son moteur de reconnaissance vocale est utilisé par exemple par le Sénat.
Pour rappel : 270 milliards de conversations sont menées, via des appels, par les seules compagnies américaines, dans leurs centres d’appels internalisés ou outsourcés. 60 % des clients indiquent qu’ils n’ont pas obtenu de réponse satisfaisante (sources 2013).

Lire les résultats de l’étude. 

Ce diaporama nécessite JavaScript.

La performance du moteur Allo-Media, résultat d’investissements conséquents

Après sa deuxième levée de fonds (voir notre article de l’époque) l’entreprise, dirigée par Romain Sambarino, a étoffé son équipe technique et créé, au Mans, sa wizardry (son laboratoire interne).

Romain Sambarino, fondateur d’Allo-Media – © Edouard Jacquinet

L’équipe technique est composée de 15 ingénieurs, est dirigée par Vincent Jousse, associé et docteur en reconnaissance automatique de la parole, ex LIUM. Il dirige les travaux sur les interfaces, la téléphonie et la montée en charge des infrastructures.
L’équipe de R&D, pilotée par Anthony Rousseau*, mène des travaux sur la reconnaissance vocale et la compréhension (NLP, Natural Language Processing). Elle est composée de 6 ingénieurs, data scientists et d’une thésarde. (*associé et docteur en reconnaissance automatique de la parole, ex LIUM), 7 linguistes/transcripteurs travaillent au quotidien sur la création de jeux de données français pour améliorer le moteur de reconnaissance vocale, dans une équipe encadrée par Thierry Bazillon, docteur en science du langage, ex LIUM (labo du Mans).
65 superviseurs et modérateurs travaillent à plein temps sur l’annotation d’appels pour automatiser la classification d’appels, dans une équipe dirigée par Isabelle Loiseau, directrice de production.
Les méthodes utilisées par Allo-Media pour réduire le taux d’erreur mot aussi rapidement que possible et pour augmenter la vitesse sur des interactions live sont en cours de dépôt de brevet.
Le taux d’erreur moyen est mesuré grâce au WER (Word Error Rate) et s’établirait à 7,7 %.
La vitesse du moteur de transcription afficherait la performance suivante : temps réel + 0,82 secondes de décalage (à la fin d’une phrase).
Selon son fondateur (Romain Sambarino), l’équipe ainsi constituée serait la meilleure en France : « Nous avons mis en place et créé une méthode d’amélioration empirique. Nous spécialisons notre moteur sur de l’analyse de conversations téléphoniques humain à humain ; notre moteur est le premier moteur de reconnaissance vocale entrainé uniquement sur du conversationnel spontané (il n’y a pas de broadcast ou de dictées dans nos corpus) ».
Pour les non spécialistes : le logiciel Dragon (édité par Nuance) et que vous pouvez utiliser par exemple, comme quantité de professionnels ou de médecins, nécessite qu’il ait été paramétré avec votre voix et que vous parliez distinctement au dictaphone, avec des blancs.
La reconnaissance vocale avec plusieurs locuteurs, des bruits ambiants, des rythmes similaires à ceux observés et constatés dans des centres d’appels ou des SAMU est une toute autre histoire. Quantité de paramètres doivent être pris en compte et analysés afin que la retranscription soit la plus fidèle possible.

Le numéro 116 d’En-Contact consacrera un dossier à l’importance de la voix et des conversations , et aux acteurs qui travaillent pour l’utiliser dans l’expérience client (identité sonore, apprentissage de l’éloquence) reconnaissance vocale… Les équipes IT des meilleurs développeurs de Callbot en France nous ont partagé leurs points de vue et résultats de tests.

Par la rédaction d’En-Contact

 

 

 

 

A lire aussi

Profitez d'un accès illimité au magazine En-contact pour moins de 3 € par semaine.
Abonnez-vous maintenant
×