Des synthèses vocales réalistes et personnalisées chez Microsoft

Le service cloud Speech de Microsoft combine des fonctionnalités de reconnaissance, de synthèse et de traduction vocale dans le même abonnement. C’est l’un des services d’Azure Cognitive proposé par Microsoft sur son cloud public. Avec Custom Neural Voice, il vient de s’enrichir de capacités text-to-speech à partir desquelles peut être générée une voix synthétique personnalisée qui pourra constituer une identité vocale reconnaissable, en particulier pour les entreprises. Le text-to-speech neuronal est un nouveau type de synthèse vocale obtenu à partir de réseaux neuronaux profonds. Il s’approche de plus en plus de la voix humaine, de telle façon qu’il est difficile de distinguer la différence, souligne Microsoft à travers plusieurs exemples donnant à écouter différentes intonations.

En recourant à Speech de Microsoft, l’opérateur télécoms Swisscom a créé un assistant vocal multilingue pour améliorer son expérience client. (Crédit : Microsoft)

L’accès aux capacités de Custom Neural Voice est toutefois soumis à un cadre défini. Microsoft précise que, bien qu’elles soient maintenant livrées en disponibilité générale « d’un point de vue technologique », les clients intéressés par la technologie doivent néanmoins s’inscrire et recevoir une approbation pour pouvoir les utiliser. L’éditeur de Redmond souhaite en effet réaliser des contrôles techniques destinés à éviter une utilisation abusive de ces outils. La version bêta, disponible depuis septembre, a déjà permis à des entreprises comme AT&T, Duolingo, Progressive ou Swisscom de créer des voix pour leurs clients.

Chatbots, accessibilité, e-formation…

Pour créer cette voix personnalisée, l’entreprise fournit ses propres données audio qu’elle aura sélectionnées. Les applications sont diverses en commençant par la personnalisation des assistants numériques ou des chatbots.

[…]

Maryse Gros

Pour lire la suite de l’article, rendez-vous sur le site de notre publication sœur Le Monde Informatique