Apprentissage automatique pour la formation à la reconnaissance vocale Ppt
Ces diapositives traitent des principes fondamentaux de la reconnaissance vocale. C'est une fonctionnalité qui permet aux logiciels informatiques de convertir la parole humaine en texte. Ils discutent des principales caractéristiques d'un système de reconnaissance vocale, d'algorithmes et d'un cas d'utilisation réel.
You must be logged in to download this presentation.
audience
Editable
of Time
Caractéristiques de ces diapositives de présentation PowerPoint :
People who downloaded this PowerPoint presentation also viewed the following :
Contenu de cette présentation Powerpoint
Diapositive 1
Cette diapositive présente la reconnaissance vocale en tant qu'application de l'apprentissage automatique. C'est une fonctionnalité qui permet à un logiciel informatique de convertir la parole humaine en texte.
Diapositive 2
Cette diapositive illustre le fonctionnement d'un système de reconnaissance vocale. Le processus en trois étapes comprend le niveau de signal, le niveau acoustique et le niveau de langue qui convertit un signal analogique en transcription.
Diapositive 3
Cette diapositive répertorie les principales caractéristiques d'un système de reconnaissance vocale efficace et efficient. Ces fonctionnalités incluent la pondération linguistique, la formation acoustique, l'étiquetage des locuteurs et le filtrage des grossièretés.
Notes de l'instructeur :
- Pondération de la langue : elle peut améliorer la précision en pondérant des mots spécifiques fréquemment utilisés, tels que les noms de produits.
- Formation acoustique : ces systèmes pilotés par ML prêtent attention à la partie acoustique de l'entreprise. Il entraîne le système à s'adapter aux styles de parole (comme la hauteur de la voix, le volume et le rythme) et aux environnements acoustiques (tels que ceux observés dans les centres d'appels)
- Étiquetage des intervenants : ces systèmes peuvent créer une transcription d'une conversation à plusieurs participants qui fait référence ou marque les contributions de chaque intervenant.
- Filtrage grossier : les filtres peuvent être utilisés pour identifier des mots ou des phrases spécifiques et nettoyer la sortie audio
Diapositive 4
Cette diapositive décrit les types d'algorithmes de reconnaissance vocale. Ceux-ci incluent le traitement du langage naturel, le modèle de Markov caché, les N-grammes, les réseaux de neurones et la diarisation du locuteur.
Notes de l'instructeur :
- Traitement du langage naturel : bien que le traitement du langage naturel (TAL) ne soit pas strictement une méthode spécifique de reconnaissance vocale, c'est une branche de l'intelligence artificielle qui se concentre sur l'interaction homme-machine à travers des langages, tels que la parole et le texte. De nombreux appareils mobiles intègrent la reconnaissance vocale pour effectuer des recherches vocales (par exemple, Siri) ou pour améliorer l'accessibilité de la messagerie.
- Modèle de Markov caché : les modèles de Markov cachés nous permettent d'ajouter des événements cachés dans un modèle probabiliste, tels que des balises de partie du discours. Ils sont utilisés comme modèles de séquence dans la reconnaissance vocale, attribuant des étiquettes à chaque élément de la séquence, tels que des mots, des syllabes, des phrases, etc. Ces étiquettes créent un mappage avec l'entrée disponible, lui permettant d'identifier la séquence d'étiquettes la plus pertinente.
- N-Grams : Il s'agit du modèle de langage le plus élémentaire, dans lequel des phrases ou des expressions sont affectées d'une probabilité. Un N-gramme est un ensemble de N mots. Par exemple, "Commandez la pizza" est une phrase de 3 grammes, tandis que "Veuillez commander la pizza" est une phrase de 4 grammes. La grammaire et la probabilité de séquences de mots particulières sont utilisées pour augmenter la reconnaissance et la précision
- Réseaux de neurones : les données d'entraînement sont traitées à l'aide de réseaux de neurones, qui utilisent des couches de nœuds pour reproduire l'interconnexion du cerveau humain. Des entrées, des poids, un biais et une sortie constituent chaque nœud. Si la valeur de sortie atteint un certain seuil, le nœud est activé et les données sont transmises au niveau suivant du réseau. Grâce à l'apprentissage supervisé, les réseaux de neurones apprennent cette fonction de cartographie, puis la modifient à l'aide d'une descente de gradient basée sur la fonction de perte.
- Diarisation du locuteur : les algorithmes de diarisation du locuteur reconnaissent et segmentent la parole en fonction de l'identité du locuteur. Cela permet aux programmes de distinguer les personnes dans une discussion et est couramment utilisé dans les centres de contact pour faire la distinction entre les clients et les responsables du service client.
Diapositive 5
Cette diapositive présente le cas d'utilisation IBM de la reconnaissance vocale pilotée par Machine Learning. Les technologies et services de reconnaissance vocale permettent à IBM d'automatiser des opérations commerciales complexes tout en acquérant des informations commerciales critiques.
Notes de l'instructeur :
- IBM Watson Speech to Text : IBM Watson Speech to Text est une solution basée sur le cloud qui applique des informations sur la grammaire, la structure linguistique et la composition du signal audio/vocal pour générer une reconnaissance vocale personnalisée pour une transcription de texte efficace.
- IBM Watson Text to Speech : IBM Watson Text to Speech offre un son de type humain à partir de texte écrit, élargissant l'accessibilité à travers les langues et les modes d'interaction et augmentant l'engagement et le bonheur des clients
Machine Learning For Speech Recognition Training Ppt avec les 21 diapositives :
Utilisez notre Apprentissage automatique pour la formation à la reconnaissance vocale Ppt pour vous aider efficacement à économiser votre temps précieux. Ils sont prêts à l'emploi pour s'adapter à n'importe quelle structure de présentation.
-
Wonderful templates design to use in business meetings.
-
What an exhaustive collection of templates you guys have there in slideteam. Impressive!!!