Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi

José Manuel Ramírez Sánchez, Ana Rosa Montalvo Bereau, José Ramón Calvo de Lara

Resumen


La presente investigación evaluará el impacto de los Coeficientes Cepstrales en la Frecuencia Mel (MFCC) y los coeficientes Predictores Perceptuales Lineales (PLP), en la tasa de errores de reconocimiento de palabras (WER) de sistemas dedicados al Reconocimiento Automático del Habla (RAH). La experimentación se realizará con señales de voz en idioma español, en escenarios con niveles de ruido desconocidos y utilizando la herramienta del estado del arte Kaldi. El artículo concluye aportando evidencias a favor de los MFCC como rasgo acústico más robusto ante la tarea del RAH en escenarios ruidosos con respecto a los PLP; haciendo notar que ambos rasgos se comportar de manera similar en escenarios poco ruidosos y el impacto de los PLP en la reducción de los tiempos empleados por los sistemas dedicados al RAH.

Palabras claves:   Reconocimiento Automático del Habla, Rasgos Acústicos, Kaldi.


Palabras clave


reconocimiento automático del habla; rasgos acústicos; kaldi.

Texto completo:

PDF


Facultad de Ingeniería Automática y Biomédica, Universidad Tecnológica de La Habana  José Antonio Echeverría, Cujae, Calle 114 No. 11901. e/ Ciclovía y Rotonda. Marianao 15.
La Habana, Cuba. CP 19390. Telf: (537) 266 3476
E-mail: rielac@tesla.cujae.edu.cu | URL: http://rielac.cujae.edu.cu
ISSN: 1815-5928

Todo el contenido de la revista se encuentra bajo la licencia https://creativecommons.org/licenses/by/4.0/deed.es_ES. La revista en línea tiene acceso abierto y gratuito