Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi

José Manuel Ramírez Sánchez; Ana Rosa Montalvo Bereau; José Ramón Calvo de Lara

Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi

Autores/as

José Manuel Ramírez Sánchez Centro de Aplicación de Tecnologías de Avanzada (CENATAV)
Ana Rosa Montalvo Bereau Centro de Aplicación de Tecnologías de Avanzada (CENATAV)
José Ramón Calvo de Lara Centro de Aplicación de Tecnologías de Avanzada (CENATAV)

Palabras clave:

reconocimiento automático del habla, rasgos acústicos, kaldi.

Resumen

La presente investigación evaluará el impacto de los Coeficientes Cepstrales en la Frecuencia Mel (MFCC) y los coeficientes Predictores Perceptuales Lineales (PLP), en la tasa de errores de reconocimiento de palabras (WER) de sistemas dedicados al Reconocimiento Automático del Habla (RAH). La experimentación se realizará con señales de voz en idioma español, en escenarios con niveles de ruido desconocidos y utilizando la herramienta del estado del arte Kaldi. El artículo concluye aportando evidencias a favor de los MFCC como rasgo acústico más robusto ante la tarea del RAH en escenarios ruidosos con respecto a los PLP; haciendo notar que ambos rasgos se comportar de manera similar en escenarios poco ruidosos y el impacto de los PLP en la reducción de los tiempos empleados por los sistemas dedicados al RAH.

Palabras claves: Reconocimiento Automático del Habla, Rasgos Acústicos, Kaldi.

Biografía del autor/a

José Manuel Ramírez Sánchez, Centro de Aplicación de Tecnologías de Avanzada (CENATAV)

Ingeniero en Telecomunicaciones y Electrónica, Investigador en el Grupo de Voz de Centro de Aplicación de Tecnologías de Avanzada (CENATAV) en La Habana, Cuba.

Descargas

Publicado

2019-08-19

Número

Vol. 40 Núm. 3 (2019)

Sección

Artículos

Licencia

Los autores que publican en esta revista están de acuerdo con los siguientes términos: Los autores conservan todos los derechos de autor y garantizan a la revista el derecho de ser la primera en publicar el trabajo.
Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados (Véase The Effect of Open Access) (en inglés).
Los contenidos de la revista se distribuyen bajo una licencia Creative Commons Attribution-NonCommercial 4.0. Esto significa que se permite su copia y distribución por cualquier medio, siempre que mantenga el reconocimiento de sus autores y no se haga uso comercial de las obras. La licencia completa puede consultarse en: https://creativecommons.org/licenses/by/4.0/deed.es_ES

Evaluación de Rasgos Acústicos para el Reconocimiento Automático del Habla en Escenarios Ruidosos usando Kaldi

Autores/as

Palabras clave:

Resumen

Biografía del autor/a

José Manuel Ramírez Sánchez, Centro de Aplicación de Tecnologías de Avanzada (CENATAV)

Descargas

Publicado

Número

Sección

Licencia

Artículos similares

Artículos más leídos del mismo autor/a

Información