Algoritmo de cómputo de espectrogramas de Mel en tiempo real en microcontroladores STM32 para la detección de palabras clave en voz
Palabras clave:
detección de palabras clave, extracción de características, espectrograma de Mel, STM32Resumen
La detección de palabras clave es un subcampo del reconocimiento automático de voz revolucionado en la última década con la incorporación de técnicas de inteligencia artificial basadas en aprendizaje profundo. La implementación de modelos de detección de palabras clave en microcontroladores implica como primer paso el procesamiento digital de las señales de audio para realizar la extracción de características en tiempo real. Los modelos implementados en microcontroladores encontrados en la literatura usan los coeficientes MFCC para la extracción de características. Sin embargo, se ha comprobado que al emplear técnicas de aprendizaje profundo para la clasificación resulta más efectivo el empleo de espectrogramas de Mel. En este artículo se propone una implementación del algoritmo para la obtención de espectrogramas de Mel en tiempo real en microcontroladores de la familia STM32 compatible con el diseño de un sistema de detección de palabras clave en tiempo real, evaluándose su uso en un sistema de prueba basado en el microcontrolador STM32G474RET6 y el micrófono MEMS SPH0645LM4H-B. La implementación propuesta minimiza el uso de memoria RAM en el microcontrolador y llena el vacío existente en el driver CMSIS-DSP de una rutina para el cómputo del espectro de Mel de un vector de muestras de señal.
Descargas
Publicado
Número
Sección
Licencia
- Los autores que publican en esta revista están de acuerdo con los siguientes términos: Los autores conservan todos los derechos de autor y garantizan a la revista el derecho de ser la primera en publicar el trabajo.
- Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
- Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados (Véase The Effect of Open Access) (en inglés).
- Los contenidos de la revista se distribuyen bajo una licencia Creative Commons Attribution-NonCommercial 4.0. Esto significa que se permite su copia y distribución por cualquier medio, siempre que mantenga el reconocimiento de sus autores y no se haga uso comercial de las obras. La licencia completa puede consultarse en:
https://creativecommons.org/licenses/by/4.0/deed.es_ES