Algoritmo de cómputo de espectrogramas de Mel en tiempo real en microcontroladores STM32 para la detección de palabras clave en voz

Autores/as

Palabras clave:

detección de palabras clave, extracción de características, espectrograma de Mel, STM32

Resumen

La detección de palabras clave es un subcampo del reconocimiento automático de voz revolucionado en la última década con la incorporación de técnicas de inteligencia artificial basadas en aprendizaje profundo. La implementación de modelos de detección de palabras clave en microcontroladores implica como primer paso el procesamiento digital de las señales de audio para realizar la extracción de características en tiempo real. Los modelos implementados en microcontroladores encontrados en la literatura usan los coeficientes MFCC para la extracción de características. Sin embargo, se ha comprobado que al emplear técnicas de aprendizaje profundo para la clasificación resulta más efectivo el empleo de espectrogramas de Mel. En este artículo se propone una implementación del algoritmo para la obtención de espectrogramas de Mel en tiempo real en microcontroladores de la familia STM32 compatible con el diseño de un sistema de detección de palabras clave en tiempo real, evaluándose su uso en un sistema de prueba basado en el microcontrolador STM32G474RET6 y el micrófono MEMS SPH0645LM4H-B. La implementación propuesta minimiza el uso de memoria RAM en el microcontrolador y llena el vacío existente en el driver CMSIS-DSP de una rutina para el cómputo del espectro de Mel de un vector de muestras de señal.

Biografía del autor/a

Alejandro Perdomo-Campos, Universidad Tecnológica de La Habana “José Antonio Echeverría” (Cujae)

Ingeniero en Telecomunicaciones y Electrónica. Profesor en adiestramiento del Centro de Investigaciones en Microelectrónica. Universidad Tecnológica de La Habana “José Antonio Echeverría” (Cujae), La Habana, Cuba, aperdomoc@tele.cujae.edu.cu, No. ORCID: 0000-0002-6253-875X. Miembro del Grupo de Instrumentación Electrónica y Sensores Inteligentes del Centro de Investigaciones Hidráulicas, Cujae. Investiga en instrumentación, procesamiento digital de señales, reconocimiento de patrones y sistemas empotrados.

Jorge Ramírez-Beltrán, Universidad Tecnológica de La Habana “José Antonio Echeverría” (Cujae)

Ingeniero Electrónico. Doctor en Ciencias Técnicas. Investigador Titular. Universidad Tecnológica de La Habana “José Antonio Echeverría” (Cujae), La Habana, Cuba, jorgeramirezcihcujae@gmail.com, No. ORCID: 0000-0002-4125-2656. Jefe del Grupo de Instrumentación Electrónica y Sensores Inteligentes del Centro de Investigaciones Hidráulicas, Cujae. Investiga en instrumentación y detección de eventos en tuberías de agua.

Arturo Morgado-Estevez, Universidad de Cádiz

Doctor Ingeniero Industrial. Escuela Superior de Ingeniería de la Universidad de Cádiz (UCA), Andalucía, España, arturo.morgado@uca.es, No. ORCID: 0000-0002-3639-3649. Responsable del Grupo de Investigación de Robótica Aplicada de la Escuela Superior de Ingeniería de la UCA. Investiga en sistemas robóticos bioinspirados en el diseño y desarrollo hardware/software y en robótica industrial y educativa.

Descargas

Publicado

2024-10-13

Número

Sección

Artículos

Artículos más leídos del mismo autor/a