


Se ha completado el cribado manual de 532 muestras acústicas de gibones de Hainan, incluidas las obtenidas durante el seguimiento y la observación de gibones con una grabadora portátil y las obtenidas con una grabadora automática. Durante el proceso de cribado, se categorizaron inicialmente tres calidades de grabación, a saber, alta, media y baja. Se obtuvieron 44 grabaciones de alta calidad de siete llamadores individuales. Los siete llamadores individuales eran GAM1、GBM1、GBSA、GCM1、GCM2、GDM1、GEM1, donde la letra después de "G" representa el número de grupo familiar y la letra después de "M/S" representa el número individual de macho adulto/macho subadulto. Sólo alrededor del 40,9% de las grabaciones se realizaron manualmente. Los archivos en bruto de todas las grabaciones automatizadas fueron proporcionados por el equipo del profesor Wang Jichao, y los datos relacionados se guardaron en el Instituto del Parque Nacional de Hainan.
Los coeficientes Mel-frequency cepstrum (MFCC) son un método de extracción de características de la envolvente de frecuencia por cepstrum tras debilitar la información de alta frecuencia sobre la base de la audición humana[1], que tiene una amplia gama de aplicaciones en el campo de la bioacústica y humana. En este estudio, se utilizan los MFCC y las diferencias de primer y segundo orden (△、△2) para lograr la extracción automatizada de características.
Se han identificado 5 notas características del gibón macho de Hainan (Fig.1), incluyendo la nota boom, la nota aa, la nota pre-modulada, la nota-R0 modulada y la nota-R1 modulada.
Según la hipótesis del nicho acústico, las llamadas de las distintas especies se diferencian en los dominios temporal y frecuencial (véase la Fig. 2), por lo que la extracción de características en un rango de frecuencias específico puede reducir en gran medida la influencia del ruido, y cuanto menor sea el rango de frecuencias delineado, más probable será que se excluya más ruido. Además, cuando la estructura de cada unidad mínima de reconocimiento (MRU) es la misma, la dificultad del reconocimiento se reduce considerablemente.
Teniendo en cuenta la situación anterior, en esta fase de la investigación, probamos (1) aplicando sólo pre y (2) utilizando pre + n×mR0 como MRU, respectivamente, y comparando los resultados de clasificación para determinar la extracción de características más adecuada en el trabajo posterior. En el caso de la anotación de voz, todos los pasos anteriores pueden implementarse automáticamente mediante código en lenguaje R.