Análise de padrões sonoros

A triagem manual de 532 amostras acústicas de gibões de Hainan foi concluída, incluindo aquelas obtidas durante o rastreamento e a observação de gibões usando um gravador portátil e aquelas obtidas usando um gravador automatizado. Durante o processo de triagem, três qualidades de gravação foram inicialmente categorizadas: alta, média e baixa. Foram obtidas 44 gravações de alta qualidade de sete interlocutores individuais. Os sete chamadores individuais eram GAM1、GBM1、GBSA、GCM1、GCM2、GDM1、GEM1, em que a letra após "G" representa o número do grupo familiar e a letra após "M/S" representa o número individual do número individual do macho adulto/subadulto. Apenas cerca de 40,9% dos registros foram feitos manualmente. Os arquivos brutos de todas as gravações automatizadas foram fornecidos pela equipe do professor Wang Jichao, e os dados relacionados foram armazenados no Hainan Institute of National Park.

Os coeficientes de cepstrum de mel-frequência (MFCCs) são um método de extração de recursos de envelope de frequência por cepstrum após enfraquecer as informações de alta frequência com base na audição humana[1], que tem uma ampla gama de aplicações no campo da bioacústica e humana. Neste estudo, os MFCCs e as diferenças de primeira e segunda ordem (△、△2) são usados para obter a extração automatizada de recursos.

Foram identificadas 5 notas de assinatura do gibão macho de Hainan (Fig. 1), incluindo a nota boom, a nota aa, a nota pré-modulada, a nota modulada-R0 e a nota modulada-R1.

De acordo com a hipótese do nicho acústico, os chamados de diferentes espécies são diferenciados nos domínios do tempo e da frequência (consulte a Fig. 2), portanto, a extração de recursos em uma faixa de frequência específica pode reduzir bastante a influência do ruído e, quanto menor a faixa de frequência delineada, maior a probabilidade de excluir mais ruído. Além disso, quando a estrutura de cada unidade mínima de reconhecimento (MRUs) é a mesma, a dificuldade de reconhecimento é bastante reduzida.

Tendo em vista a situação acima, nesta fase da pesquisa, tentamos (1) aplicar somente pre e (2) usar pre + n×mR0 como MRU, respectivamente, e comparar os resultados da classificação para determinar a extração de recursos mais adequada no trabalho subsequente. No caso da anotação de voz, todas as etapas acima podem ser implementadas automaticamente pelo código da linguagem R.