Analisi del modello sonoro

È stato completato lo screening manuale di 532 campioni acustici di gibbone di Hainan, compresi quelli ottenuti durante il monitoraggio e l'osservazione dei gibboni con un registratore portatile e quelli ottenuti con un registratore automatico. Durante il processo di screening, sono state inizialmente classificate tre qualità di registrazione: alta, media e bassa. Sono state ottenute 44 registrazioni di alta qualità da sette singoli chiamanti. I sette singoli chiamanti erano GAM1、GBM1、GBSA、GCM1、GCM2、GDM1、GEM1, dove la lettera dopo "G" rappresenta il numero del gruppo familiare e la lettera dopo "M/S" rappresenta il numero individuale di maschio adulto/subadulto. Solo il 40,9% circa delle registrazioni è stato effettuato manualmente. I file grezzi di tutte le registrazioni automatiche sono stati forniti dal team del professor Wang Jichao e i relativi dati sono stati archiviati presso l'Istituto del Parco Nazionale di Hainan.

I coefficienti cepstrum di mel-frequenza (MFCC) sono un metodo di estrazione delle caratteristiche dell'inviluppo di frequenza tramite cepstrum dopo aver indebolito le informazioni ad alta frequenza sulla base dell'udito umano[1], che ha un'ampia gamma di applicazioni nel campo della bioacustica e dell'uomo. In questo studio, le MFCC e le differenze di primo e secondo ordine (△、△2) sono utilizzate per ottenere l'estrazione automatica delle caratteristiche.

Sono state identificate 5 note caratteristiche del gibbone maschio di Hainan (Fig. 1), tra cui la nota boom, la nota aa, la nota pre-modulata, la nota modulata-R0 e la nota modulata-R1.

Secondo l'ipotesi della nicchia acustica, i richiami delle diverse specie si differenziano nel dominio del tempo e della frequenza (cfr. Fig. 2), per cui l'estrazione di caratteristiche in un intervallo di frequenza specifico può ridurre notevolmente l'influenza del rumore e, quanto più piccolo è l'intervallo di frequenza delineato, tanto più è probabile che venga escluso il rumore. Inoltre, quando la struttura di ogni unità minima di riconoscimento (MRU) è la stessa, la difficoltà di riconoscimento si riduce notevolmente.

Alla luce di questa situazione, in questa fase della ricerca abbiamo provato (1) ad applicare solo pre e (2) a utilizzare pre + n×mR0 come MRU, rispettivamente, e a confrontare i risultati della classificazione in modo da determinare l'estrazione di caratteristiche più appropriata nel lavoro successivo. Nel caso dell'annotazione vocale, tutte le fasi sopra descritte possono essere implementate automaticamente con il codice del linguaggio R.