Analyse der Klangmuster

Das manuelle Screening von 532 akustischen Stichproben von Gibbons aus Hainan wurde abgeschlossen, einschließlich derjenigen, die während der Verfolgung und Beobachtung von Gibbons mit einem tragbaren Aufnahmegerät und derjenigen, die mit einem automatischen Aufnahmegerät aufgenommen wurden. Während des Screening-Prozesses wurden zunächst drei Aufnahmequalitäten kategorisiert, nämlich hoch, mittel und niedrig. Es wurden 44 hochwertige Aufnahmen von sieben einzelnen Rufern gewonnen. Bei den sieben Einzelrufern handelte es sich um GAM1、GBM1、GBSA、GCM1、GCM2、GDM1、GEM1, wobei der Buchstabe nach "G" für die Familiengruppennummer und der Buchstabe nach "M/S" für die Individualnummer des erwachsenen männlichen/subadulten männlichen Individuums steht. Nur etwa 40,9 % der Aufnahmen wurden manuell gemacht. Die Rohdateien aller automatisierten Aufnahmen wurden vom Team von Professor Wang Jichao zur Verfügung gestellt, und die entsprechenden Daten wurden im Hainan Institute of National Park gesichert.

Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) sind eine Methode zur Extraktion von Frequenzhüllkurvenmerkmalen durch Cepstrum nach Abschwächung der hochfrequenten Informationen auf der Grundlage des menschlichen Gehörs[1], die eine breite Palette von Anwendungen im Bereich der Human- und Bioakustik bietet. In dieser Studie werden MFCCs und die Differenzen erster und zweiter Ordnung (△、△2) verwendet, um eine automatische Merkmalsextraktion zu erreichen.

Es wurden 5 charakteristische Töne des männlichen Hainan-Gibbons identifiziert (Abb. 1), darunter Boom-Ton, Aa-Ton, vormodulierter Ton, modulierter-R0-Ton und modulierter-R1-Ton.

Nach der akustischen Nischenhypothese unterscheiden sich die Rufe der verschiedenen Arten im Zeit- und Frequenzbereich (siehe Abb. 2), so dass durch die Extraktion von Merkmalen in einem bestimmten Frequenzbereich der Einfluss von Störgeräuschen stark reduziert werden kann, und je kleiner der abgegrenzte Frequenzbereich ist, desto wahrscheinlicher ist es, dass mehr Störgeräusche ausgeschlossen werden. Wenn die Struktur der einzelnen minimalen Erkennungseinheiten (MRUs) gleich ist, wird außerdem die Schwierigkeit der Erkennung erheblich verringert.

In Anbetracht dieser Situation haben wir in dieser Phase der Forschung versucht, (1) nur pre und (2) pre + n×mR0 als MRU zu verwenden und die Klassifizierungsergebnisse zu vergleichen, um die am besten geeignete Merkmalsextraktion für die weitere Arbeit zu bestimmen. Im Falle der Sprachkommentierung können alle oben genannten Schritte automatisch durch R-Sprachcode implementiert werden.