De handmatige screening van 532 akoestische monsters van gibbons uit Hainan is voltooid, inclusief de monsters die zijn verkregen tijdens het volgen en observeren van gibbons met een draagbare recorder en de monsters die zijn verkregen met een geautomatiseerde recorder. Tijdens het screeningsproces werden in eerste instantie drie opnamekwaliteiten gecategoriseerd, namelijk hoog, gemiddeld en laag. Er werden 44 opnames van hoge kwaliteit verkregen van zeven individuele roepers. De zeven individuele roepers waren GAM1、GBM1、GBSA、GCM1、GCM2、GDM1、GEM1, waarbij de letter na "G" staat voor het familiegroepnummer en de letter na "M/S" staat voor het individuele nummer van volwassen man/subadulte man. Slechts ongeveer 40,9% van de opnames werden handmatig gemaakt. De ruwe bestanden van alle geautomatiseerde opnames werden geleverd door het team van professor Wang Jichao, en de gerelateerde gegevens werden opgeslagen bij het Hainan Institute of National Park.
Mel-frequentie cepstrum coëfficiënten (MFCCs) is een methode voor het extraheren van frequentieomhullende kenmerken door cepstrum na het verzwakken van de hoogfrequente informatie op basis van het menselijk gehoor[1], dat een breed scala aan toepassingen heeft op het gebied van menselijke en bio-akoestiek. In deze studie worden MFCCs en de eerste- en tweede-orde verschillen (△、△2) gebruikt om automatische kenmerkextractie te bereiken.
Er zijn 5 kenmerkende tonen van de mannelijke Hainan gibbon geïdentificeerd (Fig.1), waaronder boom toon, aa toon, voorgemoduleerde toon, gemoduleerde-R0 toon en gemoduleerde-R1 toon.
Volgens de akoestische nichehypothese zijn de roepen van verschillende soorten gedifferentieerd in tijd en frequentie (zie Fig. 2), dus het extraheren van kenmerken in een specifiek frequentiebereik kan de invloed van ruis sterk verminderen, en hoe kleiner het afgebakende frequentiebereik, hoe waarschijnlijker het is dat er meer ruis wordt uitgesloten. Bovendien, als de structuur van elke minimale herkenningseenheid (MRU) hetzelfde is, wordt de moeilijkheid van herkenning sterk verminderd.
Met het oog op de bovenstaande situatie probeerden we in deze fase van het onderzoek respectievelijk (1) alleen pre en (2) pre + n×mR0 als MRU toe te passen en de classificatieresultaten te vergelijken om in het volgende werk de meest geschikte kenmerkextractie te bepalen. In het geval van spraakannotatie kunnen alle bovenstaande stappen automatisch worden uitgevoerd met behulp van R-code.