사운드 패턴 분석

휴대용 녹음기를 사용하여 긴팔원숭이를 추적하고 관찰하는 동안 얻은 것과 자동 녹음기를 사용하여 얻은 것을 포함하여 532개의 하이난 긴팔원숭이 음향 샘플에 대한 수동 심사가 완료되었습니다. 선별 과정에서 처음에는 녹음 품질을 고음질, 중간음질, 저음질로 세 가지로 분류했습니다. 7명의 개별 발화자로부터 44개의 고품질 녹음이 확보되었습니다. 7명의 개별 발화자는 GAM1, GBM1, GBSA, GCM1, GCM2, GM1, GEM1으로, 여기서 'G' 뒤의 문자는 가족 그룹 번호를, 'M/S' 뒤의 문자는 성인 남성/아성 남성 개인 번호를 나타냅니다. 전체 기록의 약 40.9%만이 수동으로 작성되었습니다. 모든 자동 녹음의 원시 파일은 왕지차오 교수팀이 제공했으며, 관련 데이터는 하이난 국립공원 연구소에서 백업했습니다.

멜 주파수 세프스트럼 계수(MFCC)는 사람의 청력을 기반으로 고주파 정보를 약화시킨 후 세프스트럼으로 주파수 포락선 특징을 추출하는 방법으로[1], 인간 및 생체 음향 분야에서 광범위하게 응용되고 있습니다. 이 연구에서는 MFCC와 1차 및 2차 차이(△、△2)를 사용하여 자동화된 특징 추출을 달성합니다.

수컷 하이난 긴팔원숭이의 5가지 시그니처 음이 확인되었습니다(그림 1): 붐 음, aa 음, 사전 변조 음, 변조-R0 음, 변조-R1 음. 수컷 하이난 긴팔원숭이의 시그니처 음은 다음과 같습니다.

음향 틈새 가설에 따르면 다른 종의 울음소리는 시간과 주파수 영역에서 차별화되므로(그림 2 참조) 특정 주파수 범위에서 특징을 추출하면 노이즈의 영향을 크게 줄일 수 있으며, 묘사된 주파수 범위가 작을수록 더 많은 노이즈가 배제될 가능성이 높아집니다. 또한 각 최소 인식 단위(MRU)의 구조가 동일하면 인식의 난이도가 크게 낮아집니다.

위와 같은 상황을 고려하여 이번 연구 단계에서는 후속 작업에서 가장 적합한 특징 추출을 결정하기 위해 (1) pre만 적용하는 경우와 (2) pre + n×mR0을 MRU로 사용하는 경우를 각각 시도하고 분류 결과를 비교했습니다. 음성 주석의 경우 위의 모든 단계를 R 언어 코드로 자동 구현할 수 있습니다.