识别建模

由于特征数量过多,提取特征后采用 10 倍交叉验证的 SVM-RFE 对特征的重要性进行排序,然后依次添加特征进行 LDA 分类,记录准确率随所选特征数量的变化,最后记录最佳特征数量作为后续分类的输入(见图 8)。LDA 分类的最高准确率为 89.2%(pre)/95.6%(pre + n×mR0)。

由于使用固定窗口数提取的 MFCC 在 LDA 分类中的结果都不优于 GMM 拟合方法(6 窗口:86.6%;10 窗口:88.5%;100 窗口:<80%),因此我们仅使用 GMM 拟合方法提取的特征来测试其他分类器的有效性。在这个测试中,我们随机选取 20% 的数据作为测试集,其余数据用于训练分类器,每个核函数重复训练 10 次,以记录准确率的分布情况。其中,当仅使用 pre 作为 MRU 时,GMM 的分类效果较差,而当使用 pre + n×mR0 作为 MRU 时,效果总体上好于仅使用 pre。

有许多分类器可用于个体识别。考虑到分类器的性能和可能性,本研究比较了在长臂猿生物声学或人类声音模式识别领域开发较多的三种分类器的分类效果,即(1)线性判别分析(LDA)、(2)支持向量机(SVM)和(3)GMM(通过确定待测数据与现有数据之间的相似性进行分类)。

确定了声纹特征提取的基本方法,初步建立了海南长臂猿个体声音识别的系统方法。初步结果表明,现有的系统方法比较可靠,达到了项目的预期目标。我们认为,在对长臂猿的声音进行识别时,可以采用多种方法,其中使用 pre + n×mR0 作为 MRU、使用 GMM 拟合方法提取声纹特征、使用线性 SVM 进行分类的方法效果会更好。在后续工作中,将不断补充珍稀个体数据,完善算法系统设计,赋予分类器识别未知个体的能力,综合评价系统性能,最终实现海南长臂猿个体声音的识别。