6 个月前

摘要

近年来，卷积神经网络（Convolutional Neural Networks, CNNs）在多个领域显著提升了性能，然而其在手形识别（Handshape Recognition）任务中的表现，尤其是在手语识别（Sign Language Recognition）背景下的应用，尚未得到充分研究。为此，我们系统评估了多种卷积神经网络架构在该任务中的适用性。基于LSA16与RWTH-PHOENIX-Weather两个手形数据集，我们对LeNet、VGG16、ResNet-34、全卷积网络（All Convolutional）架构，以及采用常规训练和迁移学习（transfer learning）策略的Inception模型进行了实验，并将其性能与当前该领域的最先进方法进行了对比。同时，我们以前馈神经网络（Feedforward Neural Network）作为基线模型进行对照分析。此外，我们还探索了多种预处理方案，以评估其对识别准确率的影响。实验结果表明，尽管所有模型在两个数据集上均表现出较为良好的性能（与传统手工特征方法相当），但VGG16取得了最佳效果，紧随其后的是经典的LeNet架构。值得注意的是，预先将手部从背景中分割出来（pre-segmenting the hands from the background）显著提升了识别准确率，表明有效的图像预处理对提升手形识别性能具有关键作用。

源 PDF 查看代码