4 个月前

深度重音标注:高效的层次递归以改善阿拉伯语重音标注

深度重音标注:高效的层次递归以改善阿拉伯语重音标注

摘要

我们提出了一种新颖的架构,用于标记字符序列,在Tashkeela阿拉伯语短音符标注基准测试中取得了最先进的结果。该架构的核心是一个两层递归层次结构,分别在单词和字符级别上运行——这使得其训练和推理速度比类似的传统模型更快。一个跨层级注意力模块进一步连接了这两个层次,并为网络的可解释性打开了大门。任务模块是一个softmax分类器,用于枚举有效的短音符组合。该架构还可以通过一个递归解码器进行扩展,该解码器可以选择性地接受部分标注文本的先验信息,从而提高性能。我们还采用了诸如句子丢弃和多数投票等额外技巧,以进一步提升最终结果。我们的最佳模型实现了5.34%的词错误率(WER),相对于之前的最先进水平,相对错误率降低了30.56%。

代码仓库

BKHMSI/deep-diacritization
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
arabic-text-diacritization-on-catt-datasetDeep Diacritization (D2)
DER(%): 13.310
WER (%): 49.417
arabic-text-diacritization-on-catt-datasetDeep Diacritization (D3)
DER(%): 58.313
WER (%): 98.710
arabic-text-diacritization-on-tashkeela-1D3 (D2 + decoder)
Diacritic Error Rate: 0.0183
Word Error Rate (WER): 0.0534
arabic-text-diacritization-on-tashkeela-1D2
Diacritic Error Rate: 0.0185
Word Error Rate (WER): 0.0553

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度重音标注:高效的层次递归以改善阿拉伯语重音标注 | 论文 | HyperAI超神经