4 个月前

使用BERT进行捷克语的重音符号恢复及其分析

使用BERT进行捷克语的重音符号恢复及其分析

摘要

我们提出了一种基于上下文嵌入的新架构用于恢复重音符号,特别是使用了BERT模型,并在12种带有重音符号的语言上对其进行了评估。此外,我们对捷克语进行了详细的错误分析,捷克语是一种形态丰富的语言,具有较高的重音符号使用频率。值得注意的是,我们手动标注了所有误预测结果,结果显示大约44%的误预测实际上并不是错误,而是合理的变体(19%)或系统对错误数据的修正(25%)。最后,我们详细分类了真正的错误。我们在https://github.com/ufal/bert-diacritics-restoration发布了代码。

代码仓库

基准测试

基准方法指标
croatian-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.73
czech-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.22
french-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.71
hungarian-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.41
irish-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 98.88
latvian-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 98.63
romanian-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 98.64
slovak-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.32
spanish-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 99.62
turkish-text-diacritization-on-multilingualBERT
Alpha-Word accuracy: 98.95
vietnamese-text-diacritization-onBERT
Alpha-Word accuracy: 98.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用BERT进行捷克语的重音符号恢复及其分析 | 论文 | HyperAI超神经