
摘要
语言识别是指确定文档所使用语言的任务。在自动拼写检查器选择等应用场景中,语言识别需处理极短的文本片段,例如短信内容。在本研究中,我们复现了苹果公司在一篇博客文章中简要描述的语言识别架构。实验结果证实了双向LSTM(bi-LSTM)模型的有效性,并发现其性能优于当前现有的开源语言识别工具。此外,我们进一步发现,该模型在语言识别上的错误主要源于语义或结构相近语言之间的混淆。
代码仓库
AU-DIS/LSTM_langid
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-identification-on-opensubtitles | Apple bi-LSTM | Accuracy: 91.37 |
| language-identification-on-universal | Apple bi-LSTM | Accuracy: 86.93 |