4 个月前

利用循环神经网络学习阿拉伯语和英语诗歌的格律:语言理解和合成的一步进展

利用循环神经网络学习阿拉伯语和英语诗歌的格律:语言理解和合成的一步进展

摘要

识别一篇作品是诗歌还是散文对大多数人来说通常并不困难;然而,只有专家才能确定一首诗属于哪种韵律。在本文中,我们构建了循环神经网络(RNN)模型,这些模型可以从纯文本中对诗歌进行分类,根据其所属的韵律。输入文本在字符级别进行编码,并直接输入模型而无需手工提取特征。这是机器对语言理解和合成的一般性进展,特别是对于阿拉伯语。网络能够分别以96.38%和82.31%的总体准确率正确分类阿拉伯语和英语的诗歌韵律。用于本研究的诗歌数据集非常庞大,超过150万行诗句,是从不同的非技术来源爬取的,几乎涵盖了阿拉伯语和英语文学网站上的各种异构和非结构化格式。这些数据集现在已以干净、结构化且有文档的形式公开发布,供未来研究使用。据作者所知,这项研究是首次采用机器学习方法解决诗歌韵律分类问题,特别是在基于无特征RNN的方法中。此外,该数据集也是首个为未来计算研究准备并公开发布的数据集。

代码仓库

hci-lab/LearningMetersPoems
官方
tf
GitHub 中提及
CAMeL-Lab/CAMeLBERT
pytorch
GitHub 中提及

基准测试

基准方法指标
poem-meters-classification-on-pcdBiLSTM
Accuracy: 96.38

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用循环神经网络学习阿拉伯语和英语诗歌的格律:语言理解和合成的一步进展 | 论文 | HyperAI超神经