4 个月前

基于预训练上下文词表示的文本韵律重音预测

基于预训练上下文词表示的文本韵律重音预测

摘要

本文介绍了一个新的自然语言处理数据集和基准测试,用于从书面文本中预测韵律重音。据我们所知,这将是最大的公开可用的带有韵律标签的数据集。我们详细描述了数据集的构建过程以及由此产生的基准数据集,并训练了多种模型,包括基于特征的分类器到神经网络系统,以预测离散化的韵律重音。实验结果表明,即使在训练数据量不足10%的情况下,BERT预训练的上下文词表示仍优于其他模型。最后,我们根据实验结果讨论了该数据集,并指出了未来的研究方向及进一步改进数据集和文本韵律重音预测方法的计划。该数据集和模型代码已公开发布。

代码仓库

Helsinki-NLP/prosody
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于预训练上下文词表示的文本韵律重音预测 | 论文 | HyperAI超神经