4 个月前

适应序列到序列模型以实现社交媒体中的文本规范化

适应序列到序列模型以实现社交媒体中的文本规范化

摘要

社交媒体提供了丰富的有价值原始数据来源,然而非正式的书写方式很快就会成为许多自然语言处理(NLP)任务的瓶颈。现成的工具通常是在正式文本上训练的,无法明确处理在线短帖中的噪声。此外,频繁出现的语言变体多样性也带来了若干挑战,即使对于人类来说,也可能难以理解这些帖子的意义,尤其是在它们包含俚语和缩写时。文本规范化旨在将在线用户生成的文本转换为标准形式。目前的文本规范化系统依赖于字符串或语音相似性和分类模型,这些模型以局部方式工作。我们认为处理上下文信息对于这一任务至关重要,并引入了一种基于混合词-字符注意力机制的社会媒体文本规范化编码器-解码器模型,该模型可以作为NLP应用的预处理步骤,以适应社交媒体中的噪声文本。我们的字符组件是在合成对抗样本上训练的,这些样本旨在捕捉在线用户生成文本中常见的错误。实验结果表明,我们的模型超越了专为文本规范化设计的神经架构,并达到了与相关领域的最先进工作相当的性能。

代码仓库

基准测试

基准方法指标
lexical-normalization-on-lexnormTextNorm
Accuracy: 83.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
适应序列到序列模型以实现社交媒体中的文本规范化 | 论文 | HyperAI超神经