6 个月前

摘要

尽管情感与情绪分析已得到广泛研究，但讽刺与情绪之间的关系却长期未被充分探索。讽刺性表达背后可能蕴含多种复杂情绪：例如，“我真喜欢被忽视”这句话表面看似积极，实则暗含悲伤；而“我的手机电池续航只有15分钟，真是太棒了！”则明显流露出 frustration（挫败感）。识别讽刺语句背后的真实情绪虽具挑战性，但具有重要意义。本文首次系统性地开展讽刺语句中情绪识别任务，据我们所知，该方向此前尚无研究涉及。研究基于近期发布的多模态讽刺识别数据集 MUStARD，该数据集已预先标注了九种情绪类别。我们对原始标注进行了全面审查，识别并修正了其中343个错误的情绪标签（总计690个标签）。在此基础上，我们将数据集规模扩大一倍，并补充标注了情绪的效价（valence）与唤醒度（arousal）两个关键维度，二者是衡量情绪强度的重要指标。此外，我们进一步为每条讽刺语句标注了四种讽刺类型：命题型（Propositional）、嵌入型（Embedded）、带“like”前缀型（Like-prefixed）以及言语行为型（Illocutionary），旨在推动讽刺识别研究的深入发展。通过在多模态（文本、音频、视频）融合模型上开展全面实验，本文建立了讽刺语境下精确情绪识别的基准（benchmark），其性能显著优于当前最先进的讽刺检测方法。为促进学术研究，我们已将该增强后的数据集及其标注信息，连同完整代码一并开源发布：https://github.com/apoorva-nunna/MUStARD_Plus_Plus。

源 PDF 查看代码