6 个月前

摘要

大型语言模型（LLMs）提供了前所未有的文本补全能力。作为通用模型，它们能够胜任多种任务，甚至可替代部分专用模型。本文评估了GPT-4与GPT-3.5在零样本（zero-shot）、少样本（few-shot）以及微调（fine-tuned）设置下在基于方面的情感分析（Aspect-Based Sentiment Analysis, ABSA）任务中的表现。其中，微调后的GPT-3.5在SemEval-2014任务4的联合方面词项提取与情感极性分类任务上取得了83.8的F1分数，达到当前最先进水平，较InstructABSA [@scaria_instructabsa_2023] 提升5.7%。然而，这一性能提升伴随着模型参数量增加约1000倍，导致推理成本显著上升。本文进一步探讨了不同模型在性能与成本之间的权衡关系，并分析了各类模型常见的错误类型。研究结果还表明，在零样本和少样本场景下，详细提示（detailed prompts）有助于提升模型表现，但对于微调后的模型而言，此类提示并非必要。该发现对实践者具有重要参考价值，有助于在使用LLMs进行ABSA任务时，权衡提示工程（prompt engineering）与模型微调之间的选择。

源 PDF