8 个月前

摘要

现有的自动提示工程方法通常针对判别任务设计，其中新任务提示通过单一指标反映的单一方面的有限反馈进行迭代优化。然而，这些方法对于生成任务来说并不理想，因为生成任务需要超出单一数值指标的更为细致的指导来改进提示并优化生成文本的多个方面。为了解决这些问题，我们提出了一种新的多方面批评建议引导的自动提示优化（CriSPO）方法。CriSPO 引入了一个批评建议模块作为其核心组件。该模块能够自发发现各个方面，并在这些方面上比较生成文本和参考文本，提供具体的提示修改建议。这些明确的批评和可操作的建议指导一个响应式的优化器模块进行更实质性的更改，探索更广泛且更有效的搜索空间。为了进一步提高 CriSPO 的多指标优化能力，我们引入了自动后缀调优（AST）扩展，以增强任务提示在多个指标上的表现。我们在 4 个最先进的大语言模型（LLM）上对 4 个摘要数据集和 5 个问答数据集进行了评估。广泛的实验表明，CriSPO 在摘要任务上提高了 3-4% 的 ROUGE 分数，并在问答任务上显著改善了各种指标的表现。代码可在 https://github.com/amazon-science/crispo 获取。

源 PDF