6 个月前

自然语言处理

自然语言处理

Jiacheng Ye Jiahui Gao Jiangtao Feng Zhiyong Wu Tao Yu Lingpeng Kong

摘要

近年来，基于数据集生成的零样本学习方法展现出令人瞩目的成果：通过利用大规模预训练语言模型（PLM）合成的数据集来训练特定任务模型，最终得到的专用模型在零样本设置下往往能达到与PLM相当甚至更优的性能，且参数量仅为后者的数十分之一至数百分之一。然而，合成数据集仍存在明显缺陷，长期面临质量不高的问题（如信息量低、冗余度高）。这正是为何大量合成数据并未带来预期的性能提升——这一现象在人工标注数据中本应成立。为提升数据集生成的质量，本文提出一种渐进式零样本数据集生成框架——ProGen，该框架通过利用任务专用模型的反馈，借助上下文示例（in-context examples）来引导新训练数据的生成过程。在五个文本分类数据集上的大量实验验证了所提方法的有效性。此外，我们进一步证明，ProGen仅需1%的合成数据规模，即可在性能上达到或超越基线方法（后者未采用上下文反馈机制），充分体现了其高效性与优越性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Jiacheng Ye Jiahui Gao Jiangtao Feng Zhiyong Wu Tao Yu Lingpeng Kong

摘要

近年来，基于数据集生成的零样本学习方法展现出令人瞩目的成果：通过利用大规模预训练语言模型（PLM）合成的数据集来训练特定任务模型，最终得到的专用模型在零样本设置下往往能达到与PLM相当甚至更优的性能，且参数量仅为后者的数十分之一至数百分之一。然而，合成数据集仍存在明显缺陷，长期面临质量不高的问题（如信息量低、冗余度高）。这正是为何大量合成数据并未带来预期的性能提升——这一现象在人工标注数据中本应成立。为提升数据集生成的质量，本文提出一种渐进式零样本数据集生成框架——ProGen，该框架通过利用任务专用模型的反馈，借助上下文示例（in-context examples）来引导新训练数据的生成过程。在五个文本分类数据集上的大量实验验证了所提方法的有效性。此外，我们进一步证明，ProGen仅需1%的合成数据规模，即可在性能上达到或超越基线方法（后者未采用上下文反馈机制），充分体现了其高效性与优越性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供