3 个月前

LlamBERT:自然语言处理中的大规模低成本数据标注

LlamBERT:自然语言处理中的大规模低成本数据标注

摘要

大型语言模型(LLMs),如GPT-4和Llama 2,在众多自然语言处理(NLP)任务中展现出卓越的性能。尽管其效果显著,但高昂的使用成本仍构成实际应用中的主要挑战。本文提出一种名为LlamBERT的混合方法,该方法利用大型语言模型对大规模未标注数据集中的小样本进行标注,并将标注结果用于微调如BERT和RoBERTa等Transformer编码器。该策略在两个具有代表性的数据集上进行了评估:IMDb影评数据集和UMLS元术语库(UMLS Meta-Thesaurus)。实验结果表明,LlamBERT方法在精度上略有下降,但显著提升了成本效益。

代码仓库

基准测试

基准方法指标
sentiment-analysis-on-imdbLlama-2-70b-chat (0-shot)
Accuracy: 95.39
sentiment-analysis-on-imdbRoBERTa-large with LlamBERT
Accuracy: 96.68
sentiment-analysis-on-imdbRoBERTa-large
Accuracy: 96.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LlamBERT:自然语言处理中的大规模低成本数据标注 | 论文 | HyperAI超神经