
摘要
生成式大语言模型(LLMs)由于其出色的零样本性能和对未见过实体的泛化能力,成为预训练语言模型在实体匹配任务中的一个有前景的替代方案。现有的研究主要集中在使用大语言模型进行实体匹配时的提示工程和上下文学习上。本文探讨了微调大语言模型在实体匹配中的潜力。我们从两个维度分析了微调过程:1)训练样例的表示,其中我们尝试在训练集中添加不同类型的由大语言模型生成的解释;2)使用大语言模型选择和生成训练样例的方法。除了评估源数据集上的匹配性能外,我们还研究了微调如何影响模型在其他同域数据集以及跨主题领域的泛化能力。实验结果表明,微调显著提升了较小模型的性能,而较大模型的结果则较为复杂。微调还提高了模型在同域数据集上的泛化能力,但对跨域迁移产生了负面影响。我们发现,在训练集中添加结构化的解释对四个大语言模型中的三个具有积极影响,而所提出的选择和生成样例的方法仅改善了Llama 3.1 8B的性能,却降低了GPT-4o-mini的表现。
代码仓库
wbsg-uni-mannheim/tailormatch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| entity-resolution-on-abt-buy | Meta-Llama-3.1-8B-Instruct | F1 (%): 56.57 | 
| entity-resolution-on-abt-buy | Meta-Llama-3.1-70B-Instruct | F1 (%): 79.12 | 
| entity-resolution-on-abt-buy | Meta-Llama-3.1-8B-Instruct_fine_tuned | F1 (%): 87.34 | 
| entity-resolution-on-abt-buy | gpt-4o-2024-08-06 | F1 (%): 92.20 | 
| entity-resolution-on-abt-buy | gpt-4o-mini-2024-07-18_fine_tuned | F1 (%): 94.09 | 
| entity-resolution-on-abt-buy | gpt-4o-mini-2024-07-18 | F1 (%): 87.68 | 
| entity-resolution-on-amazon-google | gpt-4o-mini-2024-07-18 | F1 (%): 59.20 | 
| entity-resolution-on-amazon-google | gpt-4o-mini-2024-07-18_fine_tuned | F1 (%): 80.25 | 
| entity-resolution-on-amazon-google | Meta-Llama-3.1-70B-Instruct | F1 (%): 51.44 | 
| entity-resolution-on-amazon-google | Meta-Llama-3.1-8B-Instruct_fine_tuned | F1 (%): 50.00 | 
| entity-resolution-on-amazon-google | Meta-Llama-3.1-8B-Instruct | F1 (%): 49.16 | 
| entity-resolution-on-amazon-google | gpt-4o-2024-08-06 | F1 (%): 63.45 | 
| entity-resolution-on-wdc-products | gpt-4o-2024-08-06_fine_tuned_wdc_small | F1 (%): 87.07 | 
| entity-resolution-on-wdc-products-80-cc-seen | gpt-4o-mini-2024-07-18 | F1 (%): 81.61 | 
| entity-resolution-on-wdc-products-80-cc-seen | gpt-4o-2024-08-06_fine_tuned_wdc_small | F1 (%): 87.10 | 
| entity-resolution-on-wdc-products-80-cc-seen | Llama3.1_8B_error-based_example_selection | F1 (%): 74.37 | 
| entity-resolution-on-wdc-products-80-cc-seen | Llama3.1_70B_structured_explanations | F1 (%): 76.70 | 
| entity-resolution-on-wdc-products-80-cc-seen | Llama3.1_70B | F1 (%): 75.20 | 
| entity-resolution-on-wdc-products-80-cc-seen | Llama3.1_8B | F1 (%): 53.36 | 
| entity-resolution-on-wdc-products-80-cc-seen | gpt-4o-mini-2024-07-18_structured_explanations | F1 (%): 84.38 | 
| entity-resolution-on-wdc-products-80-cc-seen | Llama3.1_8B_structured_explanations | F1 (%): 74.13 |