3 个月前

探索语料库多样性对金融领域预训练语言模型的影响

探索语料库多样性对金融领域预训练语言模型的影响

摘要

近年来,多种面向特定领域的预训练语言模型(PLMs)相继被提出,在生物医学、科学和临床等专业领域中,其表现已超越通用领域PLMs。此外,由于金融数据分析具有显著的经济影响,金融领域专用的PLMs也受到了广泛关注。然而,我们发现现有的金融PLMs并未在足够多样化的金融数据上进行预训练。这种训练数据的单一性导致模型泛化能力不足,使得通用PLMs(如BERT)在许多下游任务中反而优于现有的金融PLMs。为解决这一问题,我们收集了广泛多样的金融语料库,并基于这些多样化数据集训练了金融语言模型(Financial Language Model, FiLM)。实验结果表明,FiLM不仅显著优于现有的各类金融PLMs,也超越了通用领域PLMs。此外,我们还提供了实证证据,证明该性能提升在未见过的语料库类别上同样可实现。

代码仓库

deep-over/film
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sentiment-analysis-on-financial-phrasebankFiLM
Accuracy: 86.25
F1 score: 84.48

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索语料库多样性对金融领域预训练语言模型的影响 | 论文 | HyperAI超神经