4 个月前

预训练数据的成本效益选择:以社交媒体上预训练BERT为例的研究

预训练数据的成本效益选择:以社交媒体上预训练BERT为例的研究

摘要

最近对领域特定的BERT模型的研究表明,当这些模型在领域内数据上进行预训练时,其在下游任务上的效果可以得到提升。通常,用于这些模型预训练的数据是根据其主题内容选择的,例如生物学或计算机科学。鉴于社交媒体文本应用广泛且语言具有独特多样性,我们分别在推特和论坛文本上预训练了两个模型,并通过实证研究展示了这两种资源的有效性。此外,我们还探讨了如何利用相似度度量来提名领域内预训练数据。我们的预训练模型已公开发布,地址为https://bit.ly/35RpTf0。

基准测试

基准方法指标
clinical-concept-extraction-on-2010-i2b2vaClinicalBERT
Exact Span F1: 87.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供