4 个月前

利用加权集成的TF-IDF和BERT嵌入增强马拉地语的抄袭检测以处理低资源语言

利用加权集成的TF-IDF和BERT嵌入增强马拉地语的抄袭检测以处理低资源语言

摘要

抄袭涉及在未适当注明来源的情况下使用他人的作品或概念,并将其作为原创成果呈现。随着以马拉地语(Marathi)等地区语言交流的数据量不断增加——马拉地语是印度的一种地区语言——设计适用于低资源语言的稳健抄袭检测系统变得至关重要。像双向编码器表示模型(Bidirectional Encoder Representations from Transformers, BERT)这样的语言模型已经在文本表示和特征提取方面展示了卓越的能力,使其成为语义分析和抄袭检测的重要工具。然而,BERT在低资源语言中的应用仍处于探索阶段,特别是在抄袭检测领域。本文提出了一种方法,通过结合BERT句向量和词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)特征表示来提高马拉地语文本的抄袭检测准确性。该方法通过加权投票集成机器学习模型有效地捕捉了文本特征的统计、语义和句法方面。

代码仓库

基准测试

基准方法指标
paraphrase-identification-on-translated-snliWeighted Ensemble of TF-IDF and BERT Embeddings
1:1 Accuracy: 82.04%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用加权集成的TF-IDF和BERT嵌入增强马拉地语的抄袭检测以处理低资源语言 | 论文 | HyperAI超神经