
摘要
抄袭涉及在未适当注明来源的情况下使用他人的作品或概念,并将其作为原创成果呈现。随着以马拉地语(Marathi)等地区语言交流的数据量不断增加——马拉地语是印度的一种地区语言——设计适用于低资源语言的稳健抄袭检测系统变得至关重要。像双向编码器表示模型(Bidirectional Encoder Representations from Transformers, BERT)这样的语言模型已经在文本表示和特征提取方面展示了卓越的能力,使其成为语义分析和抄袭检测的重要工具。然而,BERT在低资源语言中的应用仍处于探索阶段,特别是在抄袭检测领域。本文提出了一种方法,通过结合BERT句向量和词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)特征表示来提高马拉地语文本的抄袭检测准确性。该方法通过加权投票集成机器学习模型有效地捕捉了文本特征的统计、语义和句法方面。
代码仓库
aditya-choudhary599/Marathi-Plagiarism-Detection
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| paraphrase-identification-on-translated-snli | Weighted Ensemble of TF-IDF and BERT Embeddings | 1:1 Accuracy: 82.04% |