8 个月前

自然语言处理

自然语言处理

Atharva Mutsaddi; Aditya Choudhary

摘要

抄袭涉及在未适当注明来源的情况下使用他人的作品或概念，并将其作为原创成果呈现。随着以马拉地语（Marathi）等地区语言交流的数据量不断增加——马拉地语是印度的一种地区语言——设计适用于低资源语言的稳健抄袭检测系统变得至关重要。像双向编码器表示模型（Bidirectional Encoder Representations from Transformers, BERT）这样的语言模型已经在文本表示和特征提取方面展示了卓越的能力，使其成为语义分析和抄袭检测的重要工具。然而，BERT在低资源语言中的应用仍处于探索阶段，特别是在抄袭检测领域。本文提出了一种方法，通过结合BERT句向量和词频-逆文档频率（Term Frequency-Inverse Document Frequency, TF-IDF）特征表示来提高马拉地语文本的抄袭检测准确性。该方法通过加权投票集成机器学习模型有效地捕捉了文本特征的统计、语义和句法方面。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Atharva Mutsaddi; Aditya Choudhary

摘要

抄袭涉及在未适当注明来源的情况下使用他人的作品或概念，并将其作为原创成果呈现。随着以马拉地语（Marathi）等地区语言交流的数据量不断增加——马拉地语是印度的一种地区语言——设计适用于低资源语言的稳健抄袭检测系统变得至关重要。像双向编码器表示模型（Bidirectional Encoder Representations from Transformers, BERT）这样的语言模型已经在文本表示和特征提取方面展示了卓越的能力，使其成为语义分析和抄袭检测的重要工具。然而，BERT在低资源语言中的应用仍处于探索阶段，特别是在抄袭检测领域。本文提出了一种方法，通过结合BERT句向量和词频-逆文档频率（Term Frequency-Inverse Document Frequency, TF-IDF）特征表示来提高马拉地语文本的抄袭检测准确性。该方法通过加权投票集成机器学习模型有效地捕捉了文本特征的统计、语义和句法方面。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

利用加权集成的TF-IDF和BERT嵌入增强马拉地语的抄袭检测以处理低资源语言 | 论文 | HyperAI超神经