3 个月前

使用大语言模型评估多语言缺陷报告的机器翻译

使用大语言模型评估多语言缺陷报告的机器翻译

摘要

准确翻译缺陷报告对于全球软件开发中的高效协作至关重要。在本研究中,我们首次对机器翻译(MT)在缺陷报告上的性能进行了全面评估,采用来自 Visual Studio Code GitHub 仓库的数据,特别聚焦于带有 english-please 标签的报告,考察 DeepL、AWS Translate 以及大型语言模型(如 ChatGPT、Claude、Gemini、LLaMA 和 Mistral)的翻译表现。为综合评估翻译质量与源语言识别准确性,我们采用了多种机器翻译评价指标,包括 BLEU、BERTScore、COMET、METEOR 和 ROUGE,同时结合分类任务中的准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数进行分析。研究结果表明,尽管 ChatGPT(gpt-4o)在语义与词汇层面的翻译质量上表现最优,但在源语言识别任务中并未取得领先。Claude 和 Mistral 在 F1 分数上表现最佳,分别为 0.7182 和 0.7142;Gemini 则在精确率方面表现最佳,达到 0.7414;而 AWS Translate 在源语言识别的准确率上最高,为 0.4717。这些发现表明,目前尚无单一系统能在所有任务中全面占优,进一步凸显了针对具体任务开展评估的重要性。本研究强调了在翻译技术性内容时进行领域适配的必要性,并为将机器翻译有效整合进缺陷分类与处理工作流提供了切实可行的指导建议。本文所用代码与数据集已公开,可通过 GitHub 获取:https://github.com/av9ash/English-Please

代码仓库

av9ash/English-Please
官方
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-multi-lingual-bugChatGPT
BERTScore: 79

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用大语言模型评估多语言缺陷报告的机器翻译 | 论文 | HyperAI超神经