Command Palette

Search for a command to run...

2 个月前

大型预训练视觉语言模型能否有效担任施工安全检查员?

Xuezheng Chen Zhengbo Zou

大型预训练视觉语言模型能否有效担任施工安全检查员?

摘要

施工安全检查通常依赖人工检查员在施工现场识别安全隐患。随着强大视觉语言模型(Vision Language Models, VLMs)的兴起,研究人员开始探索其在从现场图像中检测安全规则违规行为等任务中的应用。然而,目前缺乏公开的数据集,以全面评估并进一步微调VLM在施工安全检查中的性能。现有的VLM应用多基于小规模、有监督的数据集,这限制了其在未直接训练过的任务中的适用性。本文提出ConstructionSite 10k数据集,包含10,000张施工现场图像,并为三个相互关联的任务提供标注,包括图像描述生成、安全规则违规视觉问答(Visual Question Answering, VQA)以及施工元素视觉定位(visual grounding)。我们对当前最先进的大型预训练VLMs进行的后续评估表明,这些模型在零样本(zero-shot)和少样本(few-shot)设置下展现出显著的泛化能力,但仍需额外训练才能使其适用于真实的施工现场。该数据集为研究人员提供了训练和评估新型架构与技术的VLMs的宝贵平台,为施工安全检查领域提供了一个重要的基准。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型预训练视觉语言模型能否有效担任施工安全检查员? | 论文 | HyperAI超神经