6 个月前

自然语言处理

监督式微调

自然语言处理

Steven Windisch Elizabeth Jenaway Adan Ernesto Vela Kamalakkannan Ravi

摘要

本研究聚焦于一个关键挑战：如何有效衡量针对美国选举、公共官员及机构的社交媒体评论中所蕴含的威胁。目前，我们对这类网络威胁及其与现实世界风险之间关联的理解仍十分有限，导致难以准确评估其严重程度。为克服上述局限，我们提出了一套从0到5的全面威胁等级量表，并收集了包含130万条Telegram评论的数据集，用于模型的开发与严格测试。此外，我们探索了利用OpenAI与人工标注相结合的方法，以高效标注这一大规模数据集。本研究采用创新的两步迁移学习策略：首先，利用已有的预训练模型进行初步标注，随后由专家进行验证；接着，基于AI标注样本训练独立模型，并由专家对模型预测结果进行复核。值得注意的是，研究结果表明，尽管GPT-2模型所使用的标注训练集规模较小，其性能仍可与OpenAI的标注结果相媲美，展现出在获得更多标注数据后实现低成本、高效威胁检测的巨大潜力。在长期目标上，本研究致力于建立持续的威胁等级监测体系。基于当前方法的优势与不足，我们进一步提出了未来提升威胁检测能力的实施路线图。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

监督式微调

自然语言处理

Steven Windisch Elizabeth Jenaway Adan Ernesto Vela Kamalakkannan Ravi

摘要

本研究聚焦于一个关键挑战：如何有效衡量针对美国选举、公共官员及机构的社交媒体评论中所蕴含的威胁。目前，我们对这类网络威胁及其与现实世界风险之间关联的理解仍十分有限，导致难以准确评估其严重程度。为克服上述局限，我们提出了一套从0到5的全面威胁等级量表，并收集了包含130万条Telegram评论的数据集，用于模型的开发与严格测试。此外，我们探索了利用OpenAI与人工标注相结合的方法，以高效标注这一大规模数据集。本研究采用创新的两步迁移学习策略：首先，利用已有的预训练模型进行初步标注，随后由专家进行验证；接着，基于AI标注样本训练独立模型，并由专家对模型预测结果进行复核。值得注意的是，研究结果表明，尽管GPT-2模型所使用的标注训练集规模较小，其性能仍可与OpenAI的标注结果相媲美，展现出在获得更多标注数据后实现低成本、高效威胁检测的巨大潜力。在长期目标上，本研究致力于建立持续的威胁等级监测体系。基于当前方法的优势与不足，我们进一步提出了未来提升威胁检测能力的实施路线图。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于AI-人工标注探索Telegram数据中的多层次威胁：一项初步研究 | 论文 | HyperAI超神经