3 个月前

基于多视角的社区问答网站内容审核操作建议方法

基于多视角的社区问答网站内容审核操作建议方法

摘要

在热门问答网站上,每天都有成千上万的新问题被发布,因此亟需自动化且准确的软件解决方案来替代人工审核。本文针对问答社区中依赖众包方式进行内容审核所存在的关键缺陷,展示了利用最新机器学习模型实现审核自动化的能力。从技术角度来看,我们提出了一种多视角方法,通过生成三组不同的特征,从三个不同维度对问题进行分析:(1)基于BERT的回归模型提取的问题相关特征;(2)基于命名实体识别(Named Entity Recognition, NER)模型提取的上下文相关特征;(3)通过统计与分析方法获得的一般词汇特征。最后,我们采用梯度提升分类器(Gradient Boosting Classifier)对审核操作进行预测。为评估模型性能,我们构建了一个新的数据集,包含60,000条来自Stack Overflow的问题,并将其标注为三类审核操作。在该新数据集上进行的交叉验证结果显示,本方法在多分类任务中达到了95.6%的准确率,显著优于所有现有最先进模型及以往已发表的模型。实验结果充分表明,我们所设计的特征生成模块对分类器整体性能具有显著影响。

基准测试

基准方法指标
question-quality-assessment-on-60k-stackMulti-view approach
F1 Score: .917

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多视角的社区问答网站内容审核操作建议方法 | 论文 | HyperAI超神经