
摘要
社交媒体平台对于表达意见和了解公众情绪至关重要,然而许多分析工具却忽略了那些主要消费内容而不积极参与互动的被动用户。为解决这一问题,我们引入了UniPoll,这是一种先进的框架,旨在利用复杂的自然语言生成(NLG)技术从社交媒体帖子中自动生成调查问卷。与传统方法在处理社交媒体非正式和上下文敏感特性时遇到的困难不同,UniPoll通过利用用户评论中的丰富上下文并采用多目标优化来提高调查问卷的相关性和参与度。为了应对社交媒体数据固有的噪声问题,UniPoll结合了检索增强生成(Retrieval-Augmented Generation, RAG)和合成数据生成技术,确保在实际场景中表现出色。该框架在生成连贯且上下文适当的问答对方面超越了现有的模型,包括T5、ChatGLM3和GPT-3.5。UniPoll在中文微博调查数据集(WeiboPolls)和新推出的英文Reddit调查数据集(RedditPolls)上进行了评估,展示了卓越的跨语言和跨平台能力,使其成为提升用户参与度和创造更加包容互动环境的强大工具。
代码仓库
X1AOX1A/UniPoll
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| answer-generation-on-weibopolls | UniPoll | BLEU-1: 37.87 BLEU-3: 25.74 ROUGE-1: 46.24 ROUGE-L: 43.34 |
| poll-generation-on-weibopolls | UniPoll | BLEU-1: 39.96 BLEU-3: 22.78 ROUGE-1: 47.92 ROUGE-L: 45.02 |
| question-generation-on-weibopolls | UniPoll | BLEU-1: 42.04 BLEU-3: 19.83 ROUGE-1: 49.6 ROUGE-L: 46.71 |