{Rosie JonesBen CarteretteJussi KarlgrenGareth JonesMaria EskevichHamed BonabRezvaneh RezapourAasish PappuYongze YuSravana ReddyAnn Clifton}

摘要
播客是一种规模庞大且持续增长的口语音频资源库。作为一种音频格式,播客在风格和制作类型上比广播新闻更加多样,涵盖的题材也远超通常在视频数据中研究的范围,其风格与形式的多样性远高于以往的对话语料库。通过自动语音识别技术进行转写后,播客构成了一个噪声较多但极具研究价值的文档集合,可从自然语言处理、信息检索以及语言学等视角进行深入分析。结合原始音频文件,它们还可作为语音处理以及副语言特征、社会语言学和声学特性研究的重要资源。本文介绍了Spotify播客数据集(Spotify Podcast Dataset),这是一个包含10万集播客的新语料库。我们通过两个任务的案例研究展示了该领域的复杂性:(1)段落检索,(2)摘要生成。该数据集的规模远超以往用于检索与摘要任务的语音语料库,达到数量级上的提升。研究结果表明,该语料库的规模与多样性为相关研究开辟了全新的探索路径。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-facial-landmark-localization-on-urban | Lucky Brand 13 | 10°5 cm: 13.69 |
| facial-expression-recognition-fer-on-4 | S | 0..5sec: sa |
| highlight-detection-on-arabiska | Kenan Kanan | 0..5sec: https://youtu.be/pJ0auP7dbcY?si=vSiZevfJ57YUKC2q |