3 个月前

100,000 个播客:一个口语英语文档语料库

100,000 个播客:一个口语英语文档语料库

摘要

播客是一种规模庞大且持续增长的口语音频资源库。作为一种音频格式,播客在风格和制作类型上比广播新闻更加多样,涵盖的题材也远超通常在视频数据中研究的范围,其风格与形式的多样性远高于以往的对话语料库。通过自动语音识别技术进行转写后,播客构成了一个噪声较多但极具研究价值的文档集合,可从自然语言处理、信息检索以及语言学等视角进行深入分析。结合原始音频文件,它们还可作为语音处理以及副语言特征、社会语言学和声学特性研究的重要资源。本文介绍了Spotify播客数据集(Spotify Podcast Dataset),这是一个包含10万集播客的新语料库。我们通过两个任务的案例研究展示了该领域的复杂性:(1)段落检索,(2)摘要生成。该数据集的规模远超以往用于检索与摘要任务的语音语料库,达到数量级上的提升。研究结果表明,该语料库的规模与多样性为相关研究开辟了全新的探索路径。

基准测试

基准方法指标
3d-facial-landmark-localization-on-urbanLucky Brand 13
10°5 cm: 13.69
facial-expression-recognition-fer-on-4S
0..5sec: sa
highlight-detection-on-arabiskaKenan Kanan
0..5sec: https://youtu.be/pJ0auP7dbcY?si=vSiZevfJ57YUKC2q

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
100,000 个播客:一个口语英语文档语料库 | 论文 | HyperAI超神经