7 个月前

音频和语音处理

自然语言处理

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

摘要

播客是一种规模庞大且持续增长的口语音频资源库。作为一种音频格式，播客在风格和制作类型上比广播新闻更加多样，涵盖的题材也远超通常在视频数据中研究的范围，其风格与形式的多样性远高于以往的对话语料库。通过自动语音识别技术进行转写后，播客构成了一个噪声较多但极具研究价值的文档集合，可从自然语言处理、信息检索以及语言学等视角进行深入分析。结合原始音频文件，它们还可作为语音处理以及副语言特征、社会语言学和声学特性研究的重要资源。本文介绍了Spotify播客数据集（Spotify Podcast Dataset），这是一个包含10万集播客的新语料库。我们通过两个任务的案例研究展示了该领域的复杂性：（1）段落检索，（2）摘要生成。该数据集的规模远超以往用于检索与摘要任务的语音语料库，达到数量级上的提升。研究结果表明，该语料库的规模与多样性为相关研究开辟了全新的探索路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

自然语言处理

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

摘要

播客是一种规模庞大且持续增长的口语音频资源库。作为一种音频格式，播客在风格和制作类型上比广播新闻更加多样，涵盖的题材也远超通常在视频数据中研究的范围，其风格与形式的多样性远高于以往的对话语料库。通过自动语音识别技术进行转写后，播客构成了一个噪声较多但极具研究价值的文档集合，可从自然语言处理、信息检索以及语言学等视角进行深入分析。结合原始音频文件，它们还可作为语音处理以及副语言特征、社会语言学和声学特性研究的重要资源。本文介绍了Spotify播客数据集（Spotify Podcast Dataset），这是一个包含10万集播客的新语料库。我们通过两个任务的案例研究展示了该领域的复杂性：（1）段落检索，（2）摘要生成。该数据集的规模远超以往用于检索与摘要任务的语音语料库，达到数量级上的提升。研究结果表明，该语料库的规模与多样性为相关研究开辟了全新的探索路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供