使用此数据集在 Discord 上讨论

日期

3 个月前

数据集组织

许可证

CC BY 4.0

标签

Simple Voice Questions(简称 SVQ) 是由 Google 发布的一个简短音频数据集，是 Massive Sound Embedding Benchmark (MSEB) 的核心评估组件。该数据集为多语言语音数据集，包含 26 个地区的 17 种语言下的简短音频问题，共计约 700 名说话者，每人最多提供 250 条语音样本，涵盖阿拉伯语、英语、日语、韩语、印地语等多种语言，并包含安静环境、背景人声及交通噪声等多样化录音条件。数据对说话者性别进行标注，包含女性、男性、非二元及未作答四类，在语言与声学场景上具备较高多样性。

数据字段:

utt_id: 字符串类型，表示录音的唯一标识。
waveform: 音频类型，采样率为 16,000 。
locale: 字符串类型，表示录音地区。
speaker_id: 字符串类型，表示说话者的唯一标识。
speaker_age: 32 位整数，表示说话者年龄。
speaker_gender: 字符串类型，表示说话者性别。
environment: 字符串类型，表示录音环境。
text: 字符串类型，表示录音文本内容。
topk_salient_terms: 字符串列表，表示关键词。
topk_salient_terms_timestamps: 浮点数列表，表示关键词的时间戳。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

使用此数据集在 Discord 上讨论

日期

3 个月前

数据集组织

许可证

CC BY 4.0

标签

Simple Voice Questions(简称 SVQ) 是由 Google 发布的一个简短音频数据集，是 Massive Sound Embedding Benchmark (MSEB) 的核心评估组件。该数据集为多语言语音数据集，包含 26 个地区的 17 种语言下的简短音频问题，共计约 700 名说话者，每人最多提供 250 条语音样本，涵盖阿拉伯语、英语、日语、韩语、印地语等多种语言，并包含安静环境、背景人声及交通噪声等多样化录音条件。数据对说话者性别进行标注，包含女性、男性、非二元及未作答四类，在语言与声学场景上具备较高多样性。

数据字段:

utt_id: 字符串类型，表示录音的唯一标识。
waveform: 音频类型，采样率为 16,000 。
locale: 字符串类型，表示录音地区。
speaker_id: 字符串类型，表示说话者的唯一标识。
speaker_age: 32 位整数，表示说话者年龄。
speaker_gender: 字符串类型，表示说话者性别。
environment: 字符串类型，表示录音环境。
text: 字符串类型，表示录音文本内容。
topk_salient_terms: 字符串列表，表示关键词。
topk_salient_terms_timestamps: 浮点数列表，表示关键词的时间戳。

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 support@hyper.ai 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供