4 个月前

从文本分段到智能章节划分:视频转录结构化的新基准

从文本分段到智能章节划分:视频转录结构化的新基准

摘要

文本分段是自然语言处理中的一个基本任务,其中文档被分割成连续的部分。然而,该领域的先前研究受到有限数据集的限制,这些数据集要么规模较小,要么是合成的,或者仅包含结构良好的文档。在本文中,我们通过引入一个新的基准数据集YTSeg来解决这些问题,该数据集专注于本质上更为无结构且主题和结构上更加多样的口语内容。作为本研究的一部分,我们提出了一种高效的层次分段模型MiniSeg,其性能优于现有的最先进基线模型。最后,我们将文本分段的概念扩展到更具实用性的“智能章节划分”任务,该任务涉及对无结构内容进行分段、生成有意义的段落标题以及模型的潜在实时应用。

基准测试

基准方法指标
headline-generation-on-ytsegBART (no context)
BARTScore: -4.21
headline-generation-on-ytsegBART (previous titles)
BARTScore: -3.87

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从文本分段到智能章节划分:视频转录结构化的新基准 | 论文 | HyperAI超神经