8 个月前

统一多模态

Karim Al-Rawi Rajat Das

摘要

在本文中，我们研究了构建一种序列到序列架构，用于动作到语言的翻译和同步。目标是将动作捕捉输入转化为英语自然语言描述，使得这些描述能够与所执行的动作同步生成，从而作为副产品实现语义分割，而无需同步训练数据。我们提出了一种新的局部注意力机制的递归公式，适用于同步/实时文本生成，并改进了运动编码器架构，使其更适合小规模数据和同步生成。我们在单独的实验中评估了这两项贡献，使用了标准的BLEU4指标以及一个简单的语义等价度量，在KIT动作语言数据集上进行了测试。在后续实验中，我们通过多种评估指标对所提出的模型生成文本的同步质量进行了评估。结果表明，对注意力机制和编码器架构的两项贡献不仅加性地提高了生成文本的质量（BLEU和语义等价），还改善了同步效果。我们的代码可在以下地址获取：https://github.com/rd20karim/M2T-Segmentation/tree/main

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Karim Al-Rawi Rajat Das

摘要

在本文中，我们研究了构建一种序列到序列架构，用于动作到语言的翻译和同步。目标是将动作捕捉输入转化为英语自然语言描述，使得这些描述能够与所执行的动作同步生成，从而作为副产品实现语义分割，而无需同步训练数据。我们提出了一种新的局部注意力机制的递归公式，适用于同步/实时文本生成，并改进了运动编码器架构，使其更适合小规模数据和同步生成。我们在单独的实验中评估了这两项贡献，使用了标准的BLEU4指标以及一个简单的语义等价度量，在KIT动作语言数据集上进行了测试。在后续实验中，我们通过多种评估指标对所提出的模型生成文本的同步质量进行了评估。结果表明，对注意力机制和编码器架构的两项贡献不仅加性地提高了生成文本的质量（BLEU和语义等价），还改善了同步效果。我们的代码可在以下地址获取：https://github.com/rd20karim/M2T-Segmentation/tree/main

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供