6 个月前

Daking Rai Bailin Wang Yilun Zhou Ziyu Yao

摘要

组合性与领域泛化是语义解析领域中的重大挑战，即便对于基于预训练语言模型（LM）的最先进语义解析器而言亦是如此。在本研究中，我们通过实证方法探讨了两种简单技术对提升语言模型在语义解析任务中泛化能力的效用：在词元（token）层面，我们提出一种词元预处理方法，以保留语言模型分词器所生成词元的语义边界；在序列层面，我们引入特殊标记（special tokens）来标识输入与输出之间对齐组件的边界。在两个文本到SQL语义解析数据集上的实验结果表明，尽管该词元预处理方法结构简单，却能显著提升语言模型在组合性泛化与领域泛化两种场景下的性能；而组件边界标记方法在提升组合性泛化方面尤为有效。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Daking Rai Bailin Wang Yilun Zhou Ziyu Yao

摘要

组合性与领域泛化是语义解析领域中的重大挑战，即便对于基于预训练语言模型（LM）的最先进语义解析器而言亦是如此。在本研究中，我们通过实证方法探讨了两种简单技术对提升语言模型在语义解析任务中泛化能力的效用：在词元（token）层面，我们提出一种词元预处理方法，以保留语言模型分词器所生成词元的语义边界；在序列层面，我们引入特殊标记（special tokens）来标识输入与输出之间对齐组件的边界。在两个文本到SQL语义解析数据集上的实验结果表明，尽管该词元预处理方法结构简单，却能显著提升语言模型在组合性泛化与领域泛化两种场景下的性能；而组件边界标记方法在提升组合性泛化方面尤为有效。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于语言模型的文本到SQL语义解析中的泛化能力提升：两种简单的基于语义边界的技巧 | 论文 | HyperAI超神经