
摘要
我们描述了一种用于无监督学习的通用分布式句子编码器的方法。通过利用书籍中文字的连续性,我们训练了一个编码器-解码器模型,该模型试图重建编码段落周围的句子。因此,具有相似语义和句法属性的句子被映射到类似的向量表示。接下来,我们引入了一种简单的词汇扩展方法,以对训练过程中未见过的词语进行编码,从而使我们的词汇量可以扩展到一百万个词语。在训练完我们的模型后,我们提取并使用线性模型在8个任务上评估了这些向量:语义相关性、同义句检测、图像-句子排序、问题类型分类以及4个基准情感和主观性数据集。最终结果是一个现成的编码器,它可以生成高度通用且稳健的句子表示,在实际应用中表现出色。我们将公开发布此编码器。
代码仓库
facebookresearch/InferSent
pytorch
GitHub 中提及
kushalpatil1997/text_to_image_synthesis
tf
GitHub 中提及
soskek/bookcorpus
GitHub 中提及
dashayushman/TAC-GAN
tf
GitHub 中提及
SathesanThavabalasingam/skipthoughts
GitHub 中提及
chalothon/Skip-Thought
GitHub 中提及
soskek/homemade_bookcorpus
GitHub 中提及
dwright37/phylogenetic-autoencoder
tf
GitHub 中提及
thomasyue/tf2-skip-thoughts
tf
GitHub 中提及
whitneysattler/Skip-Thoughts
GitHub 中提及
luweizhang/joint_embeddings
pytorch
GitHub 中提及
facebookresearch/SentEval
pytorch
GitHub 中提及
arukavina/baking-lyrics
tf
GitHub 中提及
ryankiros/skip-thoughts
GitHub 中提及
bunny98/Text-to-Image-Using-GAN
tf
GitHub 中提及
YinpeiDai/NAUM
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-similarity-on-sick | combine-skip (Kiros et al., 2015) | MSE: 0.2687 Pearson Correlation: 0.8584 Spearman Correlation: 0.7916 |