
摘要
迁移学习是一种强大的自然语言处理(NLP)技术,其中模型首先在一个数据丰富的任务上进行预训练,然后再针对下游任务进行微调。迁移学习的有效性催生了多种方法、技术和实践。本文通过引入一个统一框架,将所有基于文本的语言问题转化为文本到文本的格式,探讨了NLP中的迁移学习技术。我们的系统研究比较了数十个语言理解任务上的预训练目标、架构、无标签数据集、迁移方法以及其他因素。通过结合我们在探索过程中获得的见解以及我们新的“巨量干净爬取语料库”(Colossal Clean Crawled Corpus),我们在涵盖摘要生成、问答、文本分类等多个基准测试中取得了最先进的结果。为了促进未来在NLP迁移学习领域的研究,我们发布了我们的数据集、预训练模型和代码。
代码仓库
google-research/t5x_retrieval
jax
GitHub 中提及
um-arm-lab/efficient-eng-2-ltl
pytorch
GitHub 中提及
s-nlp/russe_detox_2022
pytorch
GitHub 中提及
conceptofmind/lamda-rlhf-pytorch
pytorch
GitHub 中提及
bayer-science-for-a-better-life/data2text-bioleaflets
pytorch
GitHub 中提及
amazon-science/chronos-forecasting
pytorch
GitHub 中提及
conceptofmind/LaMDA-pytorch
pytorch
GitHub 中提及
allenai/dolma
GitHub 中提及
jongwooko/nash-pruning-official
pytorch
GitHub 中提及
gulucaptain/dynamictrl
pytorch
GitHub 中提及
shivamraval98/multitask-t5_ae
pytorch
GitHub 中提及
JunnYu/x-transformers-paddle
jax
GitHub 中提及
vgaraujov/seq2seq-spanish-plms
pytorch
GitHub 中提及
qipengguo/p2_webnlg2020
pytorch
GitHub 中提及
bigscience-workshop/architecture-objective
jax
GitHub 中提及
volcengine/vegiantmodel
pytorch
GitHub 中提及
asahi417/lm-question-generation
GitHub 中提及
cccntu/ft5-demo-space
pytorch
GitHub 中提及
airc-keti/ke-t5
tf
GitHub 中提及
allenai/c4-documentation
GitHub 中提及
google-research/t5x
jax
GitHub 中提及
yizhongw/tk-instruct
pytorch
GitHub 中提及
Ki6an/fastT5
pytorch
GitHub 中提及
skoltech-nlp/russe_detox_2022
pytorch
GitHub 中提及
KAGUYAHONGLAI/SRC
tf
GitHub 中提及
ChernovAndrey/chronos-forecasting-wasserstein
pytorch
GitHub 中提及
facebookresearch/atlas
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
zhiqic/chartreader
pytorch
GitHub 中提及
dawn0815/UniSA
pytorch
GitHub 中提及
xuetianci/pacit
pytorch
GitHub 中提及
Sharif-SLPL/t5-fa
jax
GitHub 中提及
MS-P3/code5/tree/main/t5
mindspore
thu-keg/omnievent
pytorch
GitHub 中提及
lesterpjy/numeric-t5
GitHub 中提及
abelriboulot/onnxt5
pytorch
GitHub 中提及
ArvinZhuang/BiTAG
pytorch
GitHub 中提及
thudm/swissarmytransformer
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-164
mindspore
itzprashu1/prashant
tf
GitHub 中提及
junnyu/paddle_t5
paddle
GitHub 中提及
luomancs/retriever_reader_for_okvqa
pytorch
GitHub 中提及
Nimesh-Patel/text-to-text-transfer-transformer
tf
GitHub 中提及
souvikshanku/translit-former
pytorch
wangcongcong123/ttt
pytorch
GitHub 中提及
cccntu/ft5-demo
pytorch
GitHub 中提及
ibm/graph_ensemble_learning
pytorch
GitHub 中提及
google/seqio
tf
GitHub 中提及
asahi417/lmppl
GitHub 中提及