- eg:BERT,双向:不生成
- CLS,SEP分割输入
- 掩码语言模型:去噪自动编码器, 随机加mask or 原词,重建(通过嵌入CLS来分类)
- 下一句预测:预测随机生成or原始句子是否为下一句(RoBERTa删去,它没用)
- 表格生成文本:双向编码,再自回归解码
- BART:掩码+打乱子句(不懂)
- T5:text2text transfer tansformer预训练任务: 给定一段文本,在随机位置将其分割为输入和输出, 整理了pipeline
- SGD
- Adam
- AdaFactor
- 混合竞速
- warmhot学习率