Skip to content

Latest commit

 

History

History
28 lines (26 loc) · 1.34 KB

note_7.md

File metadata and controls

28 lines (26 loc) · 1.34 KB

模型训练

目标函数

decoder-only:

  • eg:GPT3
  • 单向上下文嵌入,一次生成一个token
  • token->嵌入->打分->预测分布image
  • 目标:最大似然分布概率image
  • 将分类转换成生成

encoder-only:

  • eg:BERT,双向:不生成
  • CLS,SEP分割输入image
  • image
  • 掩码语言模型:去噪自动编码器, 随机加mask or 原词,重建(通过嵌入CLS来分类)
  • 下一句预测:预测随机生成or原始句子是否为下一句(RoBERTa删去,它没用)
  • image

encoder-decoder:

  • 表格生成文本:双向编码,再自回归解码
  • BART:掩码+打乱子句(不懂)
  • T5:text2text transfer tansformer预训练任务: 给定一段文本,在随机位置将其分割为输入和输出, 整理了pipeline

优化算法

  1. SGD
  2. Adam
  3. AdaFactor
  4. 混合竞速
  5. warmhot学习率