模型架构 embedding:嵌入函数,将上下文表示为向量 分类 encoder: BERT:生成向量,做分类(自然语言理解)任务 依赖左右两侧 decoder: GPT:自回归语言模型 依赖左侧生成 encoder-decoder: Transformer 模块 基础架构 embed token:将标记转换成向量 sequence model:将enbedding映射为与上下文相关的 eg: 前馈序列Feed Forward Sequence Model:查看前n个元素 序列模型:递归神经网络(RNN、LSTM、GRU) 通过简单的线性变换和非线性函数根据新的观测值 x 更新隐藏状态 ℎ 双向 Tramsformer: 注意力机制:y与每个$x_i$对比生成对应的注意力分数,再进行加权 多注意力头是进行多次比较 自注意层SelfAttention:使用x替换y进行查询 前馈层FeedForward:连接不同标记 加入残差连接和归一化:AddNorm函数 Transformer Block: Position Embedding位置嵌入 GPT3: 96次引入位置嵌入的Transformer层 差异:归一化先后、dropout防过拟合、稀释、不同掩码