目前应用中对`layer_group`有以下功能要求,需要支持: 1. 生成阶段留下每个时间步的概率(目前只留下了整个生成序列概率的log prob 之和)。 2. 生成阶段 attention weight 每个时间步是一个序列,目前`RecurrentLayerGroup`只能输出非 sequence 层,作为整个l`RecurrentLayerGroup`的输出。