Skip to content

recurrent layer group 训练和生成时输出 attention weight,生成时输出每个词的概率 #1797

@lcy-seso

Description

@lcy-seso

目前应用中对layer_group有以下功能要求,需要支持:

  1. 生成阶段留下每个时间步的概率(目前只留下了整个生成序列概率的log prob 之和)。
  2. 生成阶段 attention weight 每个时间步是一个序列,目前RecurrentLayerGroup只能输出非 sequence 层,作为整个lRecurrentLayerGroup的输出。

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions