why set "seq_length = min(args.generate_num, 256)"

I notice you have three pretrained models, include seqlen256_v1.ckpt and seqlen512_v1.ckpt. And you say "Only difference is the sequence length used during training. The 512 model uses double the number of tokens as the 256 one for computing the attention but half the batch size (to prevent OOM)." so why in generate.py you set seq_length = min(args.generate_num, 256)?  
  If I used seqlen512_v1.ckpt model, should I set seq_length = min(args.generate_num, 512)?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

why set "seq_length = min(args.generate_num, 256)" #68

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

why set "seq_length = min(args.generate_num, 256)" #68

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions