huggingface · thomwolf · Mar 11, 2020 · Mar 6, 2020 · Mar 5, 2020 · Mar 6, 2020
diff --git a/examples/summarization/bart/evaluate_cnn.py b/examples/summarization/bart/evaluate_cnn.py
@@ -28,7 +28,7 @@ def generate_summaries(lns, out_file, batch_size=8, device=DEFAULT_DEVICE):
             num_beams=4,
             length_penalty=2.0,
             max_length=140,
-            min_len=55,
+            min_length=55,
             no_repeat_ngram_size=3,
         )
         dec = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summaries]

diff --git a/src/transformers/configuration_bart.py b/src/transformers/configuration_bart.py
@@ -40,8 +40,9 @@ def __init__(
         self,
         activation_dropout=0.0,
         vocab_size=50265,
+        bos_token_id=0,
         pad_token_id=1,
-        eos_token_id=2,
+        eos_token_ids=[2],
         d_model=1024,
         encoder_ffn_dim=4096,
         encoder_layers=12,
@@ -58,7 +59,7 @@ def __init__(
         classifier_dropout=0.0,
         output_past=False,
         num_labels=3,
-        bos_token_id=0,
+        is_encoder_decoder=True,
         **common_kwargs
     ):
         r"""
@@ -72,11 +73,12 @@ def __init__(
             output_past=output_past,
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,
+            eos_token_ids=eos_token_ids,
+            is_encoder_decoder=is_encoder_decoder,
             **common_kwargs,
         )
         self.vocab_size = vocab_size
         self.d_model = d_model  # encoder_embed_dim and decoder_embed_dim
-        self.eos_token_id = eos_token_id
         self.encoder_ffn_dim = encoder_ffn_dim
         self.encoder_layers = self.num_hidden_layers = encoder_layers
         self.encoder_attention_heads = encoder_attention_heads

diff --git a/src/transformers/configuration_t5.py b/src/transformers/configuration_t5.py
@@ -75,9 +75,12 @@ def __init__(
         dropout_rate=0.1,
         layer_norm_epsilon=1e-6,
         initializer_factor=1.0,
+        is_encoder_decoder=True,
         **kwargs
     ):
-        super().__init__(**kwargs)
+        super().__init__(
+            is_encoder_decoder=is_encoder_decoder, **kwargs,
+        )
         self.vocab_size = vocab_size
         self.n_positions = n_positions
         self.d_model = d_model

diff --git a/src/transformers/configuration_utils.py b/src/transformers/configuration_utils.py
@@ -65,10 +65,12 @@ def __init__(self, **kwargs):
         self.pruned_heads = kwargs.pop("pruned_heads", {})
 
         # Is decoder is used in encoder-decoder models to differentiate encoder from decoder
+        self.is_encoder_decoder = kwargs.pop("is_encoder_decoder", False)
         self.is_decoder = kwargs.pop("is_decoder", False)
 
         # Parameters for sequence generation
         self.max_length = kwargs.pop("max_length", 20)
+        self.min_length = kwargs.pop("min_length", 0)
         self.do_sample = kwargs.pop("do_sample", False)
         self.early_stopping = kwargs.pop("early_stopping", False)
         self.num_beams = kwargs.pop("num_beams", 1)
@@ -80,6 +82,7 @@ def __init__(self, **kwargs):
         self.pad_token_id = kwargs.pop("pad_token_id", None)
         self.eos_token_ids = kwargs.pop("eos_token_ids", None)
         self.length_penalty = kwargs.pop("length_penalty", 1.0)
+        self.no_repeat_ngram_size = kwargs.pop("no_repeat_ngram_size", 0)
         self.num_return_sequences = kwargs.pop("num_return_sequences", 1)
 
         # Fine-tuning task arguments

diff --git a/src/transformers/modeling_bart.py b/src/transformers/modeling_bart.py