Bumping up transformers version to 3.3.1 (#579)

lalitpagaria · bogdankostic · web-flow · commit 0844df5e753d · 2020-10-19T22:46:10.000+02:00
* [RAG] Bumping up transformers version to 3.3.x * Use Pytorch's native LayerNorm code, with default eps as 1e-12. Refer huggingface/transformers#1089 Signed-off-by: lalitpagaria <pagaria.lalit@gmail.com> * Using apex's FusedLayerNorm if available instead of Pytorch LayerNorm * Remove pooling layer before converting to transformers Co-authored-by: Bogdan Kostić <bogdankostic@web.de>
diff --git a/farm/conversion/transformers.py b/farm/conversion/transformers.py
@@ -182,6 +182,8 @@ def _convert_to_transformers_classification_regression(adaptive_model, predictio
     def _convert_to_transformers_qa(adaptive_model, prediction_head):
         # TODO add more infos to config
 
+        # remove pooling layer
+        adaptive_model.language_model.model.pooler = None
         # init model
         transformers_model = AutoModelForQuestionAnswering.from_config(adaptive_model.language_model.model.config)
         # transfer weights for language model + prediction head
@@ -193,6 +195,8 @@ def _convert_to_transformers_qa(adaptive_model, prediction_head):
 
     @staticmethod
     def _convert_to_transformers_lm(adaptive_model, prediction_head):
+        # remove pooling layer
+        adaptive_model.language_model.model.pooler = None
         # init model
         transformers_model = AutoModelWithLMHead.from_config(adaptive_model.language_model.model.config)
         # transfer weights for language model + prediction head
@@ -211,6 +215,8 @@ def _convert_to_transformers_lm(adaptive_model, prediction_head):
 
     @staticmethod
     def _convert_to_transformers_ner(adaptive_model, prediction_head):
+        # remove pooling layer
+        adaptive_model.language_model.model.pooler = None
         # add more info to config
         adaptive_model.language_model.model.config.num_labels = prediction_head.num_labels
         adaptive_model.language_model.model.config.id2label = {id: label for id, label in
diff --git a/farm/modeling/prediction_head.py b/farm/modeling/prediction_head.py
@@ -4,7 +4,7 @@
 import numpy as np
 
 from pathlib import Path
-from transformers.modeling_bert import BertForPreTraining, BertLayerNorm, ACT2FN
+from transformers.modeling_bert import BertForPreTraining, ACT2FN
 from transformers.modeling_auto import AutoModelForQuestionAnswering, AutoModelForTokenClassification, AutoModelForSequenceClassification
 from typing import List
 
@@ -18,6 +18,12 @@
 
 logger = logging.getLogger(__name__)
 
+try:
+    from apex.normalization.fused_layer_norm import FusedLayerNorm as BertLayerNorm
+except (ImportError, AttributeError) as e:
+    logger.info("Better speed can be achieved with apex installed from https://www.github.com/nvidia/apex .")
+    BertLayerNorm = torch.nn.LayerNorm
+
 
 class PredictionHead(nn.Module):
     """ Takes word embeddings from a language model and generates logits for a given task. Can also convert logits
diff --git a/requirements.txt b/requirements.txt
@@ -17,7 +17,7 @@ sklearn
 seqeval
 mlflow==1.0.0
 # huggingface repository
-transformers==3.1.0
+transformers==3.3.1
 # accessing dictionary elements with dot notation
 dotmap==1.3.0
 # for inference-rest-apis