r-spark
diff --git a/‎NAMESPACE
Lines changed: 3 additions & 12 deletions b/‎NAMESPACE
Lines changed: 3 additions & 12 deletions
diff --git a/‎R/longformer-embeddings.R
Lines changed: 20 additions & 72 deletions b/‎R/longformer-embeddings.R
Lines changed: 20 additions & 72 deletions
diff --git a/‎R/roberta-embeddings.R
Lines changed: 0 additions & 96 deletions b/‎R/roberta-embeddings.R
Lines changed: 0 additions & 96 deletions
diff --git a/‎R/xlm-roberta-embeddings.R
Lines changed: 20 additions & 68 deletions b/‎R/xlm-roberta-embeddings.R
Lines changed: 20 additions & 68 deletions
@@ -91,9 +91,6 @@ S3method(nlp_lemmatizer,spark_connection)
 S3method(nlp_lemmatizer,tbl_spark)
 S3method(nlp_light_pipeline,ml_pipeline_model)
 S3method(nlp_light_pipeline,nlp_pretrained_pipeline)
-S3method(nlp_longformer_embeddings,ml_pipeline)
-S3method(nlp_longformer_embeddings,spark_connection)
-S3method(nlp_longformer_embeddings,tbl_spark)
 S3method(nlp_marian_transformer,ml_pipeline)
 S3method(nlp_marian_transformer,spark_connection)
 S3method(nlp_marian_transformer,tbl_spark)
@@ -152,9 +149,6 @@ S3method(nlp_relation_extraction,tbl_spark)
 S3method(nlp_relation_extraction_dl,ml_pipeline)
 S3method(nlp_relation_extraction_dl,spark_connection)
 S3method(nlp_relation_extraction_dl,tbl_spark)
-S3method(nlp_roberta_embeddings,ml_pipeline)
-S3method(nlp_roberta_embeddings,spark_connection)
-S3method(nlp_roberta_embeddings,tbl_spark)
 S3method(nlp_sentence_detector,ml_pipeline)
 S3method(nlp_sentence_detector,spark_connection)
 S3method(nlp_sentence_detector,tbl_spark)
@@ -206,9 +200,6 @@ S3method(nlp_vivekn_sentiment_detector,tbl_spark)
 S3method(nlp_word_embeddings,ml_pipeline)
 S3method(nlp_word_embeddings,spark_connection)
 S3method(nlp_word_embeddings,tbl_spark)
-S3method(nlp_xlm_roberta_embeddings,ml_pipeline)
-S3method(nlp_xlm_roberta_embeddings,spark_connection)
-S3method(nlp_xlm_roberta_embeddings,tbl_spark)
 S3method(nlp_yake_model,ml_pipeline)
 S3method(nlp_yake_model,spark_connection)
 S3method(nlp_yake_model,tbl_spark)
@@ -266,7 +257,7 @@ export(nlp_language_detector_dl_pretrained)
 export(nlp_lemmatizer)
 export(nlp_lemmatizer_pretrained)
 export(nlp_light_pipeline)
-export(nlp_longformer_embeddings)
+export(nlp_longformer_embeddings_pretrained)
 export(nlp_marian_transformer)
 export(nlp_marian_transformer_pretrained)
 export(nlp_medical_ner)
@@ -298,7 +289,7 @@ export(nlp_relation_extraction)
 export(nlp_relation_extraction_dl)
 export(nlp_relation_extraction_dl_pretrained)
 export(nlp_relation_extraction_pretrained)
-export(nlp_roberta_embeddings)
+export(nlp_roberta_embeddings_pretrained)
 export(nlp_sentence_detector)
 export(nlp_sentence_detector_dl)
 export(nlp_sentence_detector_dl_pretrained)
@@ -331,7 +322,7 @@ export(nlp_vivekn_sentiment_pretrained)
 export(nlp_word_embeddings)
 export(nlp_word_embeddings_model)
 export(nlp_word_embeddings_pretrained)
-export(nlp_xlm_roberta_embeddings)
+export(nlp_xlm_roberta_embeddings_pretrained)
 export(nlp_xlnet_embeddings_pretrained)
 export(nlp_yake_model)
 export(set_nlp_version)
 
@@ -15,85 +15,35 @@
 #' @param storage_ref Unique identifier for storage (Default: this.uid)
 #' 
 #' @export
-nlp_longformer_embeddings <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, 
-                 max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("longformer_embeddings_")) {
-  UseMethod("nlp_longformer_embeddings")
-}
-
-#' @export
-nlp_longformer_embeddings.spark_connection <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, 
-                 max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("longformer_embeddings_")) {
+nlp_longformer_embeddings_pretrained <- function(sc, input_cols, output_col,
+                                                 batch_size = NULL, case_sensitive = NULL, dimension = NULL,  
+                                                 max_sentence_length = NULL, storage_ref = NULL,
+                                                 name = NULL, lang = NULL, remote_loc = NULL) {
   args <- list(
     input_cols = input_cols,
     output_col = output_col,
     batch_size = batch_size,
     case_sensitive = case_sensitive,
     dimension = dimension,
     max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
+    storage_ref = storage_ref
   ) %>%
-  validator_nlp_longformer_embeddings()
-
-  jobj <- sparklyr::spark_pipeline_stage(
-    x, "com.johnsnowlabs.nlp.embeddings.LongformerEmbeddings",
-    input_cols = args[["input_cols"]],
-    output_col = args[["output_col"]],
-    uid = args[["uid"]]
-  ) %>%
-    sparklyr::jobj_set_param("setBatchSize", args[["batch_size"]])  %>%
-    sparklyr::jobj_set_param("setCaseSensitive", args[["case_sensitive"]])  %>%
-    sparklyr::jobj_set_param("setDimension", args[["dimension"]])  %>%
-    sparklyr::jobj_set_param("setMaxSentenceLength", args[["max_sentence_length"]])  %>%
-    sparklyr::jobj_set_param("setStorageRef", args[["storage_ref"]]) 
-
-  new_nlp_longformer_embeddings(jobj)
-}
-
-#' @export
-nlp_longformer_embeddings.ml_pipeline <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, 
-                 max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("longformer_embeddings_")) {
-
-  stage <- nlp_longformer_embeddings.spark_connection(
-    x = sparklyr::spark_connection(x),
-    input_cols = input_cols,
-    output_col = output_col,
-    batch_size = batch_size,
-    case_sensitive = case_sensitive,
-    dimension = dimension,
-    max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
-  )
-
-  sparklyr::ml_add_stage(x, stage)
+    validator_nlp_longformer_embeddings()
+  
+  model_class <- "com.johnsnowlabs.nlp.embeddings.LongformerEmbeddings"
+  model <- pretrained_model(sc, model_class, name, lang, remote_loc)
+  spark_jobj(model) %>%
+    sparklyr::jobj_set_param("setInputCols", args[["input_cols"]]) %>% 
+    sparklyr::jobj_set_param("setOutputCol", args[["output_col"]]) %>% 
+    sparklyr::jobj_set_param("setCaseSensitive", args[["case_sensitive"]]) %>% 
+    sparklyr::jobj_set_param("setBatchSize", args[["batch_size"]]) %>% 
+    sparklyr::jobj_set_param("setDimension", args[["dimension"]]) %>% 
+    sparklyr::jobj_set_param("setMaxSentenceLength", args[["max_sentence_length"]]) %>% 
+    sparklyr::jobj_set_param("setStorageRef", args[["storage_ref"]])
+  
+  new_ml_transformer(model)
 }
 
-#' @export
-nlp_longformer_embeddings.tbl_spark <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, 
-                 max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("longformer_embeddings_")) {
-  stage <- nlp_longformer_embeddings.spark_connection(
-    x = sparklyr::spark_connection(x),
-    input_cols = input_cols,
-    output_col = output_col,
-    batch_size = batch_size,
-    case_sensitive = case_sensitive,
-    dimension = dimension,
-    max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
-  )
-
-  stage %>% sparklyr::ml_transform(x)
-}
 #' @import forge
 validator_nlp_longformer_embeddings <- function(args) {
   args[["input_cols"]] <- cast_string_list(args[["input_cols"]])
@@ -106,9 +56,7 @@ validator_nlp_longformer_embeddings <- function(args) {
   args
 }
 
-nlp_float_params.nlp_longformer_embeddings <- function(x) {
-  return(c())
-}
 new_nlp_longformer_embeddings <- function(jobj) {
   sparklyr::new_ml_transformer(jobj, class = "nlp_longformer_embeddings")
 }
+
@@ -56,99 +56,3 @@ validator_nlp_roberta_embeddings <- function(args) {
 new_nlp_roberta_embeddings <- function(jobj) {
   sparklyr::new_ml_transformer(jobj, class = "nlp_roberta_embeddings")
 }
-#' 
-#' 
-#' 
-#' nlp_roberta_embeddings <- function(x, input_cols, output_col,
-#'                  batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-#'                  uid = random_string("roberta_embeddings_")) {
-#'   UseMethod("nlp_roberta_embeddings")
-#' }
-#' 
-#' #' @export
-#' nlp_roberta_embeddings.spark_connection <- function(x, input_cols, output_col,
-#'                  batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-#'                  uid = random_string("roberta_embeddings_")) {
-#'   args <- list(
-#'     input_cols = input_cols,
-#'     output_col = output_col,
-#'     batch_size = batch_size,
-#'     case_sensitive = case_sensitive,
-#'     dimension = dimension,
-#'     max_sentence_length = max_sentence_length,
-#'     storage_ref = storage_ref,
-#'     uid = uid
-#'   ) %>%
-#'   validator_nlp_roberta_embeddings()
-#' 
-#'   jobj <- sparklyr::spark_pipeline_stage(
-#'     x, "com.johnsnowlabs.nlp.embeddings.RoBertaEmbeddings",
-#'     input_cols = args[["input_cols"]],
-#'     output_col = args[["output_col"]],
-#'     uid = args[["uid"]]
-#'   ) %>%
-#'     sparklyr::jobj_set_param("setBatchSize", args[["batch_size"]])  %>%
-#'     sparklyr::jobj_set_param("setCaseSensitive", args[["case_sensitive"]])  %>%
-#'     sparklyr::jobj_set_param("setDimension", args[["dimension"]])  %>%
-#'     sparklyr::jobj_set_param("setMaxSentenceLength", args[["max_sentence_length"]])  %>%
-#'     sparklyr::jobj_set_param("setStorageRef", args[["storage_ref"]])
-#' 
-#'   new_nlp_roberta_embeddings(jobj)
-#' }
-#' 
-#' #' @export
-#' nlp_roberta_embeddings.ml_pipeline <- function(x, input_cols, output_col,
-#'                  batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-#'                  uid = random_string("roberta_embeddings_")) {
-#' 
-#'   stage <- nlp_roberta_embeddings.spark_connection(
-#'     x = sparklyr::spark_connection(x),
-#'     input_cols = input_cols,
-#'     output_col = output_col,
-#'     batch_size = batch_size,
-#'     case_sensitive = case_sensitive,
-#'     dimension = dimension,
-#'     max_sentence_length = max_sentence_length,
-#'     storage_ref = storage_ref,
-#'     uid = uid
-#'   )
-#' 
-#'   sparklyr::ml_add_stage(x, stage)
-#' }
-#' 
-#' #' @export
-#' nlp_roberta_embeddings.tbl_spark <- function(x, input_cols, output_col,
-#'                  batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL, 
-#'                  uid = random_string("roberta_embeddings_")) {
-#'   stage <- nlp_roberta_embeddings.spark_connection(
-#'     x = sparklyr::spark_connection(x),
-#'     input_cols = input_cols,
-#'     output_col = output_col,
-#'     batch_size = batch_size,
-#'     case_sensitive = case_sensitive,
-#'     dimension = dimension,
-#'     max_sentence_length = max_sentence_length,
-#'     storage_ref = storage_ref,
-#'      uid = uid
-#'   )
-#' 
-#'   stage %>% sparklyr::ml_transform(x)
-#' }
-#' #' @import forge
-#' validator_nlp_roberta_embeddings <- function(args) {
-#'   args[["input_cols"]] <- cast_string_list(args[["input_cols"]])
-#'   args[["output_col"]] <- cast_string(args[["output_col"]])
-#'   args[["batch_size"]] <- cast_nullable_integer(args[["batch_size"]])
-#'   args[["case_sensitive"]] <- cast_nullable_logical(args[["case_sensitive"]])
-#'   args[["dimension"]] <- cast_nullable_integer(args[["dimension"]])
-#'   args[["max_sentence_length"]] <- cast_nullable_integer(args[["max_sentence_length"]])
-#'   args[["storage_ref"]] <- cast_nullable_string(args[["storage_ref"]])
-#'   args
-#' }
-#' 
-#' nlp_float_params.nlp_roberta_embeddings <- function(x) {
-#'   return(c())
-#' }
-#' new_nlp_roberta_embeddings <- function(jobj) {
-#'   sparklyr::new_ml_transformer(jobj, class = "nlp_roberta_embeddings")
-#' }
@@ -12,81 +12,35 @@
 #' @param storage_ref Unique identifier for storage (Default: this.uid)
 #' 
 #' @export
-nlp_xlm_roberta_embeddings <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("xlm_roberta_embeddings_")) {
-  UseMethod("nlp_xlm_roberta_embeddings")
-}
-
-#' @export
-nlp_xlm_roberta_embeddings.spark_connection <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("xlm_roberta_embeddings_")) {
+nlp_xlm_roberta_embeddings_pretrained <- function(sc, input_cols, output_col,
+                                                 batch_size = NULL, case_sensitive = NULL, dimension = NULL,  
+                                                 max_sentence_length = NULL, storage_ref = NULL,
+                                                 name = NULL, lang = NULL, remote_loc = NULL) {
   args <- list(
     input_cols = input_cols,
     output_col = output_col,
     batch_size = batch_size,
     case_sensitive = case_sensitive,
     dimension = dimension,
     max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
+    storage_ref = storage_ref
   ) %>%
-  validator_nlp_xlm_roberta_embeddings()
-
-  jobj <- sparklyr::spark_pipeline_stage(
-    x, "com.johnsnowlabs.nlp.embeddings.XlmRoBertaEmbeddings",
-    input_cols = args[["input_cols"]],
-    output_col = args[["output_col"]],
-    uid = args[["uid"]]
-  ) %>%
-    sparklyr::jobj_set_param("setBatchSize", args[["batch_size"]])  %>%
-    sparklyr::jobj_set_param("setCaseSensitive", args[["case_sensitive"]])  %>%
-    sparklyr::jobj_set_param("setDimension", args[["dimension"]])  %>%
-    sparklyr::jobj_set_param("setMaxSentenceLength", args[["max_sentence_length"]])  %>%
-    sparklyr::jobj_set_param("setStorageRef", args[["storage_ref"]]) 
-
-  new_nlp_xlm_roberta_embeddings(jobj)
-}
-
-#' @export
-nlp_xlm_roberta_embeddings.ml_pipeline <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("xlm_roberta_embeddings_")) {
-
-  stage <- nlp_xlm_roberta_embeddings.spark_connection(
-    x = sparklyr::spark_connection(x),
-    input_cols = input_cols,
-    output_col = output_col,
-    batch_size = batch_size,
-    case_sensitive = case_sensitive,
-    dimension = dimension,
-    max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
-  )
-
-  sparklyr::ml_add_stage(x, stage)
+    validator_nlp_xlm_roberta_embeddings()
+  
+  model_class <- "com.johnsnowlabs.nlp.embeddings.XlmRoBertaEmbeddings"
+  model <- pretrained_model(sc, model_class, name, lang, remote_loc)
+  spark_jobj(model) %>%
+    sparklyr::jobj_set_param("setInputCols", args[["input_cols"]]) %>% 
+    sparklyr::jobj_set_param("setOutputCol", args[["output_col"]]) %>% 
+    sparklyr::jobj_set_param("setCaseSensitive", args[["case_sensitive"]]) %>% 
+    sparklyr::jobj_set_param("setBatchSize", args[["batch_size"]]) %>% 
+    sparklyr::jobj_set_param("setDimension", args[["dimension"]]) %>% 
+    sparklyr::jobj_set_param("setMaxSentenceLength", args[["max_sentence_length"]]) %>% 
+    sparklyr::jobj_set_param("setStorageRef", args[["storage_ref"]])
+  
+  new_ml_transformer(model)
 }
 
-#' @export
-nlp_xlm_roberta_embeddings.tbl_spark <- function(x, input_cols, output_col,
-                 batch_size = NULL, case_sensitive = NULL, dimension = NULL, max_sentence_length = NULL, storage_ref = NULL,
-                 uid = random_string("xlm_roberta_embeddings_")) {
-  stage <- nlp_xlm_roberta_embeddings.spark_connection(
-    x = sparklyr::spark_connection(x),
-    input_cols = input_cols,
-    output_col = output_col,
-    batch_size = batch_size,
-    case_sensitive = case_sensitive,
-    dimension = dimension,
-    max_sentence_length = max_sentence_length,
-    storage_ref = storage_ref,
-    uid = uid
-  )
-
-  stage %>% sparklyr::ml_transform(x)
-}
 #' @import forge
 validator_nlp_xlm_roberta_embeddings <- function(args) {
   args[["input_cols"]] <- cast_string_list(args[["input_cols"]])
@@ -99,9 +53,7 @@ validator_nlp_xlm_roberta_embeddings <- function(args) {
   args
 }
 
-nlp_float_params.nlp_xlm_roberta_embeddings <- function(x) {
-  return(c())
-}
 new_nlp_xlm_roberta_embeddings <- function(jobj) {
   sparklyr::new_ml_transformer(jobj, class = "nlp_xlm_roberta_embeddings")
 }
+