Split only 1 _ in case the dataset name has _ in it (generally language short names don't have _)

AngledLuffa · AngledLuffa · commit e10224cd3b93 · 2025-04-10T14:48:00.000-07:00
diff --git a/stanza/utils/datasets/prepare_depparse_treebank.py b/stanza/utils/datasets/prepare_depparse_treebank.py
@@ -88,7 +88,7 @@ def process_treebank(treebank, model_type, paths, args) -> None:
         prepare_tokenizer_treebank.copy_conllu_treebank(treebank, model_type, paths, paths["DEPPARSE_DATA_DIR"])
     elif args.tag_method is Tags.PREDICTED:
         short_name = treebank_to_short_name(treebank)
-        short_language, dataset = short_name.split("_")
+        short_language, dataset = short_name.split("_", 1)
 
         # fmt: off
         base_args = ["--wordvec_dir", paths["WORDVEC_DIR"],
diff --git a/stanza/utils/training/run_depparse.py b/stanza/utils/training/run_depparse.py
@@ -41,7 +41,7 @@ def build_model_filename(paths, short_name, command_args, extra_args):
 
 def run_treebank(mode, paths, treebank, short_name,
                  temp_output_file, command_args, extra_args):
-    short_language, dataset = short_name.split("_")
+    short_language, dataset = short_name.split("_", 1)
 
     # TODO: refactor these blocks?
     depparse_dir   = paths["DEPPARSE_DATA_DIR"]