fix fillna (openproblems-bio#53)

Paulos2411 · May 30, 2024 · 7404b19 · 7404b19
1 parent 22fc360
commit 7404b19
Show file tree

Hide file tree

Showing 2 changed files with 4 additions and 4 deletions.
diff --git a/src/task/methods/lgc_ensemble_helpers/prepare_data.py b/src/task/methods/lgc_ensemble_helpers/prepare_data.py
@@ -19,7 +19,7 @@ def prepare_data(par, paths):
     mean_sm_name = de_sm_name.groupby('sm_name').mean().reset_index()
     std_cell_type = de_cell_type.groupby('cell_type').std().reset_index()
     std_sm_name = de_sm_name.groupby('sm_name').std().reset_index()
-    std_sm_name_filled = std_sm_name.fillna(0)
+    std_sm_name = std_sm_name.fillna(0)
     cell_types = de_cell_type.groupby('cell_type').quantile(0.1).reset_index()['cell_type'] # This is just to get cell types in the right order for the next line
     quantiles_cell_type = pd.concat([pd.DataFrame(cell_types)]+[de_cell_type.groupby('cell_type')[col]\
     .quantile([0.25, 0.50, 0.75], interpolation='linear').unstack().reset_index(drop=True) for col in list(de_train.columns)[5:]], axis=1)
@@ -31,7 +31,7 @@ def prepare_data(par, paths):
     mean_cell_type.to_csv(f'{paths["train_data_aug_dir"]}/mean_cell_type.csv', index=False)
     std_cell_type.to_csv(f'{paths["train_data_aug_dir"]}/std_cell_type.csv', index=False)
     mean_sm_name.to_csv(f'{paths["train_data_aug_dir"]}/mean_sm_name.csv', index=False)
-    std_sm_name_filled.to_csv(f'{paths["train_data_aug_dir"]}/std_sm_name.csv', index=False)
+    std_sm_name.to_csv(f'{paths["train_data_aug_dir"]}/std_sm_name.csv', index=False)
     quantiles_cell_type.to_csv(f'{paths["train_data_aug_dir"]}/quantiles_cell_type.csv', index=False)
     ## Create one hot encoding features
     one_hot_encode(de_train[["cell_type", "sm_name"]], id_map[["cell_type", "sm_name"]], out_dir=paths["train_data_aug_dir"])

diff --git a/src/task/methods/lgc_ensemble_prepare/script.py b/src/task/methods/lgc_ensemble_prepare/script.py
@@ -60,7 +60,7 @@
 mean_sm_name = de_sm_name.groupby('sm_name').mean().reset_index()
 std_cell_type = de_cell_type.groupby('cell_type').std().reset_index()
 std_sm_name = de_sm_name.groupby('sm_name').std().reset_index()
-std_sm_name_filled = std_sm_name.fillna(0)
+std_sm_name = std_sm_name.fillna(0)
 cell_types = de_cell_type.groupby('cell_type').quantile(0.1).reset_index()['cell_type'] # This is just to get cell types in the right order for the next line
 quantiles_cell_type = pd.concat(
     [pd.DataFrame(cell_types)] +
@@ -75,7 +75,7 @@
 mean_cell_type.to_csv(f'{par["train_data_aug_dir"]}/mean_cell_type.csv', index=False)
 std_cell_type.to_csv(f'{par["train_data_aug_dir"]}/std_cell_type.csv', index=False)
 mean_sm_name.to_csv(f'{par["train_data_aug_dir"]}/mean_sm_name.csv', index=False)
-std_sm_name_filled.to_csv(f'{par["train_data_aug_dir"]}/std_sm_name.csv', index=False)
+std_sm_name.to_csv(f'{par["train_data_aug_dir"]}/std_sm_name.csv', index=False)
 quantiles_cell_type.to_csv(f'{par["train_data_aug_dir"]}/quantiles_cell_type.csv', index=False)
 with open(f'{par["train_data_aug_dir"]}/gene_names.json', 'w') as f:
     json.dump(gene_names, f)