Small runner refactoring

IntelPython · Alexsandruss · Apr 26, 2021 · Mar 22, 2021 · Mar 22, 2021 · Mar 22, 2021
commit 35b55b8a99c5c0b669d36573b6e4b02fcbf4de5a
diff --git a/datasets/load_datasets.py b/datasets/load_datasets.py
@@ -37,7 +37,7 @@
 
 
 def try_load_dataset(dataset_name, output_directory):
-    if dataset_name in dataset_loaders.keys():
+    if dataset_name in dataset_loaders:
         try:
             return dataset_loaders[dataset_name](output_directory)
         except BaseException:
@@ -60,7 +60,7 @@ def try_load_dataset(dataset_name, output_directory):
     args = parser.parse_args()
 
     if args.list:
-        for key in dataset_loaders.keys():
+        for key in dataset_loaders:
             print(key)
         sys.exit(0)
 

diff --git a/runner.py b/runner.py
@@ -18,13 +18,11 @@
 import json
 import logging
 import os
-import pathlib
 import socket
 import sys
 
 import datasets.make_datasets as make_datasets
 import utils
-from datasets.load_datasets import try_load_dataset
 
 
 def generate_cases(params):
@@ -54,7 +52,7 @@ def generate_cases(params):
                         default='configs/config_example.json',
                         help='Path to configuration files')
     parser.add_argument('--dummy-run', default=False, action='store_true',
-                        help='Run configuration parser and datasets generation'
+                        help='Run configuration parser and datasets generation '
                              'without benchmarks running')
     parser.add_argument('--no-intel-optimized', default=False, action='store_true',
                         help='Use no intel optimized version. '
@@ -69,7 +67,6 @@ def generate_cases(params):
                         help='Create an Excel report based on benchmarks results. '
                              'Need "openpyxl" library')
     args = parser.parse_args()
-    env = os.environ.copy()
 
     logging.basicConfig(
         stream=sys.stdout, format='%(levelname)s: %(message)s', level=args.verbose)
@@ -90,8 +87,6 @@ def generate_cases(params):
         with open(config_name, 'r') as config_file:
             config = json.load(config_file)
 
-        if 'omp_env' not in config.keys():
-            config['omp_env'] = []
         # get parameters that are common for all cases
         common_params = config['common']
         for params_set in config['cases']:
@@ -107,34 +102,21 @@ def generate_cases(params):
 
             for dataset in params_set['dataset']:
                 if dataset['source'] in ['csv', 'npy']:
-                    train_data = dataset["training"]
-                    file_train_data_x = train_data["x"]
-                    paths = f'--file-X-train {file_train_data_x}'
-                    if 'y' in dataset['training'].keys():
-                        file_train_data_y = train_data["y"]
-                        paths += f' --file-y-train {file_train_data_y}'
-                    if 'testing' in dataset.keys():
-                        test_data = dataset["testing"]
-                        file_test_data_x = test_data["x"]
-                        paths += f' --file-X-test {file_test_data_x}'
-                        if 'y' in dataset['testing'].keys():
-                            file_test_data_y = test_data["y"]
-                            paths += f' --file-y-test {file_test_data_y}'
-                    if 'name' in dataset.keys():
-                        dataset_name = dataset['name']
-                    else:
-                        dataset_name = 'unknown'
-
-                    if not utils.is_exists_files([file_train_data_x]):
-                        directory_dataset = pathlib.Path(file_train_data_x).parent
-                        if not try_load_dataset(dataset_name=dataset_name,
-                                                output_directory=directory_dataset):
-                            logging.warning(f'Dataset {dataset_name} '
-                                            'could not be loaded. \n'
-                                            'Check the correct name or expand '
-                                            'the download in the folder dataset.')
-                            continue
-
+                    dataset_name = dataset['name'] if 'name' in dataset else 'unknown'
+                    if 'training' not in dataset or not utils.find_the_dataset(
+                            dataset_name, dataset['training']["x"]):
+                        logging.warning(
+                            f'Dataset {dataset_name} could not be loaded. \n'
+                            'Check the correct name or expand the download in '
+                            'the folder dataset.')
+                        continue
+                    paths = '--file-X-train ' + dataset['training']["x"]
+                    if 'y' in dataset['training']:
+                        paths += ' --file-y-train ' + dataset['training']["y"]
+                    if 'testing' in dataset:
+                        paths += ' --file-X-test ' + dataset["testing"]["x"]
+                        if 'y' in dataset['testing']:
+                            paths += ' --file-y-test ' + dataset["testing"]["y"]
                 elif dataset['source'] == 'synthetic':
                     class GenerationArgs:
                         classes: int
@@ -151,7 +133,7 @@ class GenerationArgs:
                     gen_args = GenerationArgs()
                     paths = ''
 
-                    if 'seed' in params_set.keys():
+                    if 'seed' in params_set:
                         gen_args.seed = params_set['seed']
                     else:
                         gen_args.seed = 777
@@ -161,10 +143,10 @@ class GenerationArgs:
                     gen_args.type = dataset['type']
                     gen_args.samples = dataset['training']['n_samples']
                     gen_args.features = dataset['n_features']
-                    if 'n_classes' in dataset.keys():
+                    if 'n_classes' in dataset:
                         gen_args.classes = dataset['n_classes']
                         cls_num_for_file = f'-{dataset["n_classes"]}'
-                    elif 'n_clusters' in dataset.keys():
+                    elif 'n_clusters' in dataset:
                         gen_args.clusters = dataset['n_clusters']
                         cls_num_for_file = f'-{dataset["n_clusters"]}'
                     else:
@@ -179,7 +161,7 @@ class GenerationArgs:
                         gen_args.filey = f'{file_prefix}y-train{file_postfix}'
                         paths += f' --file-y-train {gen_args.filey}'
 
-                    if 'testing' in dataset.keys():
+                    if 'testing' in dataset:
                         gen_args.test_samples = dataset['testing']['n_samples']
                         gen_args.filextest = f'{file_prefix}X-test{file_postfix}'
                         paths += f' --file-X-test {gen_args.filextest}'
@@ -204,21 +186,21 @@ class GenerationArgs:
                     logging.warning('Unknown dataset source. Only synthetics datasets '
                                     'and csv/npy files are supported now')
 
-                omp_env = utils.get_omp_env()
                 no_intel_optimize = \
                     '--no-intel-optimized ' if args.no_intel_optimized else ''
                 for lib in libs:
                     env = os.environ.copy()
-                    if lib == 'xgboost':
+                    if lib == 'xgboost' and 'omp_env' in config:
+                        omp_env = utils.get_omp_env()
                         for var in config['omp_env']:
-                            env[var] = omp_env[var]
+                            if var in omp_env:
+                                env[var] = omp_env[var]
                     for i, case in enumerate(cases):
                         command = f'python {lib}_bench/{algorithm}.py ' \
                             + no_intel_optimize \
                             + f'--arch {hostname} {case} {paths} ' \
                             + f'--dataset-name {dataset_name}'
-                        while '  ' in command:
-                            command = command.replace('  ', ' ')
+                        command = ' '.join(command.split())
                         logging.info(command)
                         if not args.dummy_run:
                             case = f'{lib},{algorithm} ' + case

diff --git a/utils.py b/utils.py
@@ -18,19 +18,20 @@
 import logging
 import multiprocessing
 import os
+import pathlib
 import platform
 import subprocess
 import sys
 
+from datasets.load_datasets import try_load_dataset
+
 
 def filter_stderr(text):
     # delete 'Intel(R) DAAL usage in sklearn' messages
     fake_error_message = 'Intel(R) oneAPI Data Analytics Library solvers ' + \
                          'for sklearn enabled: ' + \
                          'https://intelpython.github.io/daal4py/sklearn.html'
-    while fake_error_message in text:
-        text = text.replace(fake_error_message, '')
-    return text
+    return ''.join(text.split(fake_error_message))
 
 
 def filter_stdout(text):
@@ -51,9 +52,10 @@ def filter_stdout(text):
     return filtered, extra
 
 
-def is_exists_files(files):
-    for f in files:
-        if not os.path.isfile(f):
+def find_the_dataset(name: str, fullpath: str) -> bool:
+    if not os.path.isfile(fullpath):
+        if not try_load_dataset(dataset_name=name,
+                                output_directory=pathlib.Path(fullpath).parent):
             return False
     return True
 
@@ -89,11 +91,10 @@ def get_omp_env():
     cpu_count = multiprocessing.cpu_count()
     omp_num_threads = str(cpu_count // 2) if _is_ht_enabled() else str(cpu_count)
 
-    omp_env = {
+    return {
         'OMP_PLACES': f'{{0}}:{cpu_count}:1',
         'OMP_NUM_THREADS': omp_num_threads
     }
-    return omp_env
 
 
 def get_hw_parameters():

diff --git a/xgboost_bench/gbt.py b/xgboost_bench/gbt.py
@@ -34,8 +34,7 @@ def convert_xgb_predictions(y_pred, objective):
     return y_pred
 
 
-parser = argparse.ArgumentParser(description='xgboost gradient boosted trees '
-                                             'benchmark')
+parser = argparse.ArgumentParser(description='xgboost gradient boosted trees benchmark')
 
 parser.add_argument('--n-estimators', type=int, default=100,
                     help='Number of gradient boosted trees')