mlcommons · arjunsuresh · Sep 23, 2024 · Sep 22, 2024 · Sep 23, 2024 · Sep 23, 2024
@@ -300,6 +300,16 @@ prehook_deps:
       CM_MLPERF_MODEL_SDXL_DOWNLOAD_TO_HOST:
       - 'yes'
 
+  # Install coco2014 dataset
+  - enable_if_env:
+      CM_REQUIRE_COCO2014_DOWNLOAD:
+      - 'yes'
+      CM_MLPERF_NVIDIA_HARNESS_RUN_MODE:
+      - preprocess_data
+    names:
+      - coco2014-dataset
+    tags: get,dataset,coco2014,_validation
+
 # Post dependencies to run this app including for power measurement
 post_deps:
 
@@ -993,7 +1003,6 @@ variations:
           CM_MODEL:
            - dlrm-v2-99
            - dlrm-v2-99.9
-           - stable-diffusion-xl
 
       - tags: reproduce,mlperf,inference,nvidia,harness,_download_model
         inherit_variation_tags: true

@@ -74,6 +74,9 @@ def preprocess(i):
         target_data_path = os.path.join(env['MLPERF_SCRATCH_PATH'], 'data', 'coco', 'SDXL')
         if not os.path.exists(target_data_path):
             cmds.append("make download_data BENCHMARKS='stable-diffusion-xl'")
+            env['CM_REQUIRE_COCO2014_DOWNLOAD'] = 'yes'
+            cmds.append(f"cp -r \${CM_DATASET_PATH_ROOT}/captions/captions.tsv {target_data_path}/captions_5k_final.tsv" )
+            cmds.append(f"cp -r \${CM_DATASET_PATH_ROOT}/latents/latents.pt {target_data_path}/latents.pt" )
         fp16_model_path = os.path.join(env['MLPERF_SCRATCH_PATH'], 'models', 'SDXL', 'official_pytorch', 'fp16', 'stable_diffusion_fp16')
 
         if not os.path.exists(os.path.dirname(fp16_model_path)):

@@ -1,5 +1,6 @@
 from cmind import utils
 import os
+import cmind as cm
 
 def preprocess(i):
 
@@ -13,6 +14,25 @@ def preprocess(i):
 
     quiet = (env.get('CM_QUIET', False) == 'yes')
 
+    clean_cmd = ''
+    cache_rm_tags = ''
+
+    if env.get('CM_MODEL', '') == 'sdxl':
+        if env.get('CM_CLEAN_ARTIFACT_NAME', '') == 'downloaded_data':
+            clean_cmd = f"""rm -rf {os.path.join(env['CM_NVIDIA_MLPERF_SCRATCH_PATH'], "data", "coco", "SDXL")} """
+            cache_rm_tags  = "nvidia-harness,_preprocessed_data,_sdxl"
+        if env.get('CM_CLEAN_ARTIFACT_NAME', '') == 'preprocessed_data':
+            clean_cmd = f"""rm -rf {os.path.join(env['CM_NVIDIA_MLPERF_SCRATCH_PATH'], "preprocessed_data", "coco2014-tokenized-sdxl")} """
+            cache_rm_tags  = "nvidia-harness,_preprocessed_data,_sdxl"
+
+    if clean_cmd != '':
+        env['CM_RUN_CMD'] = clean_cmd
+
+    if cache_rm_tags:
+        r = cm.access({'action': 'rm', 'automation': 'cache', 'tags': cache_rm_tags})
+        if r['return'] != 0 and r['return'] != 16: ## ignore missing ones
+            return r
+
     return {'return':0}
 
 def postprocess(i):

@@ -194,6 +194,10 @@ def preprocess(i):
         env['CM_DOWNLOAD_CHECKSUM_CMD'] = f"cd {q}{filepath}{q} {xsep}  md5sum -c {x_c} {x}{q}{env['CM_DOWNLOAD_CHECKSUM_FILE']}{q}"
     elif env.get('CM_DOWNLOAD_CHECKSUM', '') != '':
         env['CM_DOWNLOAD_CHECKSUM_CMD'] = "echo {} {}{}{}{} | md5sum {} -c -".format(env.get('CM_DOWNLOAD_CHECKSUM'), x, q, env['CM_DOWNLOAD_FILENAME'], q, x_c)
+        for i in range(1,5):
+            if env.get('CM_DOWNLOAD_CHECKSUM'+str(i),'') == '':
+                break
+            env['CM_DOWNLOAD_CHECKSUM_CMD'] += " || echo {} {}{}{}{} | md5sum {} -c -".format(env.get('CM_DOWNLOAD_CHECKSUM'+str(i)), x, q, env['CM_DOWNLOAD_FILENAME'], q, x_c)
     else:
         env['CM_DOWNLOAD_CHECKSUM_CMD'] = ""
 

@@ -55,7 +55,7 @@
       "env": {
         "CM_DOWNLOAD_CHECKSUM": "<<<CM_DATASET_COCO_MD5SUM_ANN>>>",
         "CM_DOWNLOAD_FINAL_ENV_NAME": "CM_DATASET_COCO_ANNOTATIONS_DOWNLOAD_PATH",
-        "CM_DOWNLOAD_PATH": "<<<CM_DATASET_COCO_DATA_DOWNLOAD_PATH>>>",
+        "CM_DOWNLOAD_PATH": "<<<CM_DATASET_COCO_DATA_DOWNLOAD_PATH_ROOT>>>",
         "CM_EXTRACT_FINAL_ENV_NAME": "CM_DATASET_COCO_ANNOTATIONS_PATH"
       },
       "force_cache": true,

@@ -45,7 +45,8 @@
       "env": {
         "CM_PACKAGE_URL": "http://dl.caffe.berkeleyvision.org/caffe_ilsvrc12.tar.gz",
         "CM_PACKAGE_URL1": "https://www.dropbox.com/s/92n2fyej3lzy3s3/caffe_ilsvrc12.tar.gz",
-        "CM_DOWNLOAD_CHECKSUM_": "f963098ea0e785a968ca1eb634003a90"
+        "CM_DOWNLOAD_CHECKSUM": "f963098ea0e785a968ca1eb634003a90",
+        "CM_DOWNLOAD_CHECKSUM1": "ee346d67141e476df9c1a3f813552503"
       }
     },
     "from.dropbox": {
@@ -57,7 +58,8 @@
       "env": {
         "CM_PACKAGE_URL": "https://www.dropbox.com/s/92n2fyej3lzy3s3/caffe_ilsvrc12.tar.gz",
         "CM_PACKAGE_URL1": "http://dl.caffe.berkeleyvision.org/caffe_ilsvrc12.tar.gz",
-        "CM_DOWNLOAD_CHECKSUM_": "ee346d67141e476df9c1a3f813552503"
+        "CM_DOWNLOAD_CHECKSUM": "ee346d67141e476df9c1a3f813552503",
+        "CM_DOWNLOAD_CHECKSUM1": "f963098ea0e785a968ca1eb634003a90"
       }
     },
     "skip_ssl_verification": {

@@ -89,7 +89,7 @@
         "CM_DATASET_SIZE": "50000",
         "CM_IMAGENET_FULL": "yes",
         "CM_DAE_FILENAME": "ILSVRC2012_img_val.tar",
-        "CM_DAE_DOWNLOADED_CHECKSUM": "29b22e2961454d5413ddabcf34fc5622"
+        "CM_DOWNLOAD_CHECKSUM": "29b22e2961454d5413ddabcf34fc5622"
       }
     },
     "size.500": {
@@ -98,7 +98,9 @@
       "env": {
         "CM_DATASET_SIZE": "500",
         "CM_DAE_FILENAME": "ILSVRC2012_img_val_500.tar",
-        "CM_DAE_URL": "http://cKnowledge.org/ai/data/ILSVRC2012_img_val_500.tar"
+	"CM_DOWNLOAD_FILENAME": "ILSVRC2012_img_val_500.tar",
+        "CM_DAE_URL": "http://cKnowledge.org/ai/data/ILSVRC2012_img_val_500.tar",
+        "CM_DOWNLOAD_CHECKSUM": "8627befdd8c2bcf305729020e9db354e"
       }
     },
     "size.#": {