mlcommons · arjunsuresh · Nov 7, 2024 · Nov 5, 2024 · Nov 5, 2024 · Nov 5, 2024
@@ -243,9 +243,16 @@ variations:
 
   llama2-70b_:
     deps:
+      - tags: get,generic-python-lib,_package.compressed_tensors
+        names:
+          - compressed_tensors
       - tags: get,preprocessed,dataset,openorca,_mlc,_validation
-      - tags: get,ml-model,llama2,_fp32,_pytorch
       - tags: get,ml-model,llama2,_amd,_pytorch
+        skip_if_env:
+          CM_MLPERF_MODEL_LLAMA2_70B_DOWNLOAD_TO_HOST:
+          - 'yes'
+          CM_RUN_STATE_DOCKER:
+          - 'yes'
       - tags: get,preprocessed,dataset,openorca,_mlc,_validation
       - tags: download,file,_url.https://github.com/vllm-project/vllm/blob/38c4b7e863570a045308af814c72f4504297222e/tests/fp8_kv/llama2-70b-fp8-kv/kv_cache_scales.json
         extra_cache_tags: llama2-scales,kv-cache

@@ -16,7 +16,7 @@ export VLLM_FP8_REDUCE_CONV=1
 export HARNESS_DISABLE_VLLM_LOGS=1
 export VLLM_LOGGING_LEVEL=ERROR
 
-MODEL_PATH=${CM_ML_MODEL_LLAMA2_FILE_WITH_PATH:-/data/llm/llama2-70b-chat/}
+MODEL_PATH=${LLAMA2_CHECKPOINT_PATH:-/data/llm/llama2-70b-chat/}
 DATASET_PATH=${CM_DATASET_OPENORCA_PREPROCESSED_PATH:-/data/open_orca/open_orca_gpt4_tokenized_llama.sampled_24576.pkl.gz}
 QUANTIZED_WEIGHTS_PATH=${CM_LLAMA2_FINAL_SAFE_TENSORS_PATH:-quantized/quark_share/modelzoo/llama2_70b_wfp8_afp8_ofp8_nomerge/json-safetensors/llama.safetensors}
 QUANTIZATION_PARAM_PATH=${QUANTIZATION_PARAM_PATH:-/app/kv_cache_scales.json}

@@ -810,6 +810,17 @@ variations:
             CM_MLPERF_MODEL_LLAMA2_70B_DOWNLOAD_TO_HOST:
             - 'yes'
           tags: get,ml-model,llama2
+
+  llama2-70b_,amd:
+    docker:
+      image_name: mlperf-inference-amd-python-implementation-llama2-70b
+      mounts:
+        - "${{ CM_LLAMA2_FINAL_SAFE_TENSORS_PATH }}:${{ CM_LLAMA2_FINAL_SAFE_TENSORS_PATH }"
+      deps:
+        - enable_if_env:
+            CM_MLPERF_MODEL_LLAMA2_70B_DOWNLOAD_TO_HOST:
+            - 'yes'
+          tags: get,ml-model,llama2,_amd,_pytorch
 
   mixtral-8x7b:
     group:

@@ -17,7 +17,8 @@
   "new_env_keys": [
     "CM_ML_MODEL_*",
     "LLAMA2_CHECKPOINT_PATH",
-    "CM_NVIDIA_TP_SIZE"
+    "CM_NVIDIA_TP_SIZE",
+    "CM_LLAMA2_FINAL_SAFE_TENSORS_PATH"
   ],
   "prehook_deps": [
     {
@@ -188,6 +189,9 @@
         },
         {
           "tags": "get,generic-python-lib,_torch"
+        },
+        {
+          "tags": "get,generic-python-lib,_package.compressed_tensors"
         }
       ]
     },