More options and benchmarking tools

jlamypoirier · jlamypoirier · commit 75279ff97984 · 2023-04-19T23:28:41.000-04:00
diff --git a/Dockerfile b/Dockerfile
@@ -1,4 +1,4 @@
-FROM nvcr.io/nvidia/pytorch:23.01-py3
+FROM nvcr.io/nvidia/pytorch:23.03-py3
 
 ARG USER=1000
 ARG USERNAME=user
diff --git a/requirements.txt b/requirements.txt
@@ -3,6 +3,7 @@ bitsandbytes
 safetensors
 deepspeed==0.7.7
 -e ./transformers
+flash-attn
 
 # TODO: Analysis only
 py-markdown-table
diff --git a/scripts/run_all_benchmark_breakdown.sh b/scripts/run_all_benchmark_breakdown.sh
@@ -0,0 +1,20 @@
+
+# Santacoder
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 5 0
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 5 0
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 5 0
+
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 1 2040 11 1
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 11 1
+./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 11 1
+
+# Large model
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 11 0
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 11 0
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 11 0
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 11 0 # OOM?
+
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 29 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 29 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 29 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 29 1 # OOM?
diff --git a/scripts/run_benchmark_breakdown.sh b/scripts/run_benchmark_breakdown.sh
@@ -0,0 +1,56 @@
+
+# Santacoder prefill.
+# ./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 5 0
+# Santacoder decode (fewer data points because slower)
+# ./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 32 2040 11 1
+MODEL_NAME=${1:-"santacoder"}
+MODEL_PATH=${2:-"bigcode/gpt_bigcode-santacoder"}
+BATCH_SIZE=${3:-32}
+MAX_NEW_TOKENS=${4:-2040}
+# Prime number to see key length padding effect.
+TOKEN_STEP=${5:-5}
+STEP_ID=${6:-""}
+
+SAVE_DIR=data/benchmarks/v2
+#BATCH_SIZES="1 2 4 8 16 24 32 48 64 96 128 160 224 256"
+RUN="python3 src/main.py --max_log_outputs=0 --dtype=float16 --device=cuda  --custom_generate  --breakdown_latency --ignore_oom"
+
+
+RUNTIME=("" "pre_allocate_kv_cache=True" "pre_allocate_kv_cache=True inference_runner=3")
+RUNTIME_NAMES=("base" "pre_allocate" "graph")
+
+ATTN_NAME=("jit" "flash" "torch" "torchflash" "torchmem" "torchcpp")
+
+
+STEP=("--no_prefill" "--no_cache")
+STEP_NAME=("decode" "prefill")
+
+COMMON="--pretrained_model=$MODEL_PATH --tokenizer=$MODEL_PATH --cycles=10 --max_input_length=1 --max_new_tokens=$MAX_NEW_TOKENS --key_length_step=$TOKEN_STEP --batch_size=$BATCH_SIZE"
+
+run () { # run(step, runtime, attn)
+  FILE_NAME="$SAVE_DIR"/"$MODEL_NAME"_bs_"$BATCH_SIZE"_tok_"$MAX_NEW_TOKENS"_step_"$TOKEN_STEP"_"${STEP_NAME[$1]}"/"${RUNTIME_NAMES[$2]}"_"${ATTN_NAME[$3]}".json
+  if [ -f "$FILE_NAME" ];
+  then
+    echo "Skipping existing $FILE_NAME"
+  else
+    $RUN $COMMON ${STEP[$1]} ${RUNTIME[$2]} "attention_implementation=$3" --save="$FILE_NAME"
+  fi
+}
+
+if [ "${STEP_ID}" -eq "0" ]
+then
+  # Decode
+  for runtime in {0..2}
+  do
+    for attn in {0..5}
+    do
+      run 0 $runtime $attn
+    done
+  done
+else
+  # Prefill (all runtimes are the same)
+  for attn in {0..5}
+  do
+    run 1 0 $attn
+  done
+fi
diff --git a/src/main.py b/src/main.py
@@ -31,14 +31,16 @@ def get_arg_parser() -> ArgumentParser:
     parser.add_argument("--device", default="cuda", type=torch.device)
     parser.add_argument("--dtype", default="float16", type=lambda x: getattr(torch, x))
     parser.add_argument("--local_rank", type=int)
-    parser.add_argument("--no_fast_init","--nf", dest="fast_init", action="store_false")
-    parser.add_argument("--no_cache","--nc", dest="use_cache", action="store_false")
-    parser.add_argument("--no_prefill","--np", dest="do_prefill", action="store_false")
+    parser.add_argument("--no_fast_init", "--nf", dest="fast_init", action="store_false")
+    parser.add_argument("--no_cache", "--nc", dest="use_cache", action="store_false")
+    parser.add_argument("--no_prefill", "--np", dest="do_prefill", action="store_false")
+    parser.add_argument("--key_length_step", "--ks", default=1, type=int)
+    parser.add_argument("--ignore_oom", "--oom", action="store_true")
 
     # Input and output
-    parser.add_argument("--batch_size","-b", default=1, type=int)
-    parser.add_argument("--max_input_length","-i", default=-1, type=int)
-    parser.add_argument("--max_new_tokens","-g", default=100, type=int)
+    parser.add_argument("--batch_size", "-b", default=1, type=int)
+    parser.add_argument("--max_input_length", "-i", default=-1, type=int)
+    parser.add_argument("--max_new_tokens", "-g", default=100, type=int)
 
     # Cleanup
     parser.add_argument("--clear_every_run", action="store_true")
@@ -50,11 +52,11 @@ def get_arg_parser() -> ArgumentParser:
 
     # Profiling and logging
     parser.add_argument("--max_log_outputs", type=int)
-    parser.add_argument("--breakdown_latency","--bl", action="store_true")
-    parser.add_argument("--profile","-p", action="store_true")
-    parser.add_argument("--profile_cycles","--pc", type=int)
-    parser.add_argument("--full_trace","--pt", action="store_true")
-    parser.add_argument("--show_op_names","--pn", action="store_true")
+    parser.add_argument("--breakdown_latency", "--bl", action="store_true")
+    parser.add_argument("--profile", "-p", action="store_true")
+    parser.add_argument("--profile_cycles", "--pc", type=int)
+    parser.add_argument("--full_trace", "--pt", action="store_true")
+    parser.add_argument("--show_op_names", "--pn", action="store_true")
     parser.add_argument("--save", type=Path)
 
     return parser
@@ -91,10 +93,6 @@ def main(argv: Optional[List[str]] = None) -> None:
         dtype=args.dtype,
         fast_init=args.fast_init,
         trust_remote_code=args.trust_remote_code,
-        custom_generate=args.custom_generate,
-        use_cache=args.use_cache,
-        do_prefill=args.do_prefill,
-        breakdown_latency=args.breakdown_latency,
     )
 
     all_metrics = []
@@ -128,10 +126,26 @@ def main(argv: Optional[List[str]] = None) -> None:
     t1 = time.perf_counter()
     with profiler as p:
         for step in range(args.skip + warmup + args.cycles):
+            log_rank_n(
+                (
+                    f"*** Running generation step {step} "
+                    f"({'skip' if step<args.skip else 'warmup' if step<args.skip + warmup else 'benchmark'})"
+                ),
+                logger.info,
+            )
             if step == args.skip + warmup:
                 t2 = time.perf_counter()
                 benchmark_metrics[Metrics.RUNTIME_WARMUP] = t2 - t1
-            generated_text, metrics = pipeline(inputs, args.max_new_tokens)
+            generated_text, metrics = pipeline(
+                inputs,
+                args.max_new_tokens,
+                custom_generate=args.custom_generate,
+                use_cache=args.use_cache,
+                do_prefill=args.do_prefill,
+                breakdown_latency=args.breakdown_latency,
+                key_length_step=args.key_length_step,
+                ignore_oom=args.ignore_oom,
+            )
             if args.profile:
                 p.step()
 
diff --git a/src/metrics.py b/src/metrics.py
@@ -17,8 +17,8 @@ def format_ms(t: float) -> str:
     return f"{1000 * t:.2f} ms"
 
 
-def format_ms_dict(t_dict: Dict[str,float]) -> Dict[str,str]:
-    return {key:format_ms(value) for key, value in t_dict.items()}
+def format_ms_dict(t_dict: Dict[str, float]) -> Dict[str, str]:
+    return {key: format_ms(value) for key, value in t_dict.items()}
 
 
 def format_mib(m: float) -> str:
diff --git a/src/parse_breakdown_results.py b/src/parse_breakdown_results.py
@@ -0,0 +1,60 @@
+import json
+from argparse import ArgumentParser
+from pathlib import Path
+from typing import List, Optional
+
+
+def get_arg_parser() -> ArgumentParser:
+    parser = ArgumentParser()
+    parser.add_argument("input_dir", type=Path)
+    parser.add_argument("--title")
+    return parser
+
+
+def read_data(input_file: Path):
+    try:
+        with input_file.open("r") as f:
+            data = json.load(f)
+            data = {**data["config"], **data["results"]}
+    except (ValueError, OSError) as e:
+        raise ValueError(f"Cannot parse file {input_file} ({e})")
+    data["Setting"] = input_file.stem
+    return data
+
+
+def plot(data, title=None):
+    import matplotlib.pyplot as plt
+
+    fig = plt.figure()
+    ax = fig.add_subplot()
+
+    for dat in data:
+        latency_data = dat["Latency (generate breakdown)"]
+        ax.plot(
+            [int(k) for k in latency_data.keys()],
+            [v * 1000 for v in latency_data.values()],
+            label=dat["Setting"],
+            linewidth=1,
+        )  # , linestyle=":")#, markersize=1, marker="o")
+
+    ax.set_title(title)
+    ax.set_xlabel("Sequence length")
+    ax.set_ylabel("Latency (ms)")
+    ax.legend()
+    fig.show()
+    input("Press enter to continue")
+
+
+def main(argv: Optional[List[str]] = None) -> None:
+    parser = get_arg_parser()
+    args = parser.parse_args(argv)
+    data = [read_data(input_file) for input_file in args.input_dir.iterdir()]
+
+    if len(data) == 0:
+        raise RuntimeError(f"No data to show.")
+
+    plot(data, args.title)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/pipeline.py b/src/pipeline.py
diff --git a/src/utils.py b/src/utils.py
diff --git a/transformers b/transformers

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-FROM nvcr.io/nvidia/pytorch:23.01-py3`
	`1`	`+FROM nvcr.io/nvidia/pytorch:23.03-py3`
`2`	`2`
`3`	`3`	`ARG USER=1000`
`4`	`4`	`ARG USERNAME=user`