stuff

jlamypoirier · jlamypoirier · commit 9c90421d96ef · 2023-05-03T10:40:00.000-04:00
diff --git a/scripts/run_all_benchmark_breakdown.sh b/scripts/run_all_benchmark_breakdown.sh
@@ -9,12 +9,12 @@
 ./scripts/run_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 11 1 v2_
 
 # Large model
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 11 0 v2_
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 11 0 v2_
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 11 0 v2_
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 11 0  v2_ # OOM?
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 1 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 8 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 32 8190 11 0 v2_
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 256 8190 11 0  v2_ # OOM?
 
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 1 8190 29 1 v2_ 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 8 8190 29 1 v2_ 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 32 8190 29 1 v2_ 1
-./scripts/run_benchmark_breakdown.sh large_model ./data/large-model 256 8190 29 1  v2_ 1 # OOM?
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 1 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 8 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 32 8190 29 1 v2_ 1
+./scripts/run_benchmark_breakdown.sh large_model ./data/bigcode_large-model 256 8190 29 1  v2_ 1 # OOM?
diff --git a/scripts/run_all_textgen_benchmark_breakdown.sh b/scripts/run_all_textgen_benchmark_breakdown.sh
@@ -9,12 +9,12 @@
 ./scripts/run_textgen_benchmark_breakdown.sh santacoder bigcode/gpt_bigcode-santacoder 256 2040 11 1 v2_
 
 # Large model
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 1 8190 11 0 v2_
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 8 8190 11 0 v2_
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 32 8190 11 0 v2_
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 256 8190 11 0  v2_ # OOM?
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 1 8190 11 0 v2_
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 8 8190 11 0 v2_
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 32 8190 11 0 v2_
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 256 8190 11 0  v2_ # OOM?
 
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 1 8190 29 1 v2_ 1
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 8 8190 29 1 v2_ 1
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 32 8190 29 1 v2_ 1
-./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/large-model 256 8190 29 1  v2_ 1 # OOM?
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 1 8190 29 1 v2_ 1
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 8 8190 29 1 v2_ 1
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 32 8190 29 1 v2_ 1
+./scripts/run_textgen_benchmark_breakdown.sh large_model ./data/bigcode_large-model 256 8190 29 1  v2_ 1 # OOM?
diff --git a/scripts/run_textgen_benchmark_breakdown.sh b/scripts/run_textgen_benchmark_breakdown.sh
@@ -15,7 +15,7 @@ CYCLES=${8:-10}
 
 SAVE_DIR=data/benchmarks/v2
 #BATCH_SIZES="1 2 4 8 16 24 32 48 64 96 128 160 224 256"
-RUN="python3 src/main.py --max_log_outputs=0 --dtype=float16 --device=cuda  --custom_generate  --breakdown_latency --ignore_oom"
+RUN="python3 src/main.py --max_log_outputs=0 --dtype=float16 --device=cuda  --custom_generate  --breakdown_latency --ignore_oom --no_fast_init"
 
 
 RUNTIME=("")
diff --git a/src/pipeline.py b/src/pipeline.py
@@ -534,17 +534,26 @@ def _update_generate_batch(self, batch, use_cache, do_prefill, key_length):
 
         if isinstance(batch, FlashCausalLMBatch):
             # Tested for flash santacoder only
+            # TODO: Fix batch size 1
             assert max(batch.input_lengths) == batch.max_seqlen
             seqlen_diff = key_length - batch.max_seqlen
             assert seqlen_diff >= 0
+            kv_shape = [2, 1, self.config.n_embd // self.config.n_head]
             if batch.past_key_values is None:
                 mock_cache = use_cache and not do_prefill
             else:
                 if not use_cache:
                     batch.past_key_values = None
                 mock_cache = use_cache and seqlen_diff > 0
             if mock_cache:
-                batch.past_key_values = []
+                if len(batch.input_lengths) > 1:
+                    batch.past_key_values = []
+                else:
+                    batch.past_key_values = torch.randn(
+                        [self.config.n_layer, batch.max_tokens, *kv_shape],
+                        dtype=self.model.dtype,
+                        device=self.device,
+                    )
 
             for i, old_length in enumerate(batch.input_lengths):
                 length = old_length + seqlen_diff
@@ -559,18 +568,18 @@ def _update_generate_batch(self, batch, use_cache, do_prefill, key_length):
                     # Decode
                     batch.input_ids[i] = batch.all_input_ids_tensor[i][length - 1 : length]
                     batch.position_ids[i] = length - 1
-                    if mock_cache:
+                    if mock_cache and len(batch.input_lengths) > 1:
                         batch.stopping_criterias[i].current_tokens = max(batch.stopping_criterias[i].current_tokens, 1)
                         batch.past_key_values.append(
                             torch.randn(
-                                [self.config.n_layer, length, 2, 1, self.config.n_embd // self.config.n_head],
+                                [self.config.n_layer, length, *kv_shape],
                                 dtype=self.model.dtype,
                                 device=self.device,
                             )
                         )
                         batch.past_key_values.append(
                             torch.zeros(
-                                [self.config.n_layer, 1, 2, 1, self.config.n_embd // self.config.n_head],
+                                [self.config.n_layer, 1, *kv_shape],
                                 dtype=self.model.dtype,
                                 device=self.device,
                             )
@@ -660,7 +669,6 @@ def __call__(
                     truncate=99999,
                     parameters=generate_pb2.NextTokenChooserParameters(
                         temperature=1.0,
-                        top_k=1,
                         top_p=1,
                         typical_p=1,
                         do_sample=False,