vectorch-ai
diff --git a/‎python/tests/llava_test.py
Lines changed: 0 additions & 28 deletions b/‎python/tests/llava_test.py
Lines changed: 0 additions & 28 deletions
diff --git a/‎scalellm/CMakeLists.txt
Lines changed: 0 additions & 1 deletion b/‎scalellm/CMakeLists.txt
Lines changed: 0 additions & 1 deletion
diff --git a/‎scalellm/_C/__init__.pyi
Lines changed: 0 additions & 2 deletions b/‎scalellm/_C/__init__.pyi
Lines changed: 0 additions & 2 deletions
diff --git a/‎scalellm/_C/vlm_handler.pyi
Lines changed: 0 additions & 47 deletions b/‎scalellm/_C/vlm_handler.pyi
Lines changed: 0 additions & 47 deletions
diff --git a/‎scalellm/__init__.py
Lines changed: 1 addition & 2 deletions b/‎scalellm/__init__.py
Lines changed: 1 addition & 2 deletions
diff --git a/‎scalellm/csrc/module.cpp
Lines changed: 1 addition & 3 deletions b/‎scalellm/csrc/module.cpp
Lines changed: 1 addition & 3 deletions
diff --git a/‎scalellm/csrc/vlm_handler.cpp
Lines changed: 0 additions & 100 deletions b/‎scalellm/csrc/vlm_handler.cpp
Lines changed: 0 additions & 100 deletions
diff --git a/‎scalellm/vlm.py
Lines changed: 0 additions & 127 deletions b/‎scalellm/vlm.py
Lines changed: 0 additions & 127 deletions
diff --git a/‎src/engine/CMakeLists.txt
Lines changed: 0 additions & 4 deletions b/‎src/engine/CMakeLists.txt
Lines changed: 0 additions & 4 deletions
diff --git a/‎src/engine/batch.cpp
Lines changed: 0 additions & 3 deletions b/‎src/engine/batch.cpp
Lines changed: 0 additions & 3 deletions
@@ -9,7 +9,6 @@ pybind_extension(
     csrc/sampling_params.cpp
     csrc/output.cpp
     csrc/llm_handler.cpp
-    csrc/vlm_handler.cpp
     csrc/module.cpp
   DEPS
     :llm_handler
 
@@ -2,7 +2,6 @@ from scalellm._C.llm_handler import LLMHandler, Message, Priority
 from scalellm._C.output import (LogProb, LogProbData, RequestOutput,
                                 SequenceOutput, Status, StatusCode, Usage)
 from scalellm._C.sampling_params import SamplingParams
-from scalellm._C.vlm_handler import VLMHandler
 
 # Defined in scalellm/csrc/module.cpp
 def get_metrics() -> str: ...
@@ -19,6 +18,5 @@ __all__ = [
     "StatusCode",
     "Usage",
     "LLMHandler",
-    "VLMHandler",
     "get_metrics",
 ]
@@ -12,7 +12,7 @@
 
 from scalellm._C import (LLMHandler, LogProb, LogProbData, Message, Priority,
                          RequestOutput, SamplingParams, SequenceOutput, Status,
-                         StatusCode, Usage, VLMHandler, get_metrics)
+                         StatusCode, Usage, get_metrics)
 from scalellm.errors import ValidationError
 from scalellm.llm import LLM
 from scalellm.llm_engine import AsyncLLMEngine, OutputAsyncStream, OutputStream
@@ -34,6 +34,5 @@
     "StatusCode",
     "Usage",
     "LLMHandler",
-    "VLMHandler",
     "get_metrics",
 ]
@@ -11,7 +11,6 @@ namespace py = pybind11;
 extern void init_sampling_params(py::module_& m);
 extern void init_output(py::module_& m);
 extern void init_llm_handler(py::module_& m);
-extern void init_vlm_handler(py::module_& m);
 
 // NOLINTNEXTLINE
 static std::string get_metrics() { return Metrics::Instance().GetString(); }
@@ -27,7 +26,6 @@ PYBIND11_MODULE(PY_MODULE_NAME, m) {
   init_sampling_params(m);
   init_output(m);
   init_llm_handler(m);
-  init_vlm_handler(m);
 }
 
-}  // namespace llm::csrc
+}  // namespace llm::csrc
@@ -10,18 +10,14 @@ cc_library(
     batch.h
     model_runner.h
     worker.h
-    vlm_worker.h
     engine.h
     llm_engine.h
-    vlm_engine.h
   SRCS
     utils.cpp
     batch.cpp
     model_runner.cpp
     worker.cpp
-    vlm_worker.cpp
     llm_engine.cpp
-    vlm_engine.cpp
   DEPS
     torch
     :common
 
@@ -49,8 +49,6 @@ void Batch::add(Sequence* sequence, uint32_t token_budget) {
   sequences_.push_back(sequence);
   token_budgets_.push_back(token_budget);
   budget_used_.push_back(0);
-
-  input_embedding_ = sequence->get_input_embedding();
 }
 
 void Batch::add(const std::vector<Sequence*>& sequences) {
@@ -260,7 +258,6 @@ ModelInput Batch::prepare_model_input(uint32_t num_decoding_tokens,
 
   pad_2d_vector(block_tables_vec, /*pad_value=*/0);
   input_params.block_tables = create_2d_tensor(block_tables_vec, torch::kInt);
-  input_params.input_embedding = input_embedding_;
 
   CHECK_EQ(sampling_params.size(), selected_token_idxes.size());
   if (!selected_token_idxes.empty()) {