WIP: qwen

predibase · tgaddair · Dec 5, 2023 · Dec 5, 2023 · Dec 5, 2023 · Dec 5, 2023
commit 68328814fce079e23b87da9196991839077f02be
diff --git a/server/lorax_server/models/__init__.py b/server/lorax_server/models/__init__.py
@@ -52,6 +52,7 @@
     from lorax_server.models.flash_llama import (
         FlashLlama,
     )
+    from lorax_server.models.flash_qwen import FlashQwen
     from lorax_server.models.flash_santacoder import (
         FlashSantacoderSharded,
     )
@@ -65,6 +66,7 @@
     __all__.append(FlashRWSharded)
     __all__.append(FlashSantacoderSharded)
     __all__.append(FlashLlama)
+    __all__.append(FlashQwen)
 
 MISTRAL = True
 try:
@@ -281,6 +283,19 @@ def get_model(
                 trust_remote_code=trust_remote_code,
             )
         raise NotImplementedError("Mistral model requires flash attention v2")
+
+    if model_type == "qwen":
+        if MISTRAL:
+            return FlashQwen(
+                model_id,
+                adapter_id,
+                adapter_source,
+                revision,
+                quantize=quantize,
+                dtype=dtype,
+                trust_remote_code=trust_remote_code,
+            )
+        raise NotImplementedError("Qwen model requires flash attention v2")
 
     if model_type == "opt":
         return OPTSharded(