support for model glm-4v-9b

xusenlin · xusenlin · commit 7cf2f83587ba · 2024-06-12T16:25:57.000+08:00
diff --git a/README.md b/README.md
@@ -20,7 +20,8 @@
 
 ## 📢 新闻
 
-+ 【2024.06.12】 重构项目代码
+
++ 【2024.06.12】 支持 `GLM-4V` 模型，修改环境变量 `MODEL_NAME=glm-4v`  `PROMPT_NAME=glm-4v`  `DTYPE=bfloat16`， 测试示例见 [glm4v](./tests/glm4v.py)
 
 
 + 【2024.06.08】 已支持 `QWEN2` 模型，修改环境变量 `MODEL_NAME=qwen2`  `PROMPT_NAME=qwen2`
diff --git a/api/engine/hf.py b/api/engine/hf.py
@@ -91,14 +91,15 @@ def _generate(self, params: Dict[str, Any]) -> Iterator[dict]:
         """
         prompt_or_messages = params.get("prompt_or_messages")
         if isinstance(prompt_or_messages, str):
-            input_ids = self.tokenizer(prompt_or_messages).input_ids
+            inputs = self.tokenizer(prompt_or_messages).input_ids
         else:
-            input_ids = self.template.convert_messages_to_ids(
+            print(prompt_or_messages)
+            inputs = self.template.convert_messages_to_ids(
                 prompt_or_messages,
                 tools=params.get("tools"),
                 max_tokens=params.get("max_tokens", 256),
             )
-        params.update(dict(input_ids=input_ids))
+        params.update(dict(inputs=inputs))
 
         try:
             for output in self.generate_stream_func(self.model, self.tokenizer, params):
diff --git a/api/protocol.py b/api/protocol.py
@@ -64,7 +64,7 @@ class ErrorResponse(BaseModel):
 
 
 class ChatCompletionCreateParams(BaseModel):
-    messages: List[ChatCompletionMessageParam]
+    messages: List[Dict[str, Any]]
     """A list of messages comprising the conversation so far.
 
     [Example Python code](https://cookbook.openai.com/examples/how_to_format_inputs_to_chatgpt_models).
diff --git a/api/templates/__init__.py b/api/templates/__init__.py
@@ -6,6 +6,7 @@
     ChatGLM2ChatTemplate,
     ChatGLM3ChatTemplate,
     ChatGLM4ChatTemplate,
+    GLM4VChatTemplate,
 )
 from api.templates.qwen import QwenChatTemplate, Qwen2ChatTemplate
 from api.templates.registry import register_template, get_template
@@ -17,6 +18,7 @@
     "ChatGLM2ChatTemplate",
     "ChatGLM3ChatTemplate",
     "ChatGLM4ChatTemplate",
+    "GLM4VChatTemplate",
     "QwenChatTemplate",
     "Qwen2ChatTemplate",
     "Llama2ChatTemplate",
diff --git a/api/templates/baichuan.py b/api/templates/baichuan.py
@@ -6,6 +6,7 @@
     Optional,
     Dict,
     Any,
+    Union,
 )
 
 from openai.types.chat import ChatCompletionMessageParam
@@ -16,7 +17,7 @@
 from api.templates.utils import parse_messages
 
 if TYPE_CHECKING:
-    from transformers import PreTrainedTokenizer
+    from transformers import PreTrainedTokenizer, BatchEncoding
 
 
 def build_baichuan_chat_input(
@@ -81,7 +82,7 @@ def _convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], "BatchEncoding"]:
         return build_baichuan_chat_input(
             self.tokenizer,
             messages,
diff --git a/api/templates/base.py b/api/templates/base.py
@@ -15,7 +15,7 @@
 from openai.types.chat import ChatCompletionMessageParam
 
 if TYPE_CHECKING:
-    from transformers import PreTrainedTokenizer
+    from transformers import PreTrainedTokenizer, BatchEncoding
 
 
 class ChatTemplate(ABC):
@@ -42,7 +42,7 @@ def convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], "BatchEncoding"]:
         try:
             token_ids = self._convert_messages_to_ids(
                 messages,
@@ -77,7 +77,7 @@ def _convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], "BatchEncoding"]:
         raise NotImplementedError
 
     def apply_chat_template(
diff --git a/api/templates/glm.py b/api/templates/glm.py
@@ -26,7 +26,7 @@
 from api.templates.utils import apply_stopping_strings
 
 if TYPE_CHECKING:
-    from transformers import PreTrainedTokenizer, PreTrainedModel
+    from transformers import PreTrainedTokenizer, PreTrainedModel, BatchEncoding
 
 
 class InvalidScoreLogitsProcessor(LogitsProcessor):
@@ -412,7 +412,7 @@ def _convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], BatchEncoding]:
         messages = process_chatglm_messages(messages, tools)
         query, role = messages[-1]["content"], messages[-1]["role"]
         return self.tokenizer.build_chat_input(
@@ -489,7 +489,7 @@ def _convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], BatchEncoding]:
         messages = process_chatglm_messages_v4(messages, tools)
         return self.tokenizer.apply_chat_template(
             messages,
@@ -534,3 +534,68 @@ def tool_call(**kwargs):
                         "content": content
                     }
         return output, content
+
+
+@register_template("glm-4v")
+class GLM4VChatTemplate(ChatTemplate):
+    stop = ["<|endoftext|>", "<user>", "<|observation|>"]
+    stop_token_ids = [151329, 151336, 151338]
+
+    def _convert_messages_to_ids(
+        self,
+        messages: List[ChatCompletionMessageParam],
+        system: Optional[str] = None,
+        tools: Optional[List[Dict[str, Any]]] = None,
+        max_tokens: Optional[int] = 256,
+        max_window_size: Optional[int] = 6144,
+        **kwargs,
+    ) -> Union[List[int], "BatchEncoding"]:
+        _messages = []
+        for message in messages:
+            if isinstance(message["content"], str):
+                _content, image = message["content"], None
+            else:
+                _content, image = None, None
+                for c in message["content"]:
+                    if isinstance(c, dict) and "type" in c:
+                        if c["type"] == "text":
+                            _content = c["text"]
+
+                        if c["type"] == "image_url":
+                            if (
+                                isinstance(c["image_url"], dict)
+                                and "url" in c["image_url"]
+                            ):
+                                image = self._load_image(image_url=c["image_url"]["url"])
+                            else:
+                                image = self._load_image(image_url=c["image_url"])
+
+            msg = {"role": message["role"], "content": _content}
+            if image is not None:
+                msg["image"] = image
+            _messages.append(msg)
+
+        return self.tokenizer.apply_chat_template(
+            _messages,
+            add_generation_prompt=True,
+            tokenize=True,
+            return_tensors="pt",
+            return_dict=True,
+        )
+
+    @staticmethod
+    def _load_image(image_url: str):
+        from PIL import Image
+        from io import BytesIO
+
+        if image_url.startswith("data:"):
+            import base64
+
+            image_bytes = base64.b64decode(image_url.split(",")[1])
+        else:
+            import urllib.request
+
+            with urllib.request.urlopen(image_url) as f:
+                image_bytes = f.read()
+
+        return Image.open(BytesIO(image_bytes)).convert("RGB")
diff --git a/api/templates/qwen.py b/api/templates/qwen.py
@@ -24,7 +24,7 @@
 from api.templates.registry import register_template
 
 if TYPE_CHECKING:
-    from transformers import PreTrainedTokenizer
+    from transformers import PreTrainedTokenizer, BatchEncoding
 
 
 TOOL_DESC = """{name_for_model}: Call this tool to interact with the {name_for_human} API. What is the {name_for_human} API useful for? {description_for_model} Parameters: {parameters}"""
@@ -277,7 +277,7 @@ def _convert_messages_to_ids(
         max_tokens: Optional[int] = 256,
         max_window_size: Optional[int] = 6144,
         **kwargs,
-    ) -> List[int]:
+    ) -> Union[List[int], BatchEncoding]:
         return build_qwen_chat_input(
             self.tokenizer,
             messages,
diff --git a/api/templates/stream.py b/api/templates/stream.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+import gc
 import time
 import uuid
 from threading import Thread
@@ -25,7 +26,7 @@ def generate_stream(
     tokenizer: "PreTrainedTokenizer",
     params: Dict[str, Any],
 ):
-    input_ids = params.get("input_ids")
+    inputs = params.get("inputs")
     functions = params.get("functions")
     model_name = params.get("model", "llm")
     temperature = float(params.get("temperature", 1.0))
@@ -39,10 +40,8 @@ def generate_stream(
         stop_token_ids.append(tokenizer.eos_token_id)
     stop_strings = params.get("stop", [])
 
-    input_echo_len = len(input_ids)
-    device = model.device
+    device = next(model.parameters()).device
     generation_kwargs = dict(
-        input_ids=torch.tensor([input_ids], device=device),
         do_sample=True,
         temperature=temperature,
         top_p=top_p,
@@ -55,6 +54,14 @@ def generate_stream(
         generation_kwargs["do_sample"] = False
         generation_kwargs.pop("top_k")
 
+    if isinstance(inputs, dict):
+        inputs = {k: v.to(device) for k, v in inputs.items() if isinstance(v, torch.Tensor)}
+        generation_kwargs.update(inputs)
+        input_echo_len = len(inputs["input_ids"][0])
+    else:
+        generation_kwargs["input_ids"] = torch.tensor([inputs], device=device)
+        input_echo_len = len(inputs)
+
     streamer = TextIteratorStreamer(
         tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True
     )
@@ -114,3 +121,6 @@ def generate_stream(
             "total_tokens": input_echo_len + i,
         },
     }
+
+    gc.collect()
+    torch.cuda.empty_cache()
diff --git a/docs/SCRIPT.md b/docs/SCRIPT.md
@@ -108,12 +108,13 @@ python server.py
 
 ### GLM系列
 
-| 模型       | 环境变量示例                                                                                             |
-|----------|----------------------------------------------------------------------------------------------------|
-| chatglm  | `MODEL_NAME=chatglm`、`MODEL_PATH=THUDM/chatglm-6b`、`PROMPT_NAME=chatglm`、 `DEVICE_MAP=cuda:0`      |
-| chatglm2 | `MODEL_NAME=chatglm2`、`MODEL_PATH=THUDM/chatglm2-6b`、`PROMPT_NAME=chatglm2`、 `DEVICE_MAP=cuda:0`   |
-| chatglm3 | `MODEL_NAME=chatglm3`、`MODEL_PATH=THUDM/chatglm3-6b`、`PROMPT_NAME=chatglm3`、 `DEVICE_MAP=cuda:0`   |
-| glm4     | `MODEL_NAME=chatglm4`、`MODEL_PATH=THUDM/glm-4-9b-chat`、`PROMPT_NAME=chatglm4`、 `DEVICE_MAP=cuda:0` |
+| 模型        | 环境变量示例                                                                                                     |
+|-----------|------------------------------------------------------------------------------------------------------------|
+| chatglm   | `MODEL_NAME=chatglm`、`MODEL_PATH=THUDM/chatglm-6b`、`PROMPT_NAME=chatglm`、 `DEVICE_MAP=cuda:0`              |
+| chatglm2  | `MODEL_NAME=chatglm2`、`MODEL_PATH=THUDM/chatglm2-6b`、`PROMPT_NAME=chatglm2`、 `DEVICE_MAP=cuda:0`           |
+| chatglm3  | `MODEL_NAME=chatglm3`、`MODEL_PATH=THUDM/chatglm3-6b`、`PROMPT_NAME=chatglm3`、 `DEVICE_MAP=cuda:0`           |
+| glm4-chat | `MODEL_NAME=chatglm4`、`MODEL_PATH=THUDM/glm-4-9b-chat`、`PROMPT_NAME=chatglm4`、 `DEVICE_MAP=cuda:0`         |
+| glm-4v    | `MODEL_NAME=glm-4v`、`MODEL_PATH=THUDM/glm-4v-9b`、`PROMPT_NAME=glm-4v`、 `DEVICE_MAP=auto`、 `DTYPE=bfloat16` |
 
 
 ### BAICHUAN系列
diff --git a/tests/glm4v.py b/tests/glm4v.py
@@ -0,0 +1,31 @@
+from openai import OpenAI
+
+client = OpenAI(
+    api_key="EMPTY",
+    base_url="http://192.168.0.59:7891/v1/",
+)
+
+stream = client.chat.completions.create(
+    messages=[
+        {
+            "role": "user",
+            "content": [
+                {
+                    "type": "text",
+                    "text": "这张图片是什么地方？"
+                },
+                {
+                    "type": "image_url",
+                    "image_url": {
+                        # Either an url or a local path
+                        "url": "http://djclub.cdn.bcebos.com/uploads/images/pageimg/20230325/64-230325205T52.jpg"
+                    }
+                }
+            ]
+        }
+    ],
+    model="glm-4v-9b",
+    stream=True,
+)
+for part in stream:
+    print(part.choices[0].delta.content or "", end="", flush=True)