query time changes with , improved querqy rewriter version , thanks t…

…o matthias #151
querqy · Mar 29, 2023 · 3504ab9 · 3504ab9
1 parent df88366
commit 3504ab9
Show file tree

Hide file tree

Showing 12 changed files with 42 additions and 22 deletions.
diff --git a/data-encoder/ecommerce/vectors/products.py b/data-encoder/ecommerce/vectors/products.py
@@ -13,9 +13,9 @@
 
 
 # Currently you need to unzip the 4.json.zip file first.
-PATH_PRODUCTS_DATASET = "data-encoder/ecommerce/vectors/data/1.json"
+PATH_PRODUCTS_DATASET = "data-encoder/ecommerce/vectors/data/test.json"
 PATH_PRODUCTS_MODEL = "all-MiniLM-L6-v2"
-PATH_PRODUCTS_VECTORS_JSON = "data-encoder/ecommerce/vectors/data/products-vectors-1.json"
+PATH_PRODUCTS_VECTORS_JSON = "data-encoder/ecommerce/vectors/data/products-vectors-test.json"
 
 # Load the CLIP model
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -71,7 +71,7 @@ def calculate_product_image_vectors(product):
         preprocess_image = preprocess(validated_image).unsqueeze(0).to(device)
         # Encode the image
         with torch.no_grad():
-            image_encoding = model.encode_image(preprocess_image)
+            image_encoding = model.encode_image(preprocess_image)[0]
             #print(image_encoding)
             return image_encoding
     except Exception:

diff --git a/data-encoder/ecommerce/vectors/query_vector.py b/data-encoder/ecommerce/vectors/query_vector.py
@@ -5,4 +5,17 @@
 query_text = "Sony Portable Bluetooth Speaker MBS-100 docking speaker 1.0 channels Black Sony"
 model = SentenceTransformer(PATH_PRODUCTS_MODEL)
 text_emb = model.encode(query_text)
-print(text_emb)
+print(text_emb)
+
+
+#import torch
+#import torchvision.transforms as transforms
+#import clip
+
+# Load the CLIP model
+#device = "cuda" if torch.cuda.is_available() else "cpu"
+#model, preprocess = clip.load('ViT-L/14', device)
+#qry_text = "mobilephone"
+#qry_encoding = model.encode_text(clip.tokenize(qry_text),normalize_embeddings=True, convert_to_numpy=True)
+#print(qry_encoding)
+#print (qry_encoding.shape)
diff --git a/embeddings/Dockerfile b/embeddings/Dockerfile
@@ -7,7 +7,7 @@ COPY ./app /code/app
 RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
 
 # Download models from the internet and store in Docker image
-RUN python code/app/clip/loadModel.py
+#RUN python code/app/clip/loadModel.py
 RUN python code/app/minilm/loadModel.py
 
 WORKDIR /code/app

diff --git a/embeddings/app/clip/loadModel.py b/embeddings/app/clip/loadModel.py
diff --git a/embeddings/app/clip/model.py b/embeddings/app/clip/model.py
diff --git a/embeddings/app/clip/__init__.py → embeddings/app/clipL14/__init__.py b/embeddings/app/clip/__init__.py → embeddings/app/clipL14/__init__.py
diff --git a/embeddings/app/clipL14/loadModel.py b/embeddings/app/clipL14/loadModel.py
@@ -0,0 +1,10 @@
+## This script downloads the clip model for embeddings service.
+
+import torch
+import torchvision.transforms as transforms
+import clip
+
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model, preprocess = clip.load('ViT-L/14', device)
+
+#model.save('/code/app/clip-ViT-L-14.model')
diff --git a/embeddings/app/clipL14/model.py b/embeddings/app/clipL14/model.py
@@ -0,0 +1,11 @@
+import torch
+import torchvision.transforms as transforms
+import clip
+
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model, preprocess = clip.load('ViT-L/14', device)
+
+def get_text_sentence_embedding(text: str, normalize: bool = True):
+    return model.encode_text(clip.tokenize(text))[0]
+
+
diff --git a/embeddings/app/clip/router.py → embeddings/app/clipL14/router.py b/embeddings/app/clip/router.py → embeddings/app/clipL14/router.py
@@ -1,6 +1,6 @@
 from fastapi import APIRouter
 
-from clip.model import get_text_sentence_embedding
+from clipL14.model import get_text_sentence_embedding
 
 from embeddings import EmbeddingsTextRequest, OutputFormat
 

diff --git a/embeddings/app/main.py b/embeddings/app/main.py
@@ -1,5 +1,5 @@
 from fastapi import FastAPI
-from clip import router as router_clip
+from clipL14 import router as router_clip
 from minilm import router as router_minilm
 
 app = FastAPI()

diff --git a/embeddings/requirements.txt b/embeddings/requirements.txt
@@ -3,5 +3,6 @@ fastapi
 uvicorn[standard]
 gunicorn
 pydantic
+torch
 git+https://github.com/openai/CLIP.git
 
diff --git a/solr/lib/querqy-embeddings-rewriter-1.0.0-SNAPSHOT.jar b/solr/lib/querqy-embeddings-rewriter-1.0.0-SNAPSHOT.jar