feat: llm integration #29

justiandevs · 2025-11-25T11:01:57Z

Samenvatting

Deze PR integreert het werk uit de PoC: https://github.com/delta10/signal-classification-poc in Signalen. In de PoC is aangetoond dat het mogelijk is om met een (eventueel self-hosted) open-source LLM de categorie van een melding te voorspellen. De voorspelling wordt gedaan op basis van de beschikbare subcategorieën en hun omschrijvingen. Hierdoor is geen apart trainingsproces meer nodig, in tegenstelling tot het huidige TF-IDF-model. Dit maakt de oplossing flexibeler en onderhoudsvriendelijker.

Functionaliteit

Het LLM-model voorspelt de meest waarschijnlijke subcategorie op basis van:

De tekst van de melding
De omschrijvingen van de beschikbare subcategorieën
Alleen subcategorieën met een omschrijving worden opgenomen in de prompt en kunnen dus worden voorspeld.
Wanneer het model wel zeker is van een hoofdcategorie maar niet van een subcategorie, wordt teruggevallen op de subcategorie: Overig {{ hoofdcategorienaam }}
Wanneer het model niet zeker is van zowel de hoofdcategorie als de subcategorie, wordt teruggevallen op: Overig / Overig

Feature flags

LLM_BACKGROUND_PREDICTION_ENABLED

Zet LLM-voorspellingen op de achtergrond aan. De daadwerkelijke classificatie gebeurt nog steeds via het TF-IDF-model. Op de achtergrond wordt óók een voorspelling uitgevoerd met het LLM-model. Het resultaat hiervan wordt opgeslagen in de database tabel llm_prediction_prediction met de kolommen:
llm_predicted_category
tfidf_predicted_category
signal

LLM_FOREGROUND_PREDICTION_ENABLED

Zet LLM-voorspellingen op de voorgrond aan. De daadwerkelijke classificatie (bijvoorbeeld bij een request vanuit de frontend van Signalen) gebeurt dan met het LLM-model.

Configuratie

De gebruikte LLM wordt geconfigureerd met de volgende environment-variabelen:

LLM_API_URL – URL van het model
LLM_API_KEY – API key voor het model

Voor het testen zijn de hosted generatieve AI-modellen van Scaleway gebruikt. Getest met: mistral-small-3.2-24b-instruct-2506.

Notities

De LLM-voorspelling is op dit moment merkbaar trager dan de oude TF-IDF-voorspelling.
Al uitgevoerde optimalisaties:
max_tokens ingesteld om de response te beperken.
Caching van de get_system_prompt() functie.
Gekozen voor een relatief snel model.
De kosten van het gebruik van de Scaleway-modellen zijn nog niet volledig inzichtelijk (ik had geen toegang tot het kostenoverzicht). Dit moeten we nog goed in de gaten houden.

Testen

Zet één of beide feature flags aan:
LLM_BACKGROUND_PREDICTION_ENABLED
LLM_FOREGROUND_PREDICTION_ENABLED
Configureer het model via:
LLM_API_URL
LLM_API_KEY
Maak nieuwe meldingen
Bij background prediction:
Controleer de resultaten in de tabel llm_prediction_prediction.
Verifieer de fallback-logica:
Alleen subcategorieën met omschrijving worden voorspeld.
Onzekere subcategorie → Overig {{ hoofdcategorienaam }}
Onzekere hoofd- en subcategorie → Overig / Overig

…integration

…ctions

…gory updates

bartjkdp · 2025-12-02T09:05:38Z

app/requirements/requirements.txt

@@ -1,5 +1,5 @@
 #
-# This file is autogenerated by pip-compile with Python 3.13
+# This file is autogenerated by pip-compile with Python 3.12


Misschien mooi om dit even te genereren met Python 3.13. Ik stel voor om verder een aparte requirements.txt te maken voor deze module, zoals we dat ook voor classification doen, om conflicten te voorkomen.

Zie bijvoorbeeld:

signalen-backend/Dockerfile

Line 48 in 70e2f53

COPY app/signals/apps/classification/requirements.txt /app/signals/apps/classification/requirements.txt

bartjkdp · 2025-12-02T09:07:26Z

app/signals/apps/classification/views.py

+
    def post(self, request, *args, **kwargs):
        try:
+            if settings.LLM_FOREGROUND_PREDICTION_ENABLED:


Deze kan boven het try blok, toch?

bartjkdp · 2025-12-02T09:16:30Z

app/signals/apps/llm_prediction/services/prediction.py

+                "content": text,
+            },
+        ],
+        model='mistral-small-3.2-24b-instruct-2506',


Het is mooi om hier een instelling van te maken via settings en een environment variabele, dan kunnen we dat makkelijk instellen. Dit mag wel de default zijn.

bartjkdp · 2025-12-02T09:19:23Z

app/signals/apps/llm_prediction/services/prediction.py

+def get_categories_with_description() -> QuerySet[tuple[str, str, str]]:
+    categories = (Category.objects
+        .filter(parent__isnull=False)
+        .filter(~Q(description=""), description__isnull=False)


Misschien kunnen we deze filter op description eraf halen, dat voorkomt dat we impliciet categorieën niet meenemen.

bartjkdp · 2025-12-02T09:23:29Z

app/signals/apps/llm_prediction/services/prediction.py

+def format_categories(categories: QuerySet[tuple[str, str, str]]) -> str:
+    result = []
+    for parent_name, name, description in categories:
+        result.append(f"  - {parent_name} -> {name}: {description}")


Suggested change

result.append(f" - {parent_name} -> {name}: {description}")

result.append(f" - {parent_name} -> {name}: {description or ''}")

bartjkdp

Ziet er heel goed uit, nog een paar kleine wijzigingen voorgesteld.

justiandevs added 5 commits November 25, 2025 11:59

feat: add LLM prediction app with category classification

35ad7fc

feat: remove text field from LlmPrediction model and enhance admin …

e7a0a35

…integration

feat: enable separate toggles for LLM background and foreground predi…

26f94d0

…ctions

feat: add caching for system prompt and signal to clear cache on cate…

bc1561f

…gory updates

feat: update LLM model to mistral-small-3.2-24b-instruct-2506

d339b0d

justiandevs marked this pull request as ready for review November 26, 2025 14:29

bartjkdp self-requested a review December 2, 2025 08:39

bartjkdp reviewed Dec 2, 2025

View reviewed changes

bartjkdp requested changes Dec 2, 2025

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: llm integration #29

feat: llm integration #29

Uh oh!

justiandevs commented Nov 25, 2025 •

edited

Loading

Uh oh!

bartjkdp Dec 2, 2025 •

edited

Loading

Uh oh!

bartjkdp Dec 2, 2025

Uh oh!

bartjkdp Dec 2, 2025

Uh oh!

bartjkdp Dec 2, 2025

Uh oh!

bartjkdp Dec 2, 2025

Uh oh!

bartjkdp left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

	result.append(f" - {parent_name} -> {name}: {description}")
	result.append(f" - {parent_name} -> {name}: {description or ''}")

feat: llm integration #29

Are you sure you want to change the base?

feat: llm integration #29

Uh oh!

Conversation

justiandevs commented Nov 25, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Samenvatting

Functionaliteit

Feature flags

LLM_BACKGROUND_PREDICTION_ENABLED

LLM_FOREGROUND_PREDICTION_ENABLED

Configuratie

Notities

Testen

Uh oh!

bartjkdp Dec 2, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

bartjkdp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

bartjkdp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

bartjkdp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

bartjkdp Dec 2, 2025

Choose a reason for hiding this comment

Uh oh!

bartjkdp left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

justiandevs commented Nov 25, 2025 •

edited

Loading

bartjkdp Dec 2, 2025 •

edited

Loading