Einsatz von Word Embedding-Algorithmen in Business Anwendungen Aufgabe: Unter Verwendung existierender Python-Bibliotheken (Gensim, etc) Erstellung eines Screening-Algorithmus: Nutzen europäischer Sanktionslisten als Corpus, um einen gegebenen Business Partner (d.h. Namen- und Adress-Information) "fuzzy" zu identifizieren oder zu "entlasten". Entwicklung von Qualitätskennzahlen und gegebenenfalls eines UIs
Hosting des UI mittels Streamlit. Das Frontend ist verfügbar unter folgender URL beziehungsweise QR-Code.
- Eingabe von Namen (Personene, Entitäten oder Gruppen) -> Unscharfe beziehungsweise fehlertolerate Suchmaschine (Fuzzy)
- Ergebnisausgabe: Namen mit der höchsten Ähnlichkeit und zugehöriger Score
- FrontEnd (UI) für die Eingabe und Darstellung der Ergebnisse
- Darstellung der relevanten Kennzahlen bzw. Güte
- extrinsisch
- wie gut funktioniert ein anderes modell?
- wie gut funktioniert die klassifikiation
- intrinsisch
- wort vektoren anschauen, wie gut sind die?
- mit menschlichen dictionaries vergleichen ob der vektor genau die gleiche ähnlichkeit ausssagt!
- extrinsisch
- "Fuzzy" Suchmaschine für finanzsankionierte Personen, Entitäten und Gruppen
- Bereinigung der Daten mittels NER
- Word Embedding (Word2vec) und Vektorbasierte Vergleichsmethoden aufgrund der fehlenden Daten (Volltext) ausgeschlossen
- Ausgabe mittels verschiedener Vergleichsmethoden
- Ausgabe Personen-, Entitäten- bzw. Gruppenbezogenen Informationen
-
https://towardsdatascience.com/fuzzy-string-matching-in-python-68f240d910fe
-
https://www.activestate.com/blog/how-to-implement-fuzzy-matching-in-python/
-
https://www.rosette.com/blog/word-embeddings-for-fuzzy-matching-of-organization-names/
A Fuzzy Approach to Approximate String Matching for Text Retrieval in NLP:
Fuzzy matching entities in a custom entity dictionary
- PyPDF2
- theFuzz
- spacy
- gensim
- https://towardsdatascience.com/word-embeddings-exploration-explanation-and-exploitation-with-code-in-python-5dac99d5d795 Gensim_Word2Vec_Tutorial
- https://www.kaggle.com/code/pierremegret/gensim-word2vec-tutorial
- Categories of Sanctions
- Country separation
- Male / Female