Skip to content

Fuzzy search prototyp for Consolidated EU Financial Sanctions List

Notifications You must be signed in to change notification settings

j0si/fuzzy_sanctions

Repository files navigation

Fuzzy_sanctions

Einsatz von Word Embedding-Algorithmen in Business Anwendungen Aufgabe: Unter Verwendung existierender Python-Bibliotheken (Gensim, etc) Erstellung eines Screening-Algorithmus: Nutzen europäischer Sanktionslisten als Corpus, um einen gegebenen Business Partner (d.h. Namen- und Adress-Information) "fuzzy" zu identifizieren oder zu "entlasten". Entwicklung von Qualitätskennzahlen und gegebenenfalls eines UIs


Fuzzy Sanctions Frontent (UI)

Hosting des UI mittels Streamlit. Das Frontend ist verfügbar unter folgender URL beziehungsweise QR-Code.

Alt text

Bereich: Natural Language Processing

Zieldefinition

  • Eingabe von Namen (Personene, Entitäten oder Gruppen) -> Unscharfe beziehungsweise fehlertolerate Suchmaschine (Fuzzy)
  • Ergebnisausgabe: Namen mit der höchsten Ähnlichkeit und zugehöriger Score
  • FrontEnd (UI) für die Eingabe und Darstellung der Ergebnisse
  • Darstellung der relevanten Kennzahlen bzw. Güte
    1. extrinsisch
      • wie gut funktioniert ein anderes modell?
      • wie gut funktioniert die klassifikiation
    2. intrinsisch
      • wort vektoren anschauen, wie gut sind die?
      • mit menschlichen dictionaries vergleichen ob der vektor genau die gleiche ähnlichkeit ausssagt!

Ergebnis

  • "Fuzzy" Suchmaschine für finanzsankionierte Personen, Entitäten und Gruppen
  • Bereinigung der Daten mittels NER
  • Word Embedding (Word2vec) und Vektorbasierte Vergleichsmethoden aufgrund der fehlenden Daten (Volltext) ausgeschlossen
  • Ausgabe mittels verschiedener Vergleichsmethoden
  • Ausgabe Personen-, Entitäten- bzw. Gruppenbezogenen Informationen

erster Research (tieferes Literaturverzeichnis in schriftlicher Ausarbeitung)

A Fuzzy Approach to Approximate String Matching for Text Retrieval in NLP:

Fuzzy matching entities in a custom entity dictionary

Datenzugriff

Tutorials

Packages

  • PyPDF2
  • theFuzz
  • spacy
  • gensim

Pretrained NER tagger

word embeddings

additional ideas

  • Categories of Sanctions
  • Country separation
  • Male / Female

About

Fuzzy search prototyp for Consolidated EU Financial Sanctions List

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •