A collection of Jupyter Notebooks.
Dieses Notebook ist im Rahmen der Fortbildungsreihe "Vom Dokument zur Edition" und konkret des Workshops Editionsdaten semantisch anreichern – XML-Parsing und Named Entity Recognition (NER) mit Python im WiSe 2025/26 an der FU Berlin entstanden. Das Notebook thematisiert, wie XML-Dateien mit Python eingelesen sowie der enthaltene Text extrahiert, weiterverarbeitet und ins ursprüngliche XML zurückgeführt werden kann.
- XML-Dateien mit ElementTree einlesen, aktualisieren und exportieren
- pandas DataFrames erstellen und verwenden
- spaCy NER-Modell laden sowie auf XML-Textknoten und plaintext anwenden
- Part-of-Speech-Tagging und Normalisierung mit spaCy
- Sentiment-, Kollokations- und KWIC-Analysen mit NLTK
Beitragende und ihre Rollen anhand der Contributor Role Taxonomy (CRediT) taxonomy
- Sophie Schneider (@BibWiss): Conceptualization, Software/Writing - Original Draft (Teil 1 & 2), Writing - Review & Editing (Teil 3)
- Catherine Anne Seveke (@cati-gitling): Conceptualization, Software/Writing - Original Draft (Teil 3)