Skip to content

BibWiss/notebooks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

notebooks

A collection of Jupyter Notebooks.

Dieses Notebook ist im Rahmen der Fortbildungsreihe "Vom Dokument zur Edition" und konkret des Workshops Editionsdaten semantisch anreichern – XML-Parsing und Named Entity Recognition (NER) mit Python im WiSe 2025/26 an der FU Berlin entstanden. Das Notebook thematisiert, wie XML-Dateien mit Python eingelesen sowie der enthaltene Text extrahiert, weiterverarbeitet und ins ursprüngliche XML zurückgeführt werden kann.

Inhalte:

  • XML-Dateien mit ElementTree einlesen, aktualisieren und exportieren
  • pandas DataFrames erstellen und verwenden
  • spaCy NER-Modell laden sowie auf XML-Textknoten und plaintext anwenden
  • Part-of-Speech-Tagging und Normalisierung mit spaCy
  • Sentiment-, Kollokations- und KWIC-Analysen mit NLTK

Beitragende und ihre Rollen anhand der Contributor Role Taxonomy (CRediT) taxonomy

  • Sophie Schneider (@BibWiss): Conceptualization, Software/Writing - Original Draft (Teil 1 & 2), Writing - Review & Editing (Teil 3)
  • Catherine Anne Seveke (@cati-gitling): Conceptualization, Software/Writing - Original Draft (Teil 3)

About

A collection of Jupyter Notebooks.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published