Skip to content

Sprakbanken/sentimentanalyse

Repository files navigation

sentimentanalyse

Utvikling av sentimentanalyse for DH-laben.

Binder Prøv koden selv!

Sentimentanalyse på aviser med gitte nøkkelord

  • FIL: jupyter notebook sentiment_analysis_timeseries.ipynb
  • INNDATA: nøkkelord word
  • PROSESS:
    • Hent aviskorpus fra 2000-2022 der en form av lemmaet til nøkkelordet forekommer.
    • Tell antall forekomster av nøkkelordet per URN.
    • Beregn sentimentscore for hver forekomst av nøkkelordet.
    • Plott et grafdiagram med sentimentscore over tid.
    • Legg til nb.no-URLer for hvert dokument i korpuset.
    • Formater filnavn og skriv til CSV-fil
  • UTDATA: CSV-fil sentimentanalyse_aviskorpus_<FRA ÅR>-<TIL ÅR>_<DAGENS DATO>.csv, se eksempel.

OBS! Hvis du kjører notebooken i Binder, må du selv laste ned CSV-filen etter at den er skrevet:

hvordan_laste_ned_utdata_csv_fil

Kildekode

  • FIL: modulen sentiment.py inneholder funksjonene som brukes i notebooken. Den innholder også hjelpefunksjoner som kan være nyttige i dhlab-pakken forøvrig.
  • funksjon count_and_score_target_words:
  • INNDATA: korpus (URN-liste) + nøkkelord
  • PROSESS:
  • UTDATA: dataramme med informasjon som angitt i tabellen.

Utdata

Kolonne Beskrivelse
dhlabid DH-labens ID-nummer for det digitale tekstobjektet (OCR-scannet tekst) i databasene
urn Unique Resource Name (digitalt bilde av tekstdokumentet, tilgjengelig i nettbiblioteket)
title Avistittel, navn på publikasjon1
city Publiseringssted (oftest en by)
timestamp datostempel i ISO-format (YYYYMMDD)
year årstall for publikasjonen
doctype Dokumenttype (her er det bare aviser, "digavis")
word nøkkelord i tekstutdragene (konkordansene) som sentimentanalysen ble utført på
count ordfrekvens: antall ganger nøkkelordet forekommer i den gitte avisutgivelsen
positive antall positive ord i kontekstene nøkkelordet forekommer i
negative antall negative ord i kontekstene
sentimentscore differansen positiv score - negativ score
url lenke til avisen i nettbiblioteket, inkl. søk på nøkkelordet

Footnotes

  1. OBS! små bokstaver, ingen spesialtegn (æøå), ingen mellomrom i hver tittel.

About

Utvikling av sentimentanalyse for DH-laben

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published