Webarchiv.[en] | Konfigurační historie sklizní
Toto úložiště používáme ke sledování změn konfigurací našich crawlerů.
Také zde verzujeme seznamy semínek, která jsme použili pro konkrétní sklizeň.
- Webarchiv.[en] | Konfigurační historie sklizní
Konvence pojmenování souborů vychazí z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název souboru je tvořen pouze kombinací takto definovaných metadatových typů.
Aktuální varianta
[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]
[fileType.prefix]-[dateType.month]-[harvestType.tag]-[harvestFreq].[fileType.fileformat]
[seeds]-[2019-06]-[S]-[[1M]_[2M]_[OneShot]_[ArchiveIt]].[txt]
seeds-2019-06-S-1M_2M_OneShot_ArchiveIt.txt
Aktuální varianta
[fileType.prefix].[fileType.fileformat]
[fileType.prefix]-[harvestType.tag]-[dateType.year].[fileType.fileformat]
crawler-beans.cxml
crawler-beans-S-2020.cxml
Konvence pojmenování adresáře vychází z metadatové specifikace v projektu grainnery vztahující se ke sklizním.
Každý název adresáře je tvořen pouze kombinací takto definovaných metadatových typů.
harvestType a directoryType.suffix ,
spolu s datumovým typem jako volným typem dateType.
[harvestType]-[directoryType.suffix]
Monthly-crawls/
Topic-crawls/
Shared-config/
prefix | mimetype | fileformat | popis |
---|---|---|---|
seeds | text/plain | txt | soubor se seznamem semínek vybraných pro sklizeň |
crawler-beans | text/xml | cxml | soubor s konfigurací crawleru |
suffix | popis |
---|---|
config | adresář se sdílenou konfigurací pro všechny crawlery, blacklist, sheets, atp. |
crawls | adresář konfigurací crawleru a soubory se semínky specifický typ sklizně |
reports | adresář s logy a reporty o samotne sklizni |
Definice data a času.
dateType | format |
---|---|
year | yyyy |
month | yyyy-MM |
day | yyyy-MM-DD |
time | yyyy-MM-DD@hhmmss |
Pokud není zdůrazněno jinak vše platí pro sekci grainery/harvest
Abstrahovaný název sklizně (abstrakce viz níže).
Další informace o metadatovém typu harvestName #v04
Jedná se o kurátorskou definici sklizně, ze které je odvozen seznam semínek odpovídajících zaměření sklizně.
Další informace o metadatovém typu harvestType #v04
harvestType | tag | popis |
---|---|---|
Serials | S | Každoměsíční sklizeň (Kombinace výběrových sklizní s různou roční frekvencí ) |
Topics | T | Speciální tématická výběrová sklizeň. Tato sklizeň se může opakovat několikrát. |
Totals | Celoplošná sklizeň národní domény .cz ve spolupráci s CZ.NIC. Zde bohužel nenajdete semínka ani logy ze sklizní. 1 | |
Tests | Zkušební a testovací sklizně | |
Requests | Vyžádaná sklizeň ve spolupráci s jinou institucí | |
Continuous | Průběžná speciální tématická výběrová sklizeň , sklízí se na denní bázi, |
Jedná se o kurátorský výběr semínek s definovanou frekvencí opakováného sklízení:
Další informace o metadatovém typu harvestFreq #v04
harvestFreq | popis |
---|---|
1M | výběr semenínek, která se mají sklízet každý měsíc |
2M | výběr semenínek, která se mají sklízet každý druhý měsíc |
3M | výběr semenínek, která se mají sklízet každé čtvrtletí |
6M | výběr semenínek, která se mají sklízet každý půlrok |
12M | výběr semenínek, která se mají sklízet jednou do roka |
Archive_IT | výběr nových semenínek, která se mají sklízet jednorázově |
OneShot | mimosystémově ručně přidaná další semínka, která se mají sklízet jednorázově |
Terminologie vztahující se k archivaci webu
Sklizně ve Webarchivu
Celoplošné sklizně
Metadatová specifikace projektu grainery/harvest
Software | Version | Language | Official source of code | Utilization |
---|---|---|---|---|
Heritix | 3.4.0 | Java | https://github.com/internetarchive/heritrix3 | crawler |
Seeder | Python | https://github.com/WebarchivCZ/Seeder.git | web curator tool |
- Vydefinování licence která bude pro repozitář použita
- Aktualizace a revize konfiguračních souborů crawleru pro všechny typy sklizní
- Oveření možností pro vytvoření adresáře pro logy a reporty ze sklizní
- Vytvořit muster formulař pro nahlášení "nevhodného chování" našeho crawleru
- Revize manualu ke skliznim