Akce
Správa datasetů » Historie » Revize 1
Revize 1/24
| Další »
Petr Hlaváč, 2020-05-27 07:41
Správa datasetů¶
Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu.
Architektura¶
- CrawledData - Složka určená pro data stažená crawlerem
- CrawlerLogs - Složka určená pro uložení informace o crawlerem stažených souborech a počtu dnů od běhu crawleru zaroveň obsahuje logy běhu aplikace
- DatasetConfigs - Konfigurační soubory datasetů
- DatasetCrawler - Implementace crawlerů k datasetům
- DatasetProcessing - Implementace processorů pro zpracování crawlerem stažených dat.
- ProcessedData - Data zpracovaná pomocí processorů a připravená pro nahrání do DB.
- Utilities - Obsahuje pomocné funkce
- CroneUpdateScript.py - Script určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB.
- ForceUpdateDataset.py - Script určen pro ruční spuštění celého procesu pro jeden konkretní dataset. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
- ForceUpdateDatasets.py - Script určen pro ruční spuštění celého procesu pro všechny datasety.
- Pipeline.py - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů.
- PrepareNewDataset.py - Script určen pro přidání nového datasetu do architektury datascriptu.
- RemoveDataset.py - Script určen pro odstranění datasetu z architektury datascriptu.
- RemoveDatasetDatabase.py - Script určen pro odstranení dat datasetu z databáze.
- ResetDataset.py - Script uvede jeden dataset do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
- ResetDatasets.py - Script uvede všechny datasety do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru
- ResetDatabaseData.py - Script uvede databázi do počátečního stavu
Správa¶
- Přidání datasetu - Návod pro přidání nového datasetu
Aktualizováno uživatelem Petr Hlaváč před téměř 5 roky(ů) · 1 revizí