Projekt

Obecné

Profil

Správa datasetů » Historie » Verze 1

Petr Hlaváč, 2020-05-27 07:41

1 1 Petr Hlaváč
h1. Správa datasetů
2
3
Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu.
4
5
h2. Architektura 
6
7
* *[[CrawledData]]* - Složka určená pro data stažená crawlerem
8
* *[[CrawlerLogs]]* - Složka určená pro uložení informace o crawlerem stažených souborech a počtu dnů od běhu crawleru zaroveň obsahuje logy běhu aplikace
9
* *[[DatasetConfigs]]* - Konfigurační soubory datasetů
10
* *[[DatasetCrawler]]* - Implementace crawlerů k datasetům
11
* *[[DatasetProcessing]]* - Implementace processorů pro zpracování crawlerem stažených dat.
12
* *[[ProcessedData]]* - Data zpracovaná pomocí processorů a připravená pro nahrání do DB.
13
* *[[Utilities]]* - Obsahuje pomocné funkce
14
* *CroneUpdateScript.py* - Script určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB.
15
* *ForceUpdateDataset.py* - Script určen pro ruční spuštění celého procesu pro jeden konkretní dataset. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
16
* *ForceUpdateDatasets.py* - Script určen pro ruční spuštění celého procesu pro všechny datasety.
17
* *Pipeline.py* - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů.
18
* *PrepareNewDataset.py* - Script určen pro přidání nového datasetu do architektury datascriptu.
19
* *RemoveDataset.py* - Script určen pro odstranění datasetu z architektury datascriptu.
20
* *RemoveDatasetDatabase.py* - Script určen pro odstranení dat datasetu z databáze.
21
* *ResetDataset.py* - Script uvede jeden dataset do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
22
* *ResetDatasets.py* - Script uvede všechny datasety do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru
23
* *ResetDatabaseData.py* - Script uvede databázi do počátečního stavu
24
25
h2. Správa
26
27
* *[[Přidání datasetu]]* - Návod pro přidání nového datasetu