Správa datasetů » Historie » Verze 1
Petr Hlaváč, 2020-05-27 07:41
1 | 1 | Petr Hlaváč | h1. Správa datasetů |
---|---|---|---|
2 | |||
3 | Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu. |
||
4 | |||
5 | h2. Architektura |
||
6 | |||
7 | * *[[CrawledData]]* - Složka určená pro data stažená crawlerem |
||
8 | * *[[CrawlerLogs]]* - Složka určená pro uložení informace o crawlerem stažených souborech a počtu dnů od běhu crawleru zaroveň obsahuje logy běhu aplikace |
||
9 | * *[[DatasetConfigs]]* - Konfigurační soubory datasetů |
||
10 | * *[[DatasetCrawler]]* - Implementace crawlerů k datasetům |
||
11 | * *[[DatasetProcessing]]* - Implementace processorů pro zpracování crawlerem stažených dat. |
||
12 | * *[[ProcessedData]]* - Data zpracovaná pomocí processorů a připravená pro nahrání do DB. |
||
13 | * *[[Utilities]]* - Obsahuje pomocné funkce |
||
14 | * *CroneUpdateScript.py* - Script určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB. |
||
15 | * *ForceUpdateDataset.py* - Script určen pro ruční spuštění celého procesu pro jeden konkretní dataset. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY |
||
16 | * *ForceUpdateDatasets.py* - Script určen pro ruční spuštění celého procesu pro všechny datasety. |
||
17 | * *Pipeline.py* - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů. |
||
18 | * *PrepareNewDataset.py* - Script určen pro přidání nového datasetu do architektury datascriptu. |
||
19 | * *RemoveDataset.py* - Script určen pro odstranění datasetu z architektury datascriptu. |
||
20 | * *RemoveDatasetDatabase.py* - Script určen pro odstranení dat datasetu z databáze. |
||
21 | * *ResetDataset.py* - Script uvede jeden dataset do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY |
||
22 | * *ResetDatasets.py* - Script uvede všechny datasety do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru |
||
23 | * *ResetDatabaseData.py* - Script uvede databázi do počátečního stavu |
||
24 | |||
25 | h2. Správa |
||
26 | |||
27 | * *[[Přidání datasetu]]* - Návod pro přidání nového datasetu |