Verze 19 - Historie - Správa datasetů - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

Správa datasetů » Historie » Verze 19

Petr Hlaváč, 2020-05-27 16:40

-Petr Hlaváč
+h1. Správa datasetů
-Petr Hlaváč
+Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu.
 Petr Hlaváč
 Petr Hlaváč
-Petr Hlaváč
+h2. Správa
 Petr Hlaváč
 * *[[Přidání datasetu]]* - Návod pro přidání nového datasetu
 Petr Hlaváč
-Petr Hlaváč
+Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu.
 h2. Architektura
-Petr Hlaváč
+h3. Adresáře
-Petr Hlaváč
+* *[[CrawledData]]* - Složka určená pro data stažená crawlerem
-Petr Hlaváč
+* *[[CrawlerLogs]]* - Složka určená k ukládání logů aplikace.
-Petr Hlaváč
+* *[[DatasetConfigs]]* - Konfigurační soubory datasetů
 * *[[DatasetCrawler]]* - Implementace crawlerů k datasetům
 * *[[DatasetProcessing]]* - Implementace processorů pro zpracování crawlerem stažených dat.
 * *[[ProcessedData]]* - Data zpracovaná pomocí processorů a připravená pro nahrání do DB.
 * *[[Utilities]]* - Obsahuje pomocné funkce
 Petr Hlaváč
 h3. Skripty
 * *crone_update_script.py* - skript určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB.
-Petr Hlaváč
+* *docker_prepare_structure.py* - vytvoří složky určené pro stažená a zpracovaná data vnich podadresáře pro každý dataset registrovaný v architektuře konfiguračním souborem. Dále vytvoří složku pro logy.
-Petr Hlaváč
+* *force_update_datasets.py* - skript určen pro ruční spuštění updatu vybraného nebo všech datasetů tento skript zároveň kontroluje jestli nenastali v konfiguračním souboru nějaké změny.
 * *fully_clean_database.py* - skript uvede databázi do počátečního stavu (smaže všechny kolekce)
 * *pipeline.py* - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů.
 * *prepare_new_dataset.py* - skript určen pro přidání nového datasetu do architektury.
 * *remove_dataset.py* - skript určen pro odstranění architektury datasetu z databáze.
 * *reset_datasets.py* - skript slouží pro uvedení architektury datasetu do počátečního stavu (smazání zpracovaných dat/stažených dat, odstranění záznamů datasetu z databáze)
 h3. Konfigurační soubory
 crontab - soubor obsahující nastavení pro spuštění crone_update_script.py
 requirements.txt - textový soubor specifikující knihovny potřebné pro spuštění skriptu (knihovny jsou staženy pomocí pipu při buildu docker containeru)
-Petr Hlaváč
+h2. Znázornění architektury
 Petr Hlaváč
-Petr Hlaváč
+Zpracování datasetu se dělí do třech hlavních částí.
 Petr Hlaváč
 # Stažení dat
-Petr Hlaváč
+# Zpracování dat
-Petr Hlaváč
+# Nahrání dat do DB
 !Architektura.png!
 Petr Hlaváč
 h1. Databáze
 Petr Hlaváč
-Petr Hlaváč
+Skript pro správu datasetů vytváří v databázi následující strukturu a kolekce
 Petr Hlaváč
 !DB.png!

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Správa datasetů » Historie » Verze 19