Správa datasetů » Historie » Revize 4
Revize 3 (Petr Hlaváč, 2020-05-27 08:12) → Revize 4/24 (Petr Hlaváč, 2020-05-27 08:13)
h1. Správa datasetů Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu. h2. Architektura h3. Adresáře * *[[CrawledData]]* - Složka určená pro data stažená crawlerem * *[[CrawlerLogs]]* - Složka určená k ukládání logů aplikace. pro uložení informace o crawlerem stažených souborech a počtu dnů od běhu crawleru zaroveň obsahuje logy běhu aplikace * *[[DatasetConfigs]]* - Konfigurační soubory datasetů * *[[DatasetCrawler]]* - Implementace crawlerů k datasetům * *[[DatasetProcessing]]* - Implementace processorů pro zpracování crawlerem stažených dat. * *[[ProcessedData]]* - Data zpracovaná pomocí processorů a připravená pro nahrání do DB. * *[[Utilities]]* - Obsahuje pomocné funkce h3. Skripty * *crone_update_script.py* - skript určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB. * *docker_prepare_structure.py* - vytvoří složky určené pro stažená a zpracovaná data vnich podadresáře pro každý dataset registrovaný v architektuře konfiguračním souborem. Dále vytvoří složku pro logy. * *force_update_datasets.py* - skript určen pro ruční spuštění updatu vybraného nebo všech datasetů tento skript zároveň kontroluje jestli nenastali v konfiguračním souboru nějaké změny. * *fully_clean_database.py* - skript uvede databázi do počátečního stavu (smaže všechny kolekce) * *pipeline.py* - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů. * *prepare_new_dataset.py* - skript určen pro přidání nového datasetu do architektury. * *remove_dataset.py* - skript určen pro odstranění architektury datasetu z databáze. * *reset_datasets.py* - skript slouží pro uvedení architektury datasetu do počátečního stavu (smazání zpracovaných dat/stažených dat, odstranění záznamů datasetu z databáze) h3. Konfigurační soubory crontab - soubor obsahující nastavení pro spuštění crone_update_script.py requirements.txt - textový soubor specifikující knihovny potřebné pro spuštění skriptu (knihovny jsou staženy pomocí pipu při buildu docker containeru) h2. Správa * *[[Přidání datasetu]]* - Návod pro přidání nového datasetu