Projekt

Obecné

Profil

Akce

Správa datasetů » Historie » Revize 1

Revize 1/24 | Další »
Petr Hlaváč, 2020-05-27 07:41


Správa datasetů

Data script je implementován v Pythonu 3.8.2 jedná se o script, který je spouštěn pomocí Cronu ve večerních hodinách aby stáhl nová data, zpracoval a nahrál je do databáze ve správném formátu.

Architektura

  • CrawledData - Složka určená pro data stažená crawlerem
  • CrawlerLogs - Složka určená pro uložení informace o crawlerem stažených souborech a počtu dnů od běhu crawleru zaroveň obsahuje logy běhu aplikace
  • DatasetConfigs - Konfigurační soubory datasetů
  • DatasetCrawler - Implementace crawlerů k datasetům
  • DatasetProcessing - Implementace processorů pro zpracování crawlerem stažených dat.
  • ProcessedData - Data zpracovaná pomocí processorů a připravená pro nahrání do DB.
  • Utilities - Obsahuje pomocné funkce
  • CroneUpdateScript.py - Script určen pro automatické spouštění Cronem. Pro každý dataset, který má vytvořen konfigurační soubor spustí celý proces stažení,zpracování a nahrání dat do DB.
  • ForceUpdateDataset.py - Script určen pro ruční spuštění celého procesu pro jeden konkretní dataset. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
  • ForceUpdateDatasets.py - Script určen pro ruční spuštění celého procesu pro všechny datasety.
  • Pipeline.py - Spojuje funkčnost jednotlivých částí (crawler, processor, databaseloader) do jedné pipeliny. Funkčnost pipeliny je využita scripty pro update datasetů.
  • PrepareNewDataset.py - Script určen pro přidání nového datasetu do architektury datascriptu.
  • RemoveDataset.py - Script určen pro odstranění datasetu z architektury datascriptu.
  • RemoveDatasetDatabase.py - Script určen pro odstranení dat datasetu z databáze.
  • ResetDataset.py - Script uvede jeden dataset do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru. Po spuštění skript vyzve k zadaní názvu datasetu např. KOLOBĚŽKY
  • ResetDatasets.py - Script uvede všechny datasety do počátečního stavu, zachová pouze konfigurační soubor a impementaci crawleru a processoru
  • ResetDatabaseData.py - Script uvede databázi do počátečního stavu

Správa

Aktualizováno uživatelem Petr Hlaváč před asi 4 roky(ů) · 1 revizí