Verze 1 - Historie - DatasetCrawler - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

DatasetCrawler » Historie » Verze 1

Petr Hlaváč, 2020-05-05 08:59

-Petr Hlaváč
+h1. DatasetCrawler
 Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"Crawler.py*.
 Je velmi žádoucí aby crawler pro stažení souboru používal funkci *BasicCrawlerFunctions.download_file_from_url("url_souboru", "jmeno_datasetu")*.
 h2. Generovaný crawler
 Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti.
 <pre>
 # Path to crawled data
 CRAWLED_DATA_PATH = "CrawledData/"
 def crawl(config):
     """
     Implement crawl method that downloads new data to path_for_files
     For keeping the project structure
     url , regex, and dataset_name from config
     You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py
     Args:
         config: loaded configuration file of dataset
     """
     dataset_name = config["dataset-name"]
     url = config['url']
     regex = config['regex']
     path_for_files = CRAWLED_DATA_PATH + dataset_name + '/'
     print("You must implements Crawl method first!")
 </pre>