DatasetCrawler » Historie » Revize 3
Revize 2 (Petr Hlaváč, 2020-05-27 08:37) → Revize 3/11 (Petr Hlaváč, 2020-05-27 08:42)
h1. DatasetCrawler Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"_crawler.py*. *"dataset-name"Crawler.py*. Je velmi žádoucí aby crawler pro stažení souboru používal funkci *basic_crawler_functions.download_file_from_url("url_souboru", "jmeno_datasetu")*. h2. Generovaný crawler Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti. <pre> # Path to crawled data CRAWLED_DATA_PATH = "CrawledData/" def crawl(config): """ Implement crawl method that downloads new data to path_for_files For keeping the project structure url , regex, and dataset_name from config You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py Args: config: loaded configuration file of dataset """ dataset_name = config["dataset-name"] url = config['url'] regex = config['regex'] path_for_files = CRAWLED_DATA_PATH + dataset_name + '/' print("You must implements Crawl method first!") </pre>