Revize 4 - Historie - DatasetCrawler - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

DatasetCrawler » Historie » Revize 4

Revize 3 (Petr Hlaváč, 2020-05-27 08:42) → Revize 4/11 (Petr Hlaváč, 2020-05-27 08:43)

h1. DatasetCrawler 

 Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"_crawler.py*. 

 Je velmi žádoucí aby crawler pro stažení souboru používal funkci *basic_crawler_functions.download_file_from_url("url_souboru", "jmeno_datasetu")*. 
 Ta totiž ukládá do databáze zmínku o tom, které soubory byly již staženy aby nedocházelo k duplicitám nebo zbytečnému stahování. 

 h2. Generovaný crawler 

 Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti. 

 <pre> 
 # Path to crawled data 
 CRAWLED_DATA_PATH = "CrawledData/" 


 def crawl(config): 
     """ 
     Implement crawl method that downloads new data to path_for_files 
     For keeping the project structure 
     url , regex, and dataset_name from config 
     You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py 

     Args: 
         config: loaded configuration file of dataset 
     """ 
     dataset_name = config["dataset-name"] 
     url = config['url'] 
     regex = config['regex'] 
     path_for_files = CRAWLED_DATA_PATH + dataset_name + '/' 
     print("You must implements Crawl method first!") 

 </pre>

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

DatasetCrawler » Historie » Revize 4