DatasetCrawler » Historie » Revize 4
Revize 3 (Petr Hlaváč, 2020-05-27 08:42) → Revize 4/11 (Petr Hlaváč, 2020-05-27 08:43)
h1. DatasetCrawler
Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"_crawler.py*.
Je velmi žádoucí aby crawler pro stažení souboru používal funkci *basic_crawler_functions.download_file_from_url("url_souboru", "jmeno_datasetu")*.
Ta totiž ukládá do databáze zmínku o tom, které soubory byly již staženy aby nedocházelo k duplicitám nebo zbytečnému stahování.
h2. Generovaný crawler
Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti.
<pre>
# Path to crawled data
CRAWLED_DATA_PATH = "CrawledData/"
def crawl(config):
"""
Implement crawl method that downloads new data to path_for_files
For keeping the project structure
url , regex, and dataset_name from config
You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py
Args:
config: loaded configuration file of dataset
"""
dataset_name = config["dataset-name"]
url = config['url']
regex = config['regex']
path_for_files = CRAWLED_DATA_PATH + dataset_name + '/'
print("You must implements Crawl method first!")
</pre>