Projekt

Obecné

Profil

DatasetCrawler » Historie » Verze 1

Petr Hlaváč, 2020-05-05 08:59

1 1 Petr Hlaváč
h1. DatasetCrawler
2
3
Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"Crawler.py*.
4
5
Je velmi žádoucí aby crawler pro stažení souboru používal funkci *BasicCrawlerFunctions.download_file_from_url("url_souboru", "jmeno_datasetu")*.
6
7
h2. Generovaný crawler
8
9
Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti.
10
11
<pre>
12
# Path to crawled data
13
CRAWLED_DATA_PATH = "CrawledData/"
14
15
16
def crawl(config):
17
    """
18
    Implement crawl method that downloads new data to path_for_files
19
    For keeping the project structure
20
    url , regex, and dataset_name from config
21
    You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py
22
23
    Args:
24
        config: loaded configuration file of dataset
25
    """
26
    dataset_name = config["dataset-name"]
27
    url = config['url']
28
    regex = config['regex']
29
    path_for_files = CRAWLED_DATA_PATH + dataset_name + '/'
30
    print("You must implements Crawl method first!")
31
32
</pre>