DatasetCrawler » Historie » Verze 3
Petr Hlaváč, 2020-05-27 08:42
1 | 1 | Petr Hlaváč | h1. DatasetCrawler |
---|---|---|---|
2 | |||
3 | 3 | Petr Hlaváč | Složka obsahuje implementace crawleru pro jednotlivé datasety. Crawlery jsou dynamicky importovány je tedy proto nutné dodržet pojemnování *"dataset-name"_crawler.py*. |
4 | 1 | Petr Hlaváč | |
5 | 2 | Petr Hlaváč | Je velmi žádoucí aby crawler pro stažení souboru používal funkci *basic_crawler_functions.download_file_from_url("url_souboru", "jmeno_datasetu")*. |
6 | 1 | Petr Hlaváč | |
7 | h2. Generovaný crawler |
||
8 | |||
9 | Při použití skriptu *PrepareNewDataset.py* vznikne následující kostra pro doplnění funkčnosti. |
||
10 | |||
11 | <pre> |
||
12 | # Path to crawled data |
||
13 | CRAWLED_DATA_PATH = "CrawledData/" |
||
14 | |||
15 | |||
16 | def crawl(config): |
||
17 | """ |
||
18 | Implement crawl method that downloads new data to path_for_files |
||
19 | For keeping the project structure |
||
20 | url , regex, and dataset_name from config |
||
21 | You can use already implemented functions from Utilities/Crawler/BasicCrawlerFunctions.py |
||
22 | |||
23 | Args: |
||
24 | config: loaded configuration file of dataset |
||
25 | """ |
||
26 | dataset_name = config["dataset-name"] |
||
27 | url = config['url'] |
||
28 | regex = config['regex'] |
||
29 | path_for_files = CRAWLED_DATA_PATH + dataset_name + '/' |
||
30 | print("You must implements Crawl method first!") |
||
31 | |||
32 | </pre> |