/modules/crawler/DatasetCrawler/JIS_crawler.py - Diff - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

« Předchozí | Další »

Revize af7609b5

Přidáno uživatelem Tomáš Ballák před více než 3 roky(ů)

ID af7609b5765d1f4a294ebec7e0997262ae9f057d
Rodič bae2c59a
Potomek 90b74d8f

Re #8193 - refactoring crawler

     from Utilities import folder_processor
     from Utilities.Crawler import basic_crawler_functions
     from shared_types import ConfigType
     # Path to crawled data
     CRAWLED_DATA_PATH = "CrawledData/"
     def crawl(config):
     def crawl(config: ConfigType):
         """
         Implement crawl method that downloads new data to path_for_files
         For keeping the project structure
-...
         path_for_files = CRAWLED_DATA_PATH + dataset_name + '/'
         first_level_links = basic_crawler_functions.get_all_links(url)
         filtered_first_level_links = basic_crawler_functions.filter_links(first_level_links, "^OD_ZCU")
         absolute_first_level_links = basic_crawler_functions.create_absolute_links(filtered_first_level_links, url)
         filtered_first_level_links = basic_crawler_functions.filter_links(
             first_level_links, "^OD_ZCU")
         absolute_first_level_links = basic_crawler_functions.create_absolute_links(
             filtered_first_level_links, url)
         files = []
         for link in absolute_first_level_links:
             second_level_links = basic_crawler_functions.get_all_links(link)
             filtered_second_level_links = basic_crawler_functions.filter_links(second_level_links, regex)
             absolute_second_level_links = basic_crawler_functions.create_absolute_links(filtered_second_level_links, link)
             filtered_second_level_links = basic_crawler_functions.filter_links(
                 second_level_links, regex)
             absolute_second_level_links = basic_crawler_functions.create_absolute_links(
                 filtered_second_level_links, link)
             for file_link in absolute_second_level_links:
                 files.append(file_link)
         files = basic_crawler_functions.remove_downloaded_links(files, dataset_name)
         files = basic_crawler_functions.remove_downloaded_links(
             files, dataset_name)
         for file in files:
             basic_crawler_functions.download_file_from_url(file, dataset_name)

Také k dispozici: Unified diff

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Revize af7609b5

Přidáno uživatelem Tomáš Ballák před více než 3 roky(ů)

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Revize af7609b5

Přidáno uživatelem Tomáš Ballák před více než 3 roky(ů)

Související úkoly