/python-module/DatasetCrawler/KOLOBEZKYCrawler.py - Diff - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

« Předchozí | Další »

Revize 34cf65cd

Přidáno uživatelem Petr Hlaváč před asi 4 roky(ů)

ID 34cf65cde479a4f9a89ca12aa653b9a21877e0e2
Rodič 04a2b5a4
Potomek 1187e871

Fixed issues found in code documentation

     from Utilities import FolderProcessor
     from Utilities.Crawler import BasicCrawler
     from Utilities.Crawler import BasicCrawlerFunctions
     # Path to crawled data
     CRAWLED_DATA_PATH = "CrawledData/"
-...
         regex = config['regex']
         path_for_files = CRAWLED_DATA_PATH + dataset_name + '/'
         first_level_links = BasicCrawler.get_all_links(url)
         filtered_first_level_links = BasicCrawler.filter_links(first_level_links, "^OD_ZCU")
         absolute_first_level_links = BasicCrawler.create_absolute_links(filtered_first_level_links, url)
         first_level_links = BasicCrawlerFunctions.get_all_links(url)
         filtered_first_level_links = BasicCrawlerFunctions.filter_links(first_level_links, "^OD_ZCU")
         absolute_first_level_links = BasicCrawlerFunctions.create_absolute_links(filtered_first_level_links, url)
         files = []
         for link in absolute_first_level_links:
             second_level_links = BasicCrawler.get_all_links(link)
             filtered_second_level_links = BasicCrawler.filter_links(second_level_links, regex)
             absolute_second_level_links = BasicCrawler.create_absolute_links(filtered_second_level_links, link)
             final_links = BasicCrawler.remove_downloaded_links(absolute_second_level_links, dataset_name)
             second_level_links = BasicCrawlerFunctions.get_all_links(link)
             filtered_second_level_links = BasicCrawlerFunctions.filter_links(second_level_links, regex)
             absolute_second_level_links = BasicCrawlerFunctions.create_absolute_links(filtered_second_level_links, link)
             final_links = BasicCrawlerFunctions.remove_downloaded_links(absolute_second_level_links, dataset_name)
             for file_link in final_links:
                 files.append(file_link)
         for file in files:
             BasicCrawler.download_file_from_url(file, "CrawledData/" + dataset_name + "/", dataset_name)
             BasicCrawlerFunctions.download_file_from_url(file, CRAWLED_DATA_PATH + dataset_name + "/", dataset_name)
         FolderProcessor.unzip_all_csv_zip_files_in_folder("CrawledData/" + dataset_name + "/")
         FolderProcessor.unzip_all_csv_zip_files_in_folder(CRAWLED_DATA_PATH + dataset_name + "/")

Také k dispozici: Unified diff

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Revize 34cf65cd

Přidáno uživatelem Petr Hlaváč před asi 4 roky(ů)