/ - Diff - Aplikace nad otevřenými daty (KIV) – BHVS - Redmine

modules/crawler/DatasetConfigs/JIS.yaml
1	1	# jmeno datasetu, pod kterym bude zobrazen v aplikaci
	2	display-name: Snímače JIS
	3	# jednoslovný název datasetu, pod kterym bude reprezentovana v architektuře
2	4	dataset-name: JIS
3	5	# root slozka, ktera obsahuje odkazy na dataset
4	6	url: https://openstore.zcu.cz/

modules/crawler/DatasetConfigs/KOLOBEZKY.yaml
1	1	# jmeno datasetu, pod kterym bude zobrazen v aplikaci
	2	display-name: Půjčování koloběžek
	3	# jednoslovný název datasetu, pod kterym bude reprezentovana v architektuře
2	4	dataset-name: KOLOBEZKY
3	5	# root slozka, ktera obsahuje odkazy na dataset
4	6	url: https://openstore.zcu.cz/

modules/crawler/DatasetConfigs/WIFI.yaml
1	1	# jmeno datasetu, pod kterym bude zobrazen v aplikaci
	2	display-name: Wi-Fi síť ZČU
	3	# jednoslovný název datasetu, pod kterym bude reprezentovana v architektuře
2	4	dataset-name: WIFI
3	5	# root slozka, ktera obsahuje odkazy na dataset
4	6	url: https://openstore.zcu.cz/

                     date_dict[date] = dict()
                 if name in date_dict[date]:
                     date_dict[date][name].occurrence += int(occurrence)
                     date_dict[date][name].occurrence += max(date_dict[date][name].occurrence,int(occurrence))
                 else:
                     date_dict[date][name] = CSVDataLine.CSVDataLine(name, date, int(occurrence))

         # get all unprocessed files from dataset
         not_loaded_files = FolderProcessor.list_of_all_files(PROCESSED_DATA_PATH + dataset_path)
         database_connection = DatabaseLoader.create_database_connection()
         DatabaseLoader.check_or_update_datasets_collection(database_connection,config)
         DatabaseLoader.update_devices_collection(database_connection,config)
         # load every file
         for not_loaded_file in not_loaded_files:
             #check if file is not in database already if it is skip
             test = DatabaseLoader.check_if_database_doesnt_contain_file(database_connection,dataset_name,not_loaded_file)
             if test == False:
                 logging.info(dataset_name + " could not load " + not_loaded_file + " to database because he is already there.")
                 FolderProcessor.update_ignore_set(PROCESSED_DATA_PATH + dataset_path, not_loaded_file)
                 continue
             # load processed data
             processed_data = DatabaseLoader.get_data_from_file(not_loaded_file, config)
             # load processed data to database
             DatabaseLoader.load_data_to_database(database_connection, dataset_name, processed_data, not_loaded_file)
             FolderProcessor.update_ignore_set(PROCESSED_DATA_PATH + dataset_path, not_loaded_file)
         logging.info(dataset_name + " has loaded to database " + str(len(not_loaded_files)) + " newly processed files.")
     def load_data_to_database_crone(config):
         """
         Goes trough every not loaded file(not contained in ProcessedData/ignore.txt)
         loads data appends coordination from configurations
         and exports it into the database
         After successful exporting updates ignore.txt
         Args:
             config: loaded configuration file of dataset
         """
         dataset_name = config["dataset-name"]
         dataset_path = dataset_name + '/'
         # get all unprocessed files from dataset
         not_loaded_files = FolderProcessor.list_of_all_files(PROCESSED_DATA_PATH + dataset_path)
         database_connection = DatabaseLoader.create_database_connection()
         # load every file
         for not_loaded_file in not_loaded_files:
             # load processed data
             processed_data = DatabaseLoader.get_data_from_file(not_loaded_file, config)
             # load processed data to database
             DatabaseLoader.load_data_to_database(dataset_name, processed_data)
             DatabaseLoader.load_data_to_database(database_connection, dataset_name, processed_data, not_loaded_file)
             FolderProcessor.update_ignore_set(PROCESSED_DATA_PATH + dataset_path, not_loaded_file)
         logging.info(dataset_name + " has loaded to databse " + str(len(not_loaded_files)) + " newly processed files.")
         logging.info(dataset_name + " has loaded to database " + str(len(not_loaded_files)) + " newly processed files.")
     def run_full_pipeline(dataset_name):
-...
             load_data_to_database(config)
     def run_full_pipeline_crone(dataset_name):
         """
         Loads config file and starts full pipeline
-...
             validation_test = validate_process_data(config)
             if validation_test:
                 load_data_to_database(config)
                 load_data_to_database_crone(config)

         with open(CONFIG_FILES_PATH + "/" + dataset_name + ".yaml", "w") as file:
             file.write("# jmeno datasetu, pod kterym bude zobrazen v aplikaci\n")
             file.write("dataset-name: " + dataset_name + "\n")
             file.write("# jednoslovný název datasetu, pod kterym bude reprezentovana v architektuře\n")
             file.write("dataset-name: " + dataset_name + "\n")
             file.write("# root slozka, ktera obsahuje odkazy na dataset\n")
             file.write("url: ZDE VLOZTE URL\n")
             file.write("# volitelny parameter, ktery specifikuje vzor jmrna datasetu, ktera se budou stahovat\n")

     MONGODB_DATA_DATABASE = "open-data-db"
     # mongodb collection with aviable datasets
     MONGODB_DATASET_COLLECTION = "DATASETS"
     # mongodb collection with aviable diveces of datasets
     MONGODB_DATASET_DEVICES_COLLECTION = "DEVICES"
     # mongodb collection with aviable diveces of datasets
     MONGODB_DATASET_LOADED_FILES_COLLECTION = "FILES"
     # Path to processed data
     PROCESSED_DATA_PATH = "ProcessedData/"
-...
             name = csv_column[0]
             if devices[name]["x"] == "SKIP" or devices[name]["y"] == "SKIP":
                 continue
             occurrence = csv_column[1]
             date = csv_column[2]
             database_data_line = DatabaseDataLine.DatabaseDataLine(
-...
         return date_dict
     def load_data_to_database(dataset_name, data_dic):
     def load_data_to_database(database_connection,dataset_name, data_dic, file_name):
         """
         Takes data_dic created in method get_data_from_file
         and loads into into database where collection name is dataset_name + data_dic key
         and data lines are line in collection
         Args:
             dataset_name: name of dataset that has existing configuration file
             database_connection: created connection to a MONGODB
             config: loaded configuration file of dataset
             data_dic: dictionary of data lines created in get_data_from_file
             file_name: name of file containing data
         """
         for date in data_dic:
             dataset_collections = database_connection[dataset_name]
             dataset_collections.insert_one({'name': dataset_name + date})
             date_dataset = database_connection[dataset_name + date]
             date_dataset.insert_many(data_dic[date])
         collection_loaded_files = database_connection[dataset_name + MONGODB_DATASET_LOADED_FILES_COLLECTION]
         collection_loaded_files.insert_one({'file': file_name})
     def check_or_update_datasets_collection(database_connection,config):
         """
         database = create_database_connection()
         Checks if DATASETS collection contains dataset and if display name was not updated
         Args:
             database_connection: created connection to a MONGODB
             config: loaded configuration file of dataset
         """
         # collection where are specified aviable datasets
         collection_datasets = database[MONGODB_DATASET_COLLECTION]
         collection_datasets = database_connection[MONGODB_DATASET_COLLECTION]
         dataset_name = config['dataset-name']
         display_name = config['display-name']
         query = {'key-name': dataset_name}
         # check if newly added data already have a dataset specified in collection
         dataset_present = collection_datasets.find_one({'name': dataset_name})
         dataset_present = collection_datasets.find_one(query)
         if dataset_present is None:
             collection_datasets.insert_one({'name': dataset_name})
             collection_datasets.insert_one({'key-name': dataset_name, 'display-name': display_name})
         elif dataset_present['display-name'] != display_name:
             newvalues = { "$set": { 'display-name': display_name } }
             collection_datasets.update_one(query, newvalues)
         for date in data_dic:
             dataset_collections = database[dataset_name]
             dataset_collections.insert_one({'name': dataset_name + date})
             date_dataset = database[dataset_name + date]
             date_dataset.insert_many(data_dic[date])
     def update_devices_collection(database_connection,config):
         """
         Checks if dataset_name collection contains every device with current set up
         Args:
             database_connection: created connection to a MONGODB
             config: loaded configuration file of dataset
         """
         dataset_name = config['dataset-name']
         collection_devices = database_connection[dataset_name + MONGODB_DATASET_DEVICES_COLLECTION]
         collection_devices.delete_many({})
         devices = config['devices']
         devices_list = list()
         for device in devices.keys():
             if devices[device]['x'] != "SKIP" or devices[device]['y'] != "SKIP":
                 devices_list.append({'name': device , 'x': devices[device]['x'] , 'y': devices[device]['y'] })
         collection_devices.insert_many(devices_list)
     def check_if_database_doesnt_contain_file(database_connection,dataset_name,file_name):
         """
         Checks if dataset_name collection contains every device with current set up
         Args:
             database_connection: created connection to a MONGODB
             filename: checked file name
         """
         collection_loaded_files = database_connection[dataset_name + MONGODB_DATASET_LOADED_FILES_COLLECTION]
         query = {'file': file_name}
         # check if newly added data already have a dataset specified in collection
         dataset_present = collection_loaded_files.find_one(query)
         if dataset_present is None:
             return True
         else:
             return False

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Revize 0a2832fb

Přidáno uživatelem Jakub Vašta před téměř 5 roky(ů)

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2020 » Aplikace nad otevřenými daty (KIV) – BHVS

Revize 0a2832fb

Přidáno uživatelem Jakub Vašta před téměř 5 roky(ů)

Související úkoly