Revize 10 - Historie - Popis struktury DB - Databáze slov a jejich tvarů (KČJ FPE) - Mr. Proper - Redmine

Popis struktury DB » Historie » Revize 10

Revize 9 (Ondřej Drtina, 2021-03-25 17:31) → Revize 10/24 (Ondřej Drtina, 2021-03-26 09:23)

h1. Úvod 

 Zadavatelem byly dodány dvě databáze, jejichž struktura je shodná. Tedy shodují se názvy i počet tabulek, rovněž jsou shodné stejné i typy atributů, atributy, kterými dané tabulky disponují. Popis je tedy validní pro obě dodané databáze. 

 h1. Dostupné tabulky 

 V podkapitolách je uveden obecný rámcový popis dat, jež obsahuje tabulka s odpovídajícím názvem. 

 h2. dd_wordform 

 Uvedenou tabulku lze považovat za výchozí bod pro zobrazení dat uživateli. Obsahuje slovní tvar, datum vytvoření záznamu a poznámky přiřazené k jednotlivým záznamům vytvořené zadavatelkami. uživatelkami. Rovněž se v tabulce nachází cizí klíče, které zajistí přiřazení lemmatu a morfologické charakteristiky k příslušnému slovnímu tvaru. 

 h2. dd_lemma 

 Obsahuje slova Slovo v základním tvaru. 

 h2. dd_tag 

 Obsahuje morfologickou charakteristiku pro slovní tvary. Charakteristika je v kódovém označení, které je blíže popsáno v kapitole pojednávající o atributech přítomných v tabulkách. tvary (TODO: získat více info od zadavatele ; není náš field of study). 

 h2. dd_manuscript 

 Jedná se o spojovací tabulku vyjadřující relaci M:N zajišťující 1:N. Zajišťuje přiřazení textového pramenu dokumentu k slovnímu tvaru. Jeden slovní tvar se může nacházet ve více pramenech a zároveň jeden pramen může obsahovat více slovních tvarů. Seznam pramenů je dostupný v kapitole popisující atributy. dokumentech. 

 h1. Atributy tabulek 

 Předmětem kapitoly je detailní popis atributů a jejich významu v dané tabulce. V seznamu atributů není uvedena položka "id", kterou obsahují všechny uvedené tabulky vyjma "dd_manuscript", jelikož její význam je shodný napříč tabulkami. Atribut "id" je hodnotou, která je pro každou položku tabulky odlišná. Id je inkrementováno obvyklým způsobem, tedy pokud má poslední vložený záznam id n, nově vložený záznam bude mít n + 1. 

 Pokud je u atributu uveden příklad, pak se vztahuje ke slovnímu tvaru "žehnává" ("id"=26228 v tabulce "dd_wordform"). 

 h2. dd_wordform 

 h3. context 

 //TODO: předložka? 

 h3. date 

 Datum vytvoření příslušného záznamu ve formátu rrrr-mm-dd, kde r = rok, m = měsíc, d = den. Položky mají rovněž přiřazený i čas, který však zřejmě nikdy nebyl zadán - u všech položek je tedy 00:00:00. 

 h3. description1 

 //TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka1". 

 h3. description2 

 //TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka2". 

 h3. description3 

 //TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka3". 

 h3. ending 

 Koncovka příslušného slovního tvaru. Příklad: když word = "Albrechta", pak ending = "a". 

 h3. finished 

 Vyjadřuje, zda již bylo zpracování daného slovního tvaru zcela dokončeno či nikoliv. Atribut tak nabývá hodnoty "true", respektive "false". 

 h3. namedentity 

 //TODO: líp spec. Význam atributu neznámý, není vyobrazen v dodaném SW. V první dodané databázi nabývá hodnot 0 a 1, v druhé databázi nabývá pouze hodnoty 0. 

 h3. position1 

 Číslo kapitoly v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" před lomítkem. 

 h3. position2 

 Číslo verše v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" za lomítkem. 

 h3. positiondetail 

 //TODO: zeptat se, netuším. V dodaném SW není umožněno zobrazení hodnoty daného atributu. 

 h3. prefix 

 Atribut vyjadřuje předponu slova. V první databázi u menšiny položek má přidělenou hodnotu, v druhé databázi není hodnota dostupná u žádné z položek. Dodaný SW neumožňuje zobrazit hodnotu daného atributu. 

 h3. suffix 

 Jedná se o příponu slovního tvaru. V první databázi má atribut přidělenou hodnotu u menšiny položek, v druhé databázi není danému atributu přidělena hodnota u žádné položky. Dodaný SW neumožňuje zobrazit hodnotu daného atributu. 

 h3. word 

 Samotný slovní tvar, ke kterému je vázán zbytek popsaných atributů. 

 h3. lemma_id 

 Cizí klíč, odkaz do tabulky dd_lemma. Pro vyhledání odpovídajícího lemmatu ke slovnímu tvaru je potřeba vyhledat hodnotu atributu "lemma_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_lemma". 

 h3. tag_id 

 Cizí klíč, odkaz do tabulky dd_tag. Pro přiřazení odpovídající morfologické charakteristiky ke slovnímu tvaru je potřeba najít hodnotu atributu "tag_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_tag". 

 h2. dd_lemma 

 h3. lemma 

 Slovo v základním tvaru, maximálně 50 znaků. 

 h3. pos 

 //TODO: zeptat se, netuším. Charakterizuje pozici lemmatu v textu. Jedno lemma se může vyskytovat na různých pozicích, tedy mít různou hodnotu atributu "pos". 

 h2. dd_tag 

 h3. tag 

 //TODO: zeptat se na zkratky.. Morfologická charakteristika slova, kódově označena. 

 h2. dd_manuscript 

 h3. wordform_id 

 Hodnota tohoto atributu se vždy vyskytuje ve sloupci "id" v tabulce "dd_wordform". 

 h3. manuscript 

 Číslo textového pramenu, ve kterém se slovní tvar nachází. Prameny jsou číslovány od 0, celkově jich je 16. Atribut tedy v dodané DB nabývá hodnot 0-15, kde číslo označuje: 
 > 0 - rukopis Vídeňský 
 > 1 - zlomky Hanušovy 
 > 2 - zlomky Hradecké 
 > 3 - rukopis Cambridžský 
 > 4 - rukopis Františkánský 
 > 5 - zlomek Olomoucký 
 > 6 - fragment Strahovský 
 > 7 - zlomky Klementinsko-Křižovnické 
 > 8 - zlomky Mnichovské 
 > 9 - rukopis Lobkovický 
 > 10 - rukopis Pelclův 
 > 11 - rukopis Cerronský 
 > 12 - rukopis Fürstenberský 
 > 13 - rukopis Zebererův 
 > 14 - vydání Pavla Ješína z Bezdězi, Praha 1620 
 > 15 - básně připsané při Pulkavově kronice v rukopisu Litoměřickém

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2021 » Databáze slov a jejich tvarů (KČJ FPE) - Mr. Proper

Popis struktury DB » Historie » Revize 10