Verze 20 - Historie - Popis struktury DB - Databáze slov a jejich tvarů (KČJ FPE) - Mr. Proper - Redmine

Popis struktury DB » Historie » Verze 20

Ondřej Drtina, 2021-03-27 13:40

-Ondřej Drtina
+h1. Úvod
 Ondřej Drtina
-Ondřej Drtina
+Zadavatelem byly dodány dvě databáze, jejichž struktura je shodná. Tedy shodují se názvy i počet tabulek, rovněž jsou shodné i typy atributů, kterými dané tabulky disponují. Popis je tedy validní pro obě dodané databáze.
 Ondřej Drtina
-Ondřej Drtina
+h1. Dostupné tabulky
 Ondřej Drtina
-Ondřej Drtina
+V podkapitolách je uveden obecný popis dat, jež obsahuje tabulka s odpovídajícím názvem.
 Ondřej Drtina
 h2. dd_wordform
-Ondřej Drtina
+Uvedenou tabulku lze považovat za výchozí bod pro zobrazení dat uživateli. Obsahuje slovní tvar, datum vytvoření záznamu a poznámky přiřazené k jednotlivým záznamům vytvořené zadavatelkami. Rovněž se v tabulce nachází cizí klíče, které zajistí přiřazení lemmatu a morfologické charakteristiky k příslušnému slovnímu tvaru.
 Ondřej Drtina
-Ondřej Drtina
+h2. dd_lemma
 Ondřej Drtina
-Ondřej Drtina
+Obsahuje slova v základním tvaru.
 Ondřej Drtina
-Ondřej Drtina
+h2. dd_tag
 Ondřej Drtina
-Ondřej Drtina
+Obsahuje morfologickou charakteristiku pro slovní tvary. Charakteristika je v kódovém označení, které je blíže popsáno v kapitole pojednávající o atributech přítomných v tabulkách.
 Ondřej Drtina
 h2. dd_manuscript
 Ondřej Drtina
-Ondřej Drtina
+Jedná se o spojovací tabulku vyjadřující relaci M:N zajišťující přiřazení textového pramenu k slovnímu tvaru. Jeden slovní tvar se může nacházet ve více pramenech a zároveň jeden pramen může obsahovat více slovních tvarů. Seznam pramenů je dostupný v kapitole popisující atributy.
 Ondřej Drtina
-Ondřej Drtina
+h1. Atributy tabulek
-Ondřej Drtina
+Předmětem kapitoly je detailní popis atributů a jejich významu v dané tabulce. V seznamu atributů není uvedena položka "id", kterou obsahují všechny uvedené tabulky vyjma "dd_manuscript", jelikož její význam je shodný napříč tabulkami. Atribut "id" je hodnotou, která je pro každou položku tabulky odlišná. Hodnota "id" je inkrementována obvyklým způsobem, tedy pokud má poslední vložený záznam "id" n, nově vložený záznam bude mít "id" n + 1.
 Ondřej Drtina
-Ondřej Drtina
+Pokud je u atributu uveden příklad, pak se vztahuje k druhé dodané databázi.
 Ondřej Drtina
 h2. dd_wordform
 Ondřej Drtina
-Ondřej Drtina
+h3. context
-Ondřej Drtina
+Typ atributu: character varying (20)
 Ondřej Drtina
-Ondřej Drtina
+Předložka slovního tvaru (pokud je tedy vůbec zadáno). - OK
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "jeho" ("id" = 33279) je předložka "okolo".
-Ondřej Drtina
+h3. date
-Ondřej Drtina
+Typ atributu: timestamp without time zone
 Ondřej Drtina
-Ondřej Drtina
+Datum vytvoření příslušného záznamu ve formátu rrrr-mm-dd, kde r = rok, m = měsíc, d = den. Položky mají rovněž přiřazený i čas, který však zřejmě nikdy nebyl zadán (KOUKNOUT SE) - u všech položek je tedy 00:00:00.
 Ondřej Drtina
-Ondřej Drtina
+Příklad: Datum a čas vytvoření slovního tvaru "jeho" ("id" = 33279) je "2017-09-19 00:00:00".
-Ondřej Drtina
+h3. description
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (250)
 Ondřej Drtina
-Ondřej Drtina
+Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka1". Při reprezentaci dat uživateli má být obsah daného atributu zobrazen za dokladem, tedy za obsahem atributu "word".
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "(sic)".
-Ondřej Drtina
+h3. description2
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (250)
 Ondřej Drtina
-Ondřej Drtina
+Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka2". Obsah prvního řádku daného atributu (před "\n") má být zobrazen u lemmatu. Na druhé řádce v případě sloves uvedeno, s čím se mohou pojit ; případně označení pro jméno místní. //TODO: v dodaném sw se nezdá, že by to bylo nějak respektováno a ani, že by byl popisek jednotný. Tohle zkusíme dořešit při zobrazení dat uživateli
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "po čem".
-Ondřej Drtina
+h3. description3
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (250)
 Ondřej Drtina
-Ondřej Drtina
+Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka3". Pokud je hodnota atributu přítomna, pak se ve většině případů jedná o předložku (hodnotu atributu context) spojenou s konkrétním slovním tvarem (hodnotou atributu word). //TODO: zadavatelky uznaly, že toto nemají jednotné, domluvíme se, jestli budou chtít zobrazit nějak jinak než prosté "poznámka3". Příklad zadavatelek: V království - context: v, word: království, pozn3 => v království
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "E.P. dopl. vazba".
-Ondřej Drtina
+h3. ending
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (10)
 Ondřej Drtina
 Koncovka příslušného slovního tvaru. Příklad: když word = "Albrechta", pak ending = "a".
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu "ch".
-Ondřej Drtina
+h3. finished
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: boolean
 Ondřej Drtina
 Vyjadřuje, zda již bylo zpracování daného slovního tvaru zcela dokončeno či nikoliv. Atribut tak nabývá hodnoty "true", respektive "false".
-Ondřej Drtina
+Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu true.
 Ondřej Drtina
 h3. namedentity
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: integer
 Ondřej Drtina
-Ondřej Drtina
+Určuje, zda je slovní tvar vlastním jménem či nikoli. V první dodané databázi nabývá hodnot 0 a 1, v druhé databázi nabývá pouze hodnoty 0. První databáze tedy obsahuje i vlastní jména (hodnota atr. 1), druhá nikoli. V dodaném SW zobrazeno jako "vlastní jméno", resp. "ostatní".
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 0.
-Ondřej Drtina
+h3. position1
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (10)
 Ondřej Drtina
 Číslo kapitoly v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" před lomítkem.
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 39.
-Ondřej Drtina
+h3. position2
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (10)
 Ondřej Drtina
 Číslo verše v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" za lomítkem.
 Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 64.
 Ondřej Drtina
-Ondřej Drtina
+h3. positiondetail
 Typ atributu: character varying (10)
-Ondřej Drtina
+Jedná se o přípisky písaře k danému slovnímu tvaru.
-Ondřej Drtina
+Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu "P1".
 Ondřej Drtina
-Ondřej Drtina
+h3. prefix
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (10)
-Ondřej Drtina
+Atribut vyjadřuje předponu slova. V první databázi u menšiny položek má přidělenou hodnotu, v druhé databázi není hodnota dostupná u žádné z položek. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
 Ondřej Drtina
-Ondřej Drtina
+h3. suffix
-Ondřej Drtina
+Typ atributu: character varying (10)
-Ondřej Drtina
+Jedná se o příponu slovního tvaru. V první databázi má atribut přidělenou hodnotu u menšiny položek, v druhé databázi není danému atributu přidělena hodnota u žádné položky. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
-Ondřej Drtina
+h3. word
-Ondřej Drtina
+Typ atributu: character varying (50)
-Ondřej Drtina
+Samotný slovní tvar, ke kterému je vázán zbytek popsaných atributů.
-Ondřej Drtina
+Příklad: Slovního tvaru "poslachu" ("id" = 45).
-Ondřej Drtina
+h3. lemma_id
-Ondřej Drtina
+Typ atributu: bigint
-Ondřej Drtina
+Cizí klíč, odkaz do tabulky dd_lemma. Pro vyhledání odpovídajícího lemmatu ke slovnímu tvaru je potřeba vyhledat hodnotu atributu "lemma_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_lemma".
-Ondřej Drtina
+Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 8.
-Ondřej Drtina
+h3. tag_id
-Ondřej Drtina
+Typ atributu: bigint
-Ondřej Drtina
+Cizí klíč, odkaz do tabulky dd_tag. Pro přiřazení odpovídající morfologické charakteristiky ke slovnímu tvaru je potřeba najít hodnotu atributu "tag_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_tag".
-Ondřej Drtina
+Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 6.
-Ondřej Drtina
+h2. dd_lemma
 Ondřej Drtina
-Ondřej Drtina
+h3. lemma
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: character varying (50)
-Ondřej Drtina
+Slovo v základním tvaru, maximálně 50 znaků.
-Ondřej Drtina
+Příklad: V případě, že hledáme lemma slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => lemma "poslati".
-Ondřej Drtina
+h3. pos
-Ondřej Drtina
+Typ atributu: integer
-Ondřej Drtina
+Jedná se o číselné označení pro slovní druh, kdy číslo značí:
 > 0 = podstatné jméno
 > 1 = přídavné jméno
 > 2 = zájmeno
 > 3 = číslovka
 > 4 = sloveso
 > 5 = příslovce
 > 6 = předložka
 > 7 = spojka
 > 8 = citoslovce
 > 9 = částice
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě, že hledáme hodnotu "pos" slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => "pos" = 4 (sloveso).
 Ondřej Drtina
-Ondřej Drtina
+h2. dd_tag
 Ondřej Drtina
-Ondřej Drtina
+h3. tag
 Typ atributu: character varying (20)
 Ondřej Drtina
-Ondřej Drtina
+Morfologická charakteristika slova, kódově označena. V první dodané DB je charakteristika definována 6 či 7 symboly, ve druhé DB pak 12 symboly, kdy symbol v pořadí označuje:
 > 1) slovní druh: podstatné jméno - "N", přídavné jméno - "A", zájmeno - "P", číslovka - "C", sloveso - "V", příslovce - "D", předložka - "R", spojka - "J", citoslovce - "I", částice - "T"
-Ondřej Drtina
+> 2) pád: 1. pád (nominativ) - "1", 2. pád (genitiv) - "2", 3. pád (dativ) - "3", 4. pád (akuzativ) - "4", 5. pád (vokativ) - "5", 6. pád (lokál) - "6", 7. pád (instrumentál) - "7"
-Ondřej Drtina
+> 3) číslo: jednotné číslo - "S", množné číslo - "P", dvojné číslo - "D"
 > 4) rod: mužský rod - "M", ženský rod - "F", střední rod - "N"
 > 5) stupeň: 1. stupeň - "1", 2. stupeň - "2", 3. stupeň - "3"
 > 6) tvar: tvar složený - "C", tvar jmenný - "N"
-Ondřej Drtina
+> 7) num. - "C", subst. num. - "S", adj. num. - "A"
-Ondřej Drtina
+> 8) větná - "V", členská - "C", navazovací - "N", spojení s přech. - "P"
 > 9) osoba: 1. osoba - "1", 2. osoba - "2", 3. osoba - "3"
 > 10) čas: přítomný čas - "P", aorist - "A", préteritum - "R", imperfektum - "I", předminulý čas - "H", budoucí čas - "F"
 > 11) slovesný rod: pasivum - "P", aktivum - "A"
 > 12) slovesný vid: dokonavé sloveso - "P"; nedokonavé sloveso - "I"
 Ondřej Drtina
-Ondřej Drtina
+Příklad: V případě, že hledáme morfologickou charakteristiku slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "tag_id" příslušného slova, tedy 6 => tag "V-P----d3AAP".
-Ondřej Drtina
+h2. dd_manuscript
 h3. wordform_id
 Ondřej Drtina
-Ondřej Drtina
+Typ atributu: bigint
-Ondřej Drtina
+Hodnota tohoto atributu se vždy vyskytuje ve sloupci "id" v tabulce "dd_wordform".
-Ondřej Drtina
+Příklad: Pro vyhledání dokumentů, ve kterých se vyskytuje slovní tvar "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme všechny řádky tabulky, kde "wordform_id" = 45. Zjistíme, že se vyskytuje v dokumentech č. 11 (rukopis Cerronský) a č. 12 (rukopis Fürstenberský).
-Ondřej Drtina
+h3. manuscript
 Ondřej Drtina
 Typ atributu: integer
 Ondřej Drtina
 Číslo textového pramenu, ve kterém se slovní tvar nachází. Prameny jsou číslovány od 0, celkově jich je 16. Atribut tedy v dodané DB nabývá hodnot 0-15, kde číslo označuje:
-Ondřej Drtina
+> 0 - rukopis Vídeňský
 > 1 - zlomky Hanušovy
 > 2 - zlomky Hradecké
-Ondřej Drtina
+> 3 - rukopis Cambridžský
 > 4 - rukopis Františkánský
-Ondřej Drtina
+> 5 - zlomek Olomoucký
 > 6 - fragment Strahovský
 > 7 - zlomky Klementinsko-Křižovnické
 > 8 - zlomky Mnichovské
 > 9 - rukopis Lobkovický
 > 10 - rukopis Pelclův
-Ondřej Drtina
+> 11 - rukopis Cerronský
-Ondřej Drtina
+> 12 - rukopis Fürstenberský
 > 13 - rukopis Zebererův
 > 14 - vydání Pavla Ješína z Bezdězi, Praha 1620
 > 15 - básně připsané při Pulkavově kronice v rukopisu Litoměřickém
 Ondřej Drtina
 Příklad: Pro zjištění všech slov, která se vyskytují v dokumentu 0 (rukopis Vídeňský), najdeme všechny řádky tabulky, kde "manuscript" = 0. Následně pak získané hodnoty "wordform_id" použijeme jakožto klíč ("id") do tabulky "dd_wordform" a najdeme příslušná slova.

Projekt

Obecné

Profil

ASWI - Pokročilé softwarové inženýrství » ASWI 2021 » Databáze slov a jejich tvarů (KČJ FPE) - Mr. Proper

Popis struktury DB » Historie » Verze 20