Projekt

Obecné

Profil

Popis struktury DB » Historie » Verze 8

Ondřej Drtina, 2021-03-25 15:25

1 3 Ondřej Drtina
h1. Úvod
2 4 Ondřej Drtina
3 3 Ondřej Drtina
Zadavatelem byly dodány dvě databáze, jejichž struktura je shodná. Tedy shodují se názvy i počet tabulek, rovněž jsou stejné i atributy, kterými dané tabulky disponují. Popis je tedy validní pro obě dodané databáze.
4 4 Ondřej Drtina
5 3 Ondřej Drtina
h1. Dostupné tabulky
6 4 Ondřej Drtina
7 3 Ondřej Drtina
V podkapitolách je uveden rámcový popis dat, jež obsahuje tabulka s odpovídajícím názvem.
8 4 Ondřej Drtina
9
h2. dd_wordform
10
11 5 Ondřej Drtina
Uvedenou tabulku lze považovat za výchozí bod pro zobrazení dat uživateli. Obsahuje slovní tvar, datum vytvoření záznamu a poznámky přiřazené k jednotlivým záznamům vytvořené uživatelkami. Rovněž se v tabulce nachází cizí klíče, které zajistí přiřazení lemmatu a morfologické charakteristiky k příslušnému slovnímu tvaru.
12 4 Ondřej Drtina
13 1 Ondřej Drtina
h2. dd_lemma
14 4 Ondřej Drtina
15
Slovo v základním tvaru.
16
17 1 Ondřej Drtina
h2. dd_tag
18 4 Ondřej Drtina
19
Obsahuje morfologickou charakteristiku pro slovní tvary (TODO: získat více info od zadavatele ; není náš field of study).
20
21
h2. dd_manuscript
22
23 6 Ondřej Drtina
Jedná se o spojovací tabulku vyjadřující relaci 1:N. Zajišťuje přiřazení dokumentu k slovnímu tvaru. Jeden slovní tvar se může nacházet ve více dokumentech.
24
25 4 Ondřej Drtina
h1. Atributy tabulek
26 1 Ondřej Drtina
27 6 Ondřej Drtina
Předmětem kapitoly je detailní popis atributů a jejich významu v dané tabulce. V seznamu atributů není uvedena položka "id", kterou obsahují všechny uvedené tabulky vyjma "dd_manuscript", jelikož její význam je shodný napříč tabulkami. Atribut "id" je hodnotou, která je pro každou položku tabulky odlišná. Id je inkrementováno obvyklým způsobem, tedy pokud má poslední vložený záznam id n, nově vložený záznam bude mít n + 1.
28 4 Ondřej Drtina
29
h2. dd_wordform
30 1 Ondřej Drtina
31 6 Ondřej Drtina
h3. context
32
33 7 Ondřej Drtina
//TODO: předložka?
34
35 1 Ondřej Drtina
h3. date
36
37 7 Ondřej Drtina
Datum vytvoření příslušného záznamu ve formátu rrrr-mm-dd, kde r = rok, m = měsíc, d = den. Položky mají rovněž přiřazený i čas, který však zřejmě nikdy nebyl zadán - u všech položek je tedy 00:00:00.
38 4 Ondřej Drtina
39 7 Ondřej Drtina
h3. description1
40
41
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka1".
42
43 3 Ondřej Drtina
h3. description2
44 1 Ondřej Drtina
45 7 Ondřej Drtina
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka2".
46
47 3 Ondřej Drtina
h3. description3
48 1 Ondřej Drtina
49 7 Ondřej Drtina
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka3".
50
51 3 Ondřej Drtina
h3. ending
52 1 Ondřej Drtina
53 7 Ondřej Drtina
Koncovka příslušného slovního tvaru. Příklad: když word = "Albrechta", pak ending = "a".
54
55 3 Ondřej Drtina
h3. finished
56 1 Ondřej Drtina
57 7 Ondřej Drtina
Vyjadřuje, zda již bylo zpracování daného slovního tvaru zcela dokončeno či nikoliv. Atribut tak nabývá hodnoty "true", respektive "false".
58
59 3 Ondřej Drtina
h3. namedentity
60 1 Ondřej Drtina
61 7 Ondřej Drtina
//TODO: líp spec. Význam atributu neznámý, není vyobrazen v dodaném SW. V první dodané databázi nabývá hodnot 0 a 1, v druhé databázi nabývá pouze hodnoty 0.
62
63 3 Ondřej Drtina
h3. position1
64 1 Ondřej Drtina
65 7 Ondřej Drtina
Číslo kapitoly v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" před lomítkem.
66
67 3 Ondřej Drtina
h3. position2
68 1 Ondřej Drtina
69 7 Ondřej Drtina
Číslo verše v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" za lomítkem.
70
71 1 Ondřej Drtina
h3. positiondetail
72
73 7 Ondřej Drtina
//TODO: zeptat se, netuším. V dodaném SW není umožněno zobrazení hodnoty daného atributu.
74
75 3 Ondřej Drtina
h3. prefix
76 7 Ondřej Drtina
77 8 Ondřej Drtina
Atribut vyjadřuje předponu slova. V první databázi u menšiny položek má přidělenou hodnotu, v druhé databázi není hodnota dostupná u žádné z položek. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
78 4 Ondřej Drtina
79 1 Ondřej Drtina
h3. suffix
80
81 8 Ondřej Drtina
Jedná se o příponu slovního tvaru. V první databázi má atribut přidělenou hodnotu u menšiny položek, v druhé databázi není danému atributu přidělena hodnota u žádné položky. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
82
83 1 Ondřej Drtina
h3. word
84
85 8 Ondřej Drtina
Samotný slovní tvar, ke kterému je vázán zbytek popsaných atributů.
86
87 1 Ondřej Drtina
h3. lemma_id
88
89 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_lemma. Pro vyhledání odpovídajícího lemmatu ke slovnímu tvaru je potřeba vyhledat hodnotu atributu "lemma_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_lemma".
90
91 1 Ondřej Drtina
h3. tag_id
92
93 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_tag. Pro přiřazení odpovídající morfologické charakteristiky ke slovnímu tvaru je potřeba najít hodnotu atributu "tag_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_tag".
94
95 1 Ondřej Drtina
h2. dd_lemma
96 4 Ondřej Drtina
97 3 Ondřej Drtina
h3. lemma
98 1 Ondřej Drtina
99 8 Ondřej Drtina
Slovo v základním tvaru, maximálně 50 znaků.
100
101 1 Ondřej Drtina
h3. pos
102
103 8 Ondřej Drtina
//TODO: zeptat se, netuším. Charakterizuje pozici lemmatu v textu. Jedno lemma se může vyskytovat na různých pozicích, tedy mít různou hodnotu atributu "pos".
104
105 1 Ondřej Drtina
h2. dd_tag
106 4 Ondřej Drtina
107 1 Ondřej Drtina
h3. tag
108
109 8 Ondřej Drtina
//TODO: zeptat se na zkratky.. Morfologická charakteristika slova, kódově označena.
110
111 4 Ondřej Drtina
h2. dd_manuscript
112
113
h3. wordform_id
114 1 Ondřej Drtina
115 8 Ondřej Drtina
Hodnota tohoto atributu se vždy vyskytuje ve sloupci "id" v tabulce "dd_wordform".
116
117 1 Ondřej Drtina
h3. manuscript
118 8 Ondřej Drtina
119
Číslo textového pramenu, ve kterém se slovní tvar nachází. Prameny jsou číslovány od 0, celkově jich je 16. Atribut tedy v dodané DB nabývá hodnot 0-15, kde číslo označuje:
120
> 0 - ts
121
> 1 - ts
122
> 2 - ts
123
> 3 - rukopis Cambridžský
124
> 4 - rukopis Františkánský
125
> 5 - ts
126
> 6 - ts
127
> 7 - ts
128
> 8 - ts
129
> 9 - ts
130
> 10 - ts
131
> 11 - rukopis Cerronský
132
> 12 - ts
133
> 13 - ts
134
> 14 - ts
135
> 15 - ts