Projekt

Obecné

Profil

Popis struktury DB » Historie » Verze 18

Ondřej Drtina, 2021-03-26 17:21

1 3 Ondřej Drtina
h1. Úvod
2 4 Ondřej Drtina
3 10 Ondřej Drtina
Zadavatelem byly dodány dvě databáze, jejichž struktura je shodná. Tedy shodují se názvy i počet tabulek, rovněž jsou shodné i typy atributů, kterými dané tabulky disponují. Popis je tedy validní pro obě dodané databáze.
4 4 Ondřej Drtina
5 3 Ondřej Drtina
h1. Dostupné tabulky
6 4 Ondřej Drtina
7 10 Ondřej Drtina
V podkapitolách je uveden obecný popis dat, jež obsahuje tabulka s odpovídajícím názvem.
8 4 Ondřej Drtina
9
h2. dd_wordform
10
11 10 Ondřej Drtina
Uvedenou tabulku lze považovat za výchozí bod pro zobrazení dat uživateli. Obsahuje slovní tvar, datum vytvoření záznamu a poznámky přiřazené k jednotlivým záznamům vytvořené zadavatelkami. Rovněž se v tabulce nachází cizí klíče, které zajistí přiřazení lemmatu a morfologické charakteristiky k příslušnému slovnímu tvaru.
12 4 Ondřej Drtina
13 1 Ondřej Drtina
h2. dd_lemma
14 4 Ondřej Drtina
15 10 Ondřej Drtina
Obsahuje slova v základním tvaru.
16 4 Ondřej Drtina
17 1 Ondřej Drtina
h2. dd_tag
18 4 Ondřej Drtina
19 10 Ondřej Drtina
Obsahuje morfologickou charakteristiku pro slovní tvary. Charakteristika je v kódovém označení, které je blíže popsáno v kapitole pojednávající o atributech přítomných v tabulkách.
20 4 Ondřej Drtina
21
h2. dd_manuscript
22 1 Ondřej Drtina
23 10 Ondřej Drtina
Jedná se o spojovací tabulku vyjadřující relaci M:N zajišťující přiřazení textového pramenu k slovnímu tvaru. Jeden slovní tvar se může nacházet ve více pramenech a zároveň jeden pramen může obsahovat více slovních tvarů. Seznam pramenů je dostupný v kapitole popisující atributy.
24 4 Ondřej Drtina
25 6 Ondřej Drtina
h1. Atributy tabulek
26
27 12 Ondřej Drtina
Předmětem kapitoly je detailní popis atributů a jejich významu v dané tabulce. V seznamu atributů není uvedena položka "id", kterou obsahují všechny uvedené tabulky vyjma "dd_manuscript", jelikož její význam je shodný napříč tabulkami. Atribut "id" je hodnotou, která je pro každou položku tabulky odlišná. Hodnota "id" je inkrementována obvyklým způsobem, tedy pokud má poslední vložený záznam "id" n, nově vložený záznam bude mít "id" n + 1.
28 10 Ondřej Drtina
29 12 Ondřej Drtina
Pokud je u atributu uveden příklad, pak se vztahuje k druhé dodané databázi.
30 4 Ondřej Drtina
31
h2. dd_wordform
32 1 Ondřej Drtina
33 6 Ondřej Drtina
h3. context
34
35 11 Ondřej Drtina
Typ atributu: character varying (20)
36 1 Ondřej Drtina
37 18 Ondřej Drtina
Předložka slovního tvaru (pokud je tedy vůbec zadáno). - OK
38 11 Ondřej Drtina
39 12 Ondřej Drtina
Příklad: V případě slovního tvaru "jeho" ("id" = 33279) je předložka "okolo".
40
41 1 Ondřej Drtina
h3. date
42
43 11 Ondřej Drtina
Typ atributu: timestamp without time zone
44 1 Ondřej Drtina
45 18 Ondřej Drtina
Datum vytvoření příslušného záznamu ve formátu rrrr-mm-dd, kde r = rok, m = měsíc, d = den. Položky mají rovněž přiřazený i čas, který však zřejmě nikdy nebyl zadán (KOUKNOUT SE) - u všech položek je tedy 00:00:00.
46 11 Ondřej Drtina
47 12 Ondřej Drtina
Příklad: Datum a čas vytvoření slovního tvaru "jeho" ("id" = 33279) je "2017-09-19 00:00:00".
48
49 11 Ondřej Drtina
h3. description
50 1 Ondřej Drtina
51 11 Ondřej Drtina
Typ atributu: character varying (250)
52 1 Ondřej Drtina
53 18 Ondřej Drtina
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka1". To, co se v indexu tiskne za dokladem (tedy atribut word). Za dokladem se zobrazí i ve finální DB.
54 11 Ondřej Drtina
55 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "(sic)".
56
57 3 Ondřej Drtina
h3. description2
58 1 Ondřej Drtina
59 11 Ondřej Drtina
Typ atributu: character varying (250)
60 1 Ondřej Drtina
61
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka2".
62
63 18 Ondřej Drtina
co se tiskne za lemmatemtýká se lemmatu - u lemmatu na první řádce ; u sloves - na druhém řádku, s čím se může pojit (pak se tiskla dohromady) ; ozn. pro jméno místní
64
65 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "po čem".
66
67 3 Ondřej Drtina
h3. description3
68 1 Ondřej Drtina
69 11 Ondřej Drtina
Typ atributu: character varying (250)
70 1 Ondřej Drtina
71
//TODO: líp spec. Poznámka uživatelek, blíže nespecifikovaný význam. V dodaném SW popsáno jako "Poznámka3".
72
73 18 Ondřej Drtina
V království - context: v, word: království, pozn3 => v království
74
75 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "E.P. dopl. vazba".
76
77 3 Ondřej Drtina
h3. ending
78 1 Ondřej Drtina
79 11 Ondřej Drtina
Typ atributu: character varying (10)
80 1 Ondřej Drtina
81
Koncovka příslušného slovního tvaru. Příklad: když word = "Albrechta", pak ending = "a".
82 11 Ondřej Drtina
83 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu "ch".
84
85 3 Ondřej Drtina
h3. finished
86 1 Ondřej Drtina
87 11 Ondřej Drtina
Typ atributu: boolean
88 1 Ondřej Drtina
89
Vyjadřuje, zda již bylo zpracování daného slovního tvaru zcela dokončeno či nikoliv. Atribut tak nabývá hodnoty "true", respektive "false".
90 11 Ondřej Drtina
91 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu true.
92
93 3 Ondřej Drtina
h3. namedentity
94 1 Ondřej Drtina
95
Typ atributu: integer
96 11 Ondřej Drtina
97 1 Ondřej Drtina
//TODO: líp spec. Význam atributu neznámý, není vyobrazen v dodaném SW. V první dodané databázi nabývá hodnot 0 a 1, v druhé databázi nabývá pouze hodnoty 0.
98 18 Ondřej Drtina
pokud vlastní jméno - 1, pokud neurčeno vlastní jméno pak 0 (="ostatní")
99 11 Ondřej Drtina
100 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 0.
101
102 3 Ondřej Drtina
h3. position1
103 1 Ondřej Drtina
104 11 Ondřej Drtina
Typ atributu: character varying (10)
105 1 Ondřej Drtina
106
Číslo kapitoly v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" před lomítkem.
107 11 Ondřej Drtina
108 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 39.
109
110 3 Ondřej Drtina
h3. position2
111 1 Ondřej Drtina
112 11 Ondřej Drtina
Typ atributu: character varying (10)
113 1 Ondřej Drtina
114
Číslo verše v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" za lomítkem.
115 12 Ondřej Drtina
116
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 64.
117 1 Ondřej Drtina
118
h3. positiondetail
119
120
Typ atributu: character varying (10)
121
122 11 Ondřej Drtina
//TODO: zeptat se, netuším. V dodaném SW není umožněno zobrazení hodnoty daného atributu.
123 18 Ondřej Drtina
přípisky písaře
124 12 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu "P1".
125 7 Ondřej Drtina
126 3 Ondřej Drtina
h3. prefix
127 1 Ondřej Drtina
128 11 Ondřej Drtina
Typ atributu: character varying (10)
129
130 8 Ondřej Drtina
Atribut vyjadřuje předponu slova. V první databázi u menšiny položek má přidělenou hodnotu, v druhé databázi není hodnota dostupná u žádné z položek. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
131 4 Ondřej Drtina
132 1 Ondřej Drtina
h3. suffix
133
134 11 Ondřej Drtina
Typ atributu: character varying (10)
135
136 8 Ondřej Drtina
Jedná se o příponu slovního tvaru. V první databázi má atribut přidělenou hodnotu u menšiny položek, v druhé databázi není danému atributu přidělena hodnota u žádné položky. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
137
138 1 Ondřej Drtina
h3. word
139
140 11 Ondřej Drtina
Typ atributu: character varying (50)
141
142 8 Ondřej Drtina
Samotný slovní tvar, ke kterému je vázán zbytek popsaných atributů.
143
144 13 Ondřej Drtina
Příklad: Slovního tvaru "poslachu" ("id" = 45).
145
146 1 Ondřej Drtina
h3. lemma_id
147
148 11 Ondřej Drtina
Typ atributu: bigint
149
150 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_lemma. Pro vyhledání odpovídajícího lemmatu ke slovnímu tvaru je potřeba vyhledat hodnotu atributu "lemma_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_lemma".
151
152 13 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 8.
153
154 1 Ondřej Drtina
h3. tag_id
155
156 11 Ondřej Drtina
Typ atributu: bigint
157
158 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_tag. Pro přiřazení odpovídající morfologické charakteristiky ke slovnímu tvaru je potřeba najít hodnotu atributu "tag_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_tag".
159
160 13 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 6.
161
162 1 Ondřej Drtina
h2. dd_lemma
163 4 Ondřej Drtina
164 3 Ondřej Drtina
h3. lemma
165 1 Ondřej Drtina
166 11 Ondřej Drtina
Typ atributu: character varying (50)
167
168 8 Ondřej Drtina
Slovo v základním tvaru, maximálně 50 znaků.
169
170 13 Ondřej Drtina
Příklad: V případě, že hledáme lemma slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => lemma "poslati".
171
172 1 Ondřej Drtina
h3. pos
173
174 11 Ondřej Drtina
Typ atributu: integer
175
176 8 Ondřej Drtina
//TODO: zeptat se, netuším. Charakterizuje pozici lemmatu v textu. Jedno lemma se může vyskytovat na různých pozicích, tedy mít různou hodnotu atributu "pos".
177
178 14 Ondřej Drtina
Příklad: V případě, že hledáme hodnotu "pos" slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => pos = 4.
179 13 Ondřej Drtina
180 1 Ondřej Drtina
h2. dd_tag
181 4 Ondřej Drtina
182 1 Ondřej Drtina
h3. tag
183
184
Typ atributu: character varying (20)
185 14 Ondřej Drtina
186 16 Ondřej Drtina
Morfologická charakteristika slova, kódově označena. V první dodané DB je charakteristika definována 6 či 7 symboly, ve druhé DB pak 12 symboly, kdy symbol v pořadí označuje:
187
> 1) slovní druh: podstatné jméno - "N", přídavné jméno - "A", zájmeno - "P", číslovka - "C", sloveso - "V", příslovce - "D", předložka - "R", spojka - "J", citoslovce - "I", částice - "T"
188 1 Ondřej Drtina
> 2) pád: 1. pád (nominativ) - "1", 2. pád (genitiv) - "2", 3. pád (dativ) - "3", 4. pád (akuzativ) - "4", 5. pád (vokativ) - "5", 6. pád (lokál) - "6", 7. pád (instrumentál) - "7"
189 16 Ondřej Drtina
> 3) číslo: jednotné číslo - "S", množné číslo - "P", dvojné číslo - "D"
190
> 4) rod: mužský rod - "M", ženský rod - "F", střední rod - "N"
191
> 5) stupeň: 1. stupeň - "1", 2. stupeň - "2", 3. stupeň - "3"
192
> 6) tvar: tvar složený - "C", tvar jmenný - "N"
193 18 Ondřej Drtina
> 7) num. - "C", subst. num. - "S", adj. num. - "A"
194 16 Ondřej Drtina
> 8) větná - "V", členská - "C", navazovací - "N", spojení s přech. - "P"
195
> 9) osoba: 1. osoba - "1", 2. osoba - "2", 3. osoba - "3"
196
> 10) čas: přítomný čas - "P", aorist - "A", préteritum - "R", imperfektum - "I", předminulý čas - "H", budoucí čas - "F"
197
> 11) slovesný rod: pasivum - "P", aktivum - "A"
198
> 12) slovesný vid: dokonavé sloveso - "P"; nedokonavé sloveso - "I"
199 14 Ondřej Drtina
200 13 Ondřej Drtina
Příklad: V případě, že hledáme morfologickou charakteristiku slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "tag_id" příslušného slova, tedy 6 => tag "V-P----d3AAP".
201
202 4 Ondřej Drtina
h2. dd_manuscript
203
204
h3. wordform_id
205 1 Ondřej Drtina
206 11 Ondřej Drtina
Typ atributu: bigint
207
208 8 Ondřej Drtina
Hodnota tohoto atributu se vždy vyskytuje ve sloupci "id" v tabulce "dd_wordform".
209
210 13 Ondřej Drtina
Příklad: Pro vyhledání dokumentů, ve kterých se vyskytuje slovní tvar "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme všechny řádky tabulky, kde "wordform_id" = 45. Zjistíme, že se vyskytuje v dokumentech č. 11 (rukopis Cerronský) a č. 12 (rukopis Fürstenberský).
211
212 1 Ondřej Drtina
h3. manuscript
213 11 Ondřej Drtina
214
Typ atributu: integer
215 8 Ondřej Drtina
216
Číslo textového pramenu, ve kterém se slovní tvar nachází. Prameny jsou číslovány od 0, celkově jich je 16. Atribut tedy v dodané DB nabývá hodnot 0-15, kde číslo označuje:
217 9 Ondřej Drtina
> 0 - rukopis Vídeňský
218
> 1 - zlomky Hanušovy
219
> 2 - zlomky Hradecké
220 8 Ondřej Drtina
> 3 - rukopis Cambridžský
221
> 4 - rukopis Františkánský
222 9 Ondřej Drtina
> 5 - zlomek Olomoucký
223
> 6 - fragment Strahovský
224
> 7 - zlomky Klementinsko-Křižovnické
225
> 8 - zlomky Mnichovské
226
> 9 - rukopis Lobkovický
227
> 10 - rukopis Pelclův
228 8 Ondřej Drtina
> 11 - rukopis Cerronský
229 9 Ondřej Drtina
> 12 - rukopis Fürstenberský
230
> 13 - rukopis Zebererův
231
> 14 - vydání Pavla Ješína z Bezdězi, Praha 1620
232
> 15 - básně připsané při Pulkavově kronice v rukopisu Litoměřickém
233 13 Ondřej Drtina
234
Příklad: Pro zjištění všech slov, která se vyskytují v dokumentu 0 (rukopis Vídeňský), najdeme všechny řádky tabulky, kde "manuscript" = 0. Následně pak získané hodnoty "wordform_id" použijeme jakožto klíč ("id") do tabulky "dd_wordform" a najdeme příslušná slova.