Projekt

Obecné

Profil

Popis struktury DB » Historie » Verze 24

Ondřej Drtina, 2021-03-29 07:16

1 3 Ondřej Drtina
h1. Úvod
2 4 Ondřej Drtina
3 10 Ondřej Drtina
Zadavatelem byly dodány dvě databáze, jejichž struktura je shodná. Tedy shodují se názvy i počet tabulek, rovněž jsou shodné i typy atributů, kterými dané tabulky disponují. Popis je tedy validní pro obě dodané databáze.
4 4 Ondřej Drtina
5 3 Ondřej Drtina
h1. Dostupné tabulky
6 4 Ondřej Drtina
7 10 Ondřej Drtina
V podkapitolách je uveden obecný popis dat, jež obsahuje tabulka s odpovídajícím názvem.
8 4 Ondřej Drtina
9
h2. dd_wordform
10
11 10 Ondřej Drtina
Uvedenou tabulku lze považovat za výchozí bod pro zobrazení dat uživateli. Obsahuje slovní tvar, datum vytvoření záznamu a poznámky přiřazené k jednotlivým záznamům vytvořené zadavatelkami. Rovněž se v tabulce nachází cizí klíče, které zajistí přiřazení lemmatu a morfologické charakteristiky k příslušnému slovnímu tvaru.
12 4 Ondřej Drtina
13 1 Ondřej Drtina
h2. dd_lemma
14 4 Ondřej Drtina
15 10 Ondřej Drtina
Obsahuje slova v základním tvaru.
16 4 Ondřej Drtina
17 1 Ondřej Drtina
h2. dd_tag
18 4 Ondřej Drtina
19 10 Ondřej Drtina
Obsahuje morfologickou charakteristiku pro slovní tvary. Charakteristika je v kódovém označení, které je blíže popsáno v kapitole pojednávající o atributech přítomných v tabulkách.
20 4 Ondřej Drtina
21
h2. dd_manuscript
22 1 Ondřej Drtina
23 10 Ondřej Drtina
Jedná se o spojovací tabulku vyjadřující relaci M:N zajišťující přiřazení textového pramenu k slovnímu tvaru. Jeden slovní tvar se může nacházet ve více pramenech a zároveň jeden pramen může obsahovat více slovních tvarů. Seznam pramenů je dostupný v kapitole popisující atributy.
24 4 Ondřej Drtina
25 6 Ondřej Drtina
h1. Atributy tabulek
26
27 12 Ondřej Drtina
Předmětem kapitoly je detailní popis atributů a jejich významu v dané tabulce. V seznamu atributů není uvedena položka "id", kterou obsahují všechny uvedené tabulky vyjma "dd_manuscript", jelikož její význam je shodný napříč tabulkami. Atribut "id" je hodnotou, která je pro každou položku tabulky odlišná. Hodnota "id" je inkrementována obvyklým způsobem, tedy pokud má poslední vložený záznam "id" n, nově vložený záznam bude mít "id" n + 1.
28 10 Ondřej Drtina
29 12 Ondřej Drtina
Pokud je u atributu uveden příklad, pak se vztahuje k druhé dodané databázi.
30 4 Ondřej Drtina
31
h2. dd_wordform
32 1 Ondřej Drtina
33 6 Ondřej Drtina
h3. context
34
35 11 Ondřej Drtina
Typ atributu: character varying (20)
36 1 Ondřej Drtina
37 22 Ondřej Drtina
Pokud zadáno, pak se jedná o předložku slovního tvaru.
38 11 Ondřej Drtina
39 12 Ondřej Drtina
Příklad: V případě slovního tvaru "jeho" ("id" = 33279) je předložka "okolo".
40
41 1 Ondřej Drtina
h3. date
42
43 11 Ondřej Drtina
Typ atributu: timestamp without time zone
44 1 Ondřej Drtina
45 23 Ondřej Drtina
Datum vytvoření příslušného záznamu ve formátu rrrr-mm-dd, kde r = rok, m = měsíc, d = den. Položky mají rovněž přiřazený i čas, který však zřejmě nikdy nebyl zadán - u všech položek je tedy 00:00:00.
46 11 Ondřej Drtina
47 12 Ondřej Drtina
Příklad: Datum a čas vytvoření slovního tvaru "jeho" ("id" = 33279) je "2017-09-19 00:00:00".
48
49 11 Ondřej Drtina
h3. description
50 1 Ondřej Drtina
51 11 Ondřej Drtina
Typ atributu: character varying (250)
52 1 Ondřej Drtina
53 19 Ondřej Drtina
Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka1". Při reprezentaci dat uživateli má být obsah daného atributu zobrazen za dokladem, tedy za obsahem atributu "word".
54 11 Ondřej Drtina
55 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "(sic)".
56
57 3 Ondřej Drtina
h3. description2
58 1 Ondřej Drtina
59 11 Ondřej Drtina
Typ atributu: character varying (250)
60 1 Ondřej Drtina
61 19 Ondřej Drtina
Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka2". Obsah prvního řádku daného atributu (před "\n") má být zobrazen u lemmatu. Na druhé řádce v případě sloves uvedeno, s čím se mohou pojit ; případně označení pro jméno místní. //TODO: v dodaném sw se nezdá, že by to bylo nějak respektováno a ani, že by byl popisek jednotný. Tohle zkusíme dořešit při zobrazení dat uživateli
62 18 Ondřej Drtina
63 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "po čem".
64
65 1 Ondřej Drtina
h3. description3
66 3 Ondřej Drtina
67 11 Ondřej Drtina
Typ atributu: character varying (250)
68 1 Ondřej Drtina
69 19 Ondřej Drtina
Poznámka uživatelek, v dodaném SW popsáno jako "Poznámka3". Pokud je hodnota atributu přítomna, pak se ve většině případů jedná o předložku (hodnotu atributu context) spojenou s konkrétním slovním tvarem (hodnotou atributu word). //TODO: zadavatelky uznaly, že toto nemají jednotné, domluvíme se, jestli budou chtít zobrazit nějak jinak než prosté "poznámka3". Příklad zadavatelek: V království - context: v, word: království, pozn3 => v království
70 18 Ondřej Drtina
71 12 Ondřej Drtina
Příklad: V případě slovního tvaru "bahajíce" ("id" = 358) má atribut hodnotu "E.P. dopl. vazba".
72
73 3 Ondřej Drtina
h3. ending
74 1 Ondřej Drtina
75 11 Ondřej Drtina
Typ atributu: character varying (10)
76 1 Ondřej Drtina
77
Koncovka příslušného slovního tvaru. Příklad: když word = "Albrechta", pak ending = "a".
78 11 Ondřej Drtina
79 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu "ch".
80
81 3 Ondřej Drtina
h3. finished
82 1 Ondřej Drtina
83 11 Ondřej Drtina
Typ atributu: boolean
84 1 Ondřej Drtina
85
Vyjadřuje, zda již bylo zpracování daného slovního tvaru zcela dokončeno či nikoliv. Atribut tak nabývá hodnoty "true", respektive "false".
86
87 11 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu true.
88 12 Ondřej Drtina
89
h3. namedentity
90 1 Ondřej Drtina
91 11 Ondřej Drtina
Typ atributu: integer
92 1 Ondřej Drtina
93 19 Ondřej Drtina
Určuje, zda je slovní tvar vlastním jménem či nikoli. V první dodané databázi nabývá hodnot 0 a 1, v druhé databázi nabývá pouze hodnoty 0. První databáze tedy obsahuje i vlastní jména (hodnota atr. 1), druhá nikoli. V dodaném SW zobrazeno jako "vlastní jméno", resp. "ostatní".
94 11 Ondřej Drtina
95 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 0.
96
97 3 Ondřej Drtina
h3. position1
98 1 Ondřej Drtina
99 11 Ondřej Drtina
Typ atributu: character varying (10)
100 1 Ondřej Drtina
101
Číslo kapitoly v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" před lomítkem.
102 11 Ondřej Drtina
103 12 Ondřej Drtina
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 39.
104
105 3 Ondřej Drtina
h3. position2
106 1 Ondřej Drtina
107 11 Ondřej Drtina
Typ atributu: character varying (10)
108 1 Ondřej Drtina
109
Číslo verše v textovém pramenu, z něhož byl slovní tvar získán. V dodaném SW zobrazeno jako hodnota "Pozice" za lomítkem.
110
111
Příklad: V případě slovního tvaru "abych" ("id" = 37356) má atribut hodnotu 64.
112 12 Ondřej Drtina
113 1 Ondřej Drtina
h3. positiondetail
114
115
Typ atributu: character varying (10)
116
117 19 Ondřej Drtina
Jedná se o přípisky písaře k danému slovnímu tvaru.
118
119 12 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu "P1".
120 7 Ondřej Drtina
121 3 Ondřej Drtina
h3. prefix
122 1 Ondřej Drtina
123 11 Ondřej Drtina
Typ atributu: character varying (10)
124
125 8 Ondřej Drtina
Atribut vyjadřuje předponu slova. V první databázi u menšiny položek má přidělenou hodnotu, v druhé databázi není hodnota dostupná u žádné z položek. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
126 4 Ondřej Drtina
127 1 Ondřej Drtina
h3. suffix
128
129 11 Ondřej Drtina
Typ atributu: character varying (10)
130
131 8 Ondřej Drtina
Jedná se o příponu slovního tvaru. V první databázi má atribut přidělenou hodnotu u menšiny položek, v druhé databázi není danému atributu přidělena hodnota u žádné položky. Dodaný SW neumožňuje zobrazit hodnotu daného atributu.
132
133 1 Ondřej Drtina
h3. word
134
135 11 Ondřej Drtina
Typ atributu: character varying (50)
136
137 8 Ondřej Drtina
Samotný slovní tvar, ke kterému je vázán zbytek popsaných atributů.
138
139 13 Ondřej Drtina
Příklad: Slovního tvaru "poslachu" ("id" = 45).
140
141 1 Ondřej Drtina
h3. lemma_id
142
143 11 Ondřej Drtina
Typ atributu: bigint
144
145 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_lemma. Pro vyhledání odpovídajícího lemmatu ke slovnímu tvaru je potřeba vyhledat hodnotu atributu "lemma_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_lemma".
146
147 13 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 8.
148
149 1 Ondřej Drtina
h3. tag_id
150
151 11 Ondřej Drtina
Typ atributu: bigint
152
153 8 Ondřej Drtina
Cizí klíč, odkaz do tabulky dd_tag. Pro přiřazení odpovídající morfologické charakteristiky ke slovnímu tvaru je potřeba najít hodnotu atributu "tag_id", který je u příslušného slovního tvaru, ve sloupci "id" v tabulce "dd_tag".
154
155 13 Ondřej Drtina
Příklad: V případě slovního tvaru "poslachu" ("id" = 45) má atribut hodnotu 6.
156
157 1 Ondřej Drtina
h2. dd_lemma
158 4 Ondřej Drtina
159 3 Ondřej Drtina
h3. lemma
160 1 Ondřej Drtina
161 11 Ondřej Drtina
Typ atributu: character varying (50)
162
163 8 Ondřej Drtina
Slovo v základním tvaru, maximálně 50 znaků.
164
165 13 Ondřej Drtina
Příklad: V případě, že hledáme lemma slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => lemma "poslati".
166
167 1 Ondřej Drtina
h3. pos
168
169 11 Ondřej Drtina
Typ atributu: integer
170
171 20 Ondřej Drtina
Jedná se o číselné označení pro slovní druh, kdy číslo značí:
172
> 0 = podstatné jméno
173
> 1 = přídavné jméno 
174
> 2 = zájmeno
175
> 3 = číslovka
176
> 4 = sloveso
177
> 5 = příslovce
178
> 6 = předložka
179
> 7 = spojka
180
> 8 = citoslovce
181
> 9 = částice
182 8 Ondřej Drtina
183 20 Ondřej Drtina
Příklad: V případě, že hledáme hodnotu "pos" slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "lemma_id" příslušného slova, tedy 8 => "pos" = 4 (sloveso).
184 13 Ondřej Drtina
185 1 Ondřej Drtina
h2. dd_tag
186 4 Ondřej Drtina
187 1 Ondřej Drtina
h3. tag
188
189
Typ atributu: character varying (20)
190 14 Ondřej Drtina
191 16 Ondřej Drtina
Morfologická charakteristika slova, kódově označena. V první dodané DB je charakteristika definována 6 či 7 symboly, ve druhé DB pak 12 symboly, kdy symbol v pořadí označuje:
192 21 Ondřej Drtina
193 16 Ondřej Drtina
> 1) slovní druh: podstatné jméno - "N", přídavné jméno - "A", zájmeno - "P", číslovka - "C", sloveso - "V", příslovce - "D", předložka - "R", spojka - "J", citoslovce - "I", částice - "T"
194 1 Ondřej Drtina
> 2) pád: 1. pád (nominativ) - "1", 2. pád (genitiv) - "2", 3. pád (dativ) - "3", 4. pád (akuzativ) - "4", 5. pád (vokativ) - "5", 6. pád (lokál) - "6", 7. pád (instrumentál) - "7"
195 16 Ondřej Drtina
> 3) číslo: jednotné číslo - "S", množné číslo - "P", dvojné číslo - "D"
196
> 4) rod: mužský rod - "M", ženský rod - "F", střední rod - "N"
197
> 5) stupeň: 1. stupeň - "1", 2. stupeň - "2", 3. stupeň - "3"
198
> 6) tvar: tvar složený - "C", tvar jmenný - "N"
199 18 Ondřej Drtina
> 7) num. - "C", subst. num. - "S", adj. num. - "A"
200 24 Ondřej Drtina
> 8) liší se u jednotlivých slovních druhů:
201
> a) podstatné jméno: daná pozice nic neudává
202
> b) přídavné jméno: daná pozice nic neudává
203
> c) zájmeno: osobní - "P", přivlastňovací - "S", ukazovací - "D", tázací - "Q", vztažná - "J", neurčitá - "Z", vymezovací - "L", záporná - "W"
204
> d) číslovka: daná pozice nic neudává
205
> e) sloveso: infinitiv - "f", oznamovací zp. - "d", rozkazovací zp. - "i", podmiňovací zp. - "c", supinum - "S", přech. přít. - "e", přech. min. - "m", part. perf. akt. - "A", part. perf. pas. - "P"
206
> f) příslovce: daná pozice nic neudává
207
> g) předložka: daná pozice nic neudává
208
> h) spojka: větná - "V", členská - "C", navazovací - "N", spojení s přech. - "P"
209
> i) citoslovce: daná pozice nic neudává
210
> j) částice: daná pozice nic neudává
211 16 Ondřej Drtina
> 9) osoba: 1. osoba - "1", 2. osoba - "2", 3. osoba - "3"
212
> 10) čas: přítomný čas - "P", aorist - "A", préteritum - "R", imperfektum - "I", předminulý čas - "H", budoucí čas - "F"
213
> 11) slovesný rod: pasivum - "P", aktivum - "A"
214
> 12) slovesný vid: dokonavé sloveso - "P"; nedokonavé sloveso - "I"
215 21 Ondřej Drtina
216
Pozn.: I přesto, že se první DB od druhé DB odlišuje počtem symbolů daného atributu, je pořadí a význam symbolů shodný - první DB akorát neobsahuje některé dodatečné informace.
217 14 Ondřej Drtina
218 13 Ondřej Drtina
Příklad: V případě, že hledáme morfologickou charakteristiku slovního tvaru "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme hodnotu "tag_id" příslušného slova, tedy 6 => tag "V-P----d3AAP".
219
220 4 Ondřej Drtina
h2. dd_manuscript
221
222
h3. wordform_id
223 1 Ondřej Drtina
224 11 Ondřej Drtina
Typ atributu: bigint
225
226 8 Ondřej Drtina
Hodnota tohoto atributu se vždy vyskytuje ve sloupci "id" v tabulce "dd_wordform".
227
228 13 Ondřej Drtina
Příklad: Pro vyhledání dokumentů, ve kterých se vyskytuje slovní tvar "poslachu" ("id" v tabulce "dd_wordform" = 45), najdeme všechny řádky tabulky, kde "wordform_id" = 45. Zjistíme, že se vyskytuje v dokumentech č. 11 (rukopis Cerronský) a č. 12 (rukopis Fürstenberský).
229
230 1 Ondřej Drtina
h3. manuscript
231 11 Ondřej Drtina
232
Typ atributu: integer
233 8 Ondřej Drtina
234
Číslo textového pramenu, ve kterém se slovní tvar nachází. Prameny jsou číslovány od 0, celkově jich je 16. Atribut tedy v dodané DB nabývá hodnot 0-15, kde číslo označuje:
235 9 Ondřej Drtina
> 0 - rukopis Vídeňský
236
> 1 - zlomky Hanušovy
237
> 2 - zlomky Hradecké
238 8 Ondřej Drtina
> 3 - rukopis Cambridžský
239
> 4 - rukopis Františkánský
240 9 Ondřej Drtina
> 5 - zlomek Olomoucký
241
> 6 - fragment Strahovský
242
> 7 - zlomky Klementinsko-Křižovnické
243
> 8 - zlomky Mnichovské
244
> 9 - rukopis Lobkovický
245
> 10 - rukopis Pelclův
246 8 Ondřej Drtina
> 11 - rukopis Cerronský
247 9 Ondřej Drtina
> 12 - rukopis Fürstenberský
248
> 13 - rukopis Zebererův
249
> 14 - vydání Pavla Ješína z Bezdězi, Praha 1620
250
> 15 - básně připsané při Pulkavově kronice v rukopisu Litoměřickém
251 13 Ondřej Drtina
252
Příklad: Pro zjištění všech slov, která se vyskytují v dokumentu 0 (rukopis Vídeňský), najdeme všechny řádky tabulky, kde "manuscript" = 0. Následně pak získané hodnoty "wordform_id" použijeme jakožto klíč ("id") do tabulky "dd_wordform" a najdeme příslušná slova.