Projekt

Obecné

Profil

Vize projektu » Historie » Revize 16

Revize 15 (Jan Smolař, 2020-03-16 17:47) → Revize 16/17 (Jan Smolař, 2020-03-17 10:28)

h1. Vize projektu 



 h2. Cíl projektu 

 Projekt má za cíl vytvořit plně funkční webovou aplikaci pro fulltextové vyhledávání v historických obrazových dokumentech. Vytvořená aplikace bude vyvíjena podle potřeb zákazníka a jeho specifických požadavků. Webová aplikace bude pro zákazníka dalším krokem v jeho projektu pro zpracování obrazových dokumentů.    Vstupní data pro tuto aplikaci budou pocházet z OCR systému, který je vytvářen zákazníkem, a vytváří soubory formátu XML z obrazových dokumentů. Projekt bude umožní zákazníkovi ve vytvořených XML dokumentech vyhledávat a výsledky vyhledávání přehledně zobrazovat v původních obrazových dokumentech. 
 Webová aplikace bude využívána historiky, archiváři a dalšími profesemi jimi podobnými. Umožní vyhledávání v historických dokumentech, které nemají digitální formu, a tím výrazně zrychlí vyhledávání specifických údajů v těchto dokumentech. Po nahrání všech dokumentů archivu či knihovny se vyhledávání údajů zkrátí z několika hodin či dní na pár vteřin. Výsledek vyhledávání bude obsahovat název dokumentu, stranu a odstavec, kde se hledaný výraz nalézá a tím bude následně možné originální dokument či knihu fyzicky dohledat. 

 h2. Stakeholders 

 Vývojový tým: 
 * Ondřej Váně 
 * Jan Smolař 
 * Zdeněk Častorál 
 * Jitka Poubová 

 Zákazník: 
 * Doc. Ing. Pavel Král, Ph.D. 
 * Ing. Ladislav Lenc, Ph.D. 
 * Ing. Jiří Martínek 

 Mentor: 
 * Ing. Petr Pícha 

 h2. Funkční požadavky 

 * možnost nahrát XML dokument spolu s obrazových vzorem do systému 
 * systém provede zpracování a indexaci nově nahraných XML dokumentů 
 * vyhledat výraz v uložených dokumentech 
 * zobrazení výsledků vyhledávání 

 h2. Mimofunkční požadavky 

 * odezva systému bude menší než 1 sekunda 
 * systém nebude shromažďovat žádné osobní údaje o uživatelích 
 * systém bude uživatelsky přívětivý, tedy každý uživatel se dokáže v GUI rychle zorientovat 
 * GUI výsledku vyhledávání bude při větším počtu výskytů výsledek vyhledávání rozdělovat na více stránek, tedy systém bude podporovat funkci stránkování 
 * kód bude přehledný (odsazování, způsob pojmenování tříd a metod) 

 h2. Rizika projektu 

 * technologie požadovaná zákazníkem Apache Solr nebude použitelná kvůli závažným nedostatkům 
 ** Odstranění - použití jiné technologie 

 * úprava vyhledávání pro cizí jazyk nebude možná 
 ** Odstranění - (částečná) implementace této funkcionality jako součást projektu