Projekt

Obecné

Profil

Akce

Vize projektu

Cíl projektu

Projekt má za cíl vytvořit plně funkční webovou aplikaci pro fulltextové vyhledávání v historických obrazových dokumentech. Vytvořená aplikace bude vyvíjena podle potřeb zákazníka a jeho specifických požadavků. Webová aplikace bude pro zákazníka dalším krokem v jeho projektu pro zpracování obrazových dokumentů. Vstupní data pro tuto aplikaci budou pocházet z OCR systému, který je vytvářen zákazníkem, a vytváří soubory formátu XML z obrazových dokumentů. Projekt bude umožní zákazníkovi ve vytvořených XML dokumentech vyhledávat a výsledky vyhledávání přehledně zobrazovat v původních obrazových dokumentech.

Webová aplikace bude využívána historiky, archiváři a dalšími profesemi jimi podobnými. Umožní vyhledávání v historických dokumentech, které nemají digitální formu, a tím výrazně zrychlí vyhledávání specifických údajů v těchto dokumentech. Po nahrání všech dokumentů archivu či knihovny se vyhledávání údajů zkrátí z několika hodin či dní na pár vteřin. Výsledek vyhledávání bude obsahovat název dokumentu, stranu a odstavec, kde se hledaný výraz nalézá a tím bude následně možné originální dokument či knihu fyzicky dohledat.

Stakeholders

Vývojový tým:
  • Ondřej Váně
  • Jan Smolař
  • Zdeněk Častorál
  • Jitka Poubová
Zákazník:
  • Doc. Ing. Pavel Král, Ph.D.
  • Ing. Ladislav Lenc, Ph.D.
  • Ing. Jiří Martínek
Mentor:
  • Ing. Petr Pícha

Funkční požadavky

  • možnost nahrát XML dokument spolu s obrazových vzorem do systému
  • systém provede zpracování a indexaci nově nahraných XML dokumentů
  • vyhledat výraz v uložených dokumentech
  • zobrazení výsledků vyhledávání

Mimofunkční požadavky

  • odezva systému bude menší než 1 sekunda
  • systém nebude shromažďovat žádné osobní údaje o uživatelích
  • systém bude uživatelsky přívětivý, tedy každý uživatel se dokáže v GUI rychle zorientovat
  • GUI výsledku vyhledávání bude při větším počtu výskytů výsledek vyhledávání rozdělovat na více stránek, tedy systém bude podporovat funkci stránkování
  • kód bude přehledný (odsazování, způsob pojmenování tříd a metod)

Rizika projektu

  • technologie požadovaná zákazníkem Apache Solr nebude použitelná kvůli závažným nedostatkům
    • Odstranění - použití jiné technologie
  • úprava vyhledávání pro cizí jazyk nebude možná
    • Odstranění - (částečná) implementace této funkcionality jako součást projektu

Aktualizováno uživatelem Jan Smolař před více než 4 roky(ů) · 17 revizí