diplomová práce

Rozpoznání klávesnice a kláves v obraze

Text práce 4.95 MB

Autor práce: Ing. Jan Lorenc

Ak. rok: 2022/2023

Vedoucí: Ing. Jan Pluskal, Ph.D.

Oponent: Ing. Ondrej Lichtner

Abstrakt:

Cílem práce je vytvoření řešení pro rozpoznání kláves na klávesnici za účelem automatizace robotického psaní na klávesnici. V rámci práce jsou vytvořeny datasety pro detekci klávesnice v obraze, rozpoznání znaků v obraze a dodatečnou korekci detekovaných znaků na základě různých rozložení klávesnic. Práce předkládá různé přístupy k řešení problému rozpoznání znaků na klávesnici a vybírá ten nejvhodnější. Navržený postup je rozdělen do 3 fází, kterým odpovídají připravené datasety. Pomocí neuronových sítí a Cannyho metody detekce hran se nejprve rozpozná klávesnice v obraze a následně se v nalezené klávesnici detekují jednotlivé znaky. V poslední fázi dochází k dodatečnému zpracování výsledků (oprava znaků, doplnění nerozpoznaných znaků, nalezení speciálních kláves apod.). Pro každou část jsou vyhodnoceny výsledky. Přínos práce spočívá ve vytvoření datasetů pro detekci klávesnice a jejích kláves a především modulárního a rozšiřitelného řešení pro detekční proces se slibnými výsledky.

Klíčová slova:

strojové učení, počítačové vidění, detekce objektů, rozpoznávání, neuronové sítě, Cannyho detektor hran, augmentace dat, detekce klávesnice, rozpoznání znaků

Termín obhajoby

21.06.2023

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky k obhajobě

  1. V práci sa zaoberáte detekciou rozloženia klávesnice počas post-processingu pre zvýšenie presnosti detekcie. Máte v pláne rozšíriť riešenie o iné rozloženia klávesníc, napríklad DVORAK? Ako by to zkomplikovalo riešenie?
  2. V návaznosti na predchádzajúcu otázku, aký je plán pre klávesnice s inými znakovými sadami (cyrilika, ázijské jazyky)?
  3. Který algoritmus jste použil pro detekci a jak jste zvolil jeho parametry?
  4. Zkoušel jste aplikaci v praxi?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Informační systémy a databáze (NISD)

Složení komise

doc. Ing. Radek Burget, Ph.D. (předseda)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
prof. RNDr. Alexandr Meduna, CSc. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)

Posudek vedoucího
Ing. Jan Pluskal, Ph.D.

Práce řeší problém detekce klávesnice a jednotlivých kláves z obrazu kamery robotické ruky. Práce byla oceněna na konferenci EXCEL@FIT. Dle studia SotA se jedná o unikátní a inovativní řešení. Implementace byla důkladně otestována a vyhodnocena. Výsledek bude nasazen v praxi ve firmě Y Soft.


Navrhuji hodnotit práci stupněm A jako výbornou.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Jedná se o zadání firmy Y Soft. Práce si klade za cíl rozpoznání klávesnice a kláves na různých typech zařízení a klávesnic. Dle provedeného SotA nebylo nalezeno dostupné řešení pro srovnání, proto hodnotím práci jako velmi obtížnou a inovativní.

Práce s literaturou

Autor samostatně nalezl 37 referenčních zdrojů převážně kvalitní literatury a relevantních online materiálů. Byla nalezena pouze jedna práce řešící obdobný problém, proti které se autor relevantně vymezuje.

Aktivita během řešení, konzultace, komunikace

Student začal na tématu pracovat se značným předstihem a udržel si konstantní tempo během obou semestrů. Konzultace byly iniciovány na popud studenta, který byl vždy velmi dobře připraven.

Aktivita při dokončování

Práce byla dokončena se značným předstihem a řádně konzultována.

Publikační činnost, ocenění

Autor se zúčastnil konference EXCEL@FIT, kde byl oceněn.

Výsledný počet bodů navržený vedoucím: 100

Známka navržená vedoucím: A

Posudek oponenta
Ing. Ondrej Lichtner

Celkovo prácu hodnotím na A. Jedná sa o kvalitné spracovanie aj technickej správy aj samotnej implementácie pre náročnú tému.


Súčasťou riešenia je aj vytvorenie datasetu, ktorý bol publikovaný na platforme Kaggle, ktorý je podľa slov študenta jediný voľne dostupný v kategórii klávesníc.


Študent svoju prácu prezentoval aj na konferencii Excel@FIT 2023 kde bola ohodnotená odbornou verejnosťou cenou Jiřího Kunovského.

Kritérium hodnocení Slovní hodnocení Body
Náročnost zadání

Stupeň hodnocení: obtížnější zadání

Zadanie vyžaduje rozsiahlejší priezkum do tématiky rozpoznávania objektov z obrazových dát. Zároveň v špecifickej problematike klávesníc, neexistujú jednoducho dostupné otvorené dátové sady a študent teda musel pripraviť vlastné.

Zadanie preto považujem za obtiažnejšie.

Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Všetky body zadanie boli splnené bez výhrad.

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Text práce je v obvyklom rozsahu, je informačne bohatý a je vhodne doplnený obrázkami, ktoré pomáhajú pochopeniu textu.

Prezentační úroveň technické zprávy

Technická správa je členená do logicky naväzujúcich kapitol štandardne usporiadaných do Teoretický rozbor "state of the art", Návrh a Implementácia, Vyhodnotenie. Všetok obsah je na správnom mieste, v poskytnutých informáciach sa dobre orientuje a je jednoducho pochopitelný.

100
Formální úprava technické zprávy

Práca je písaná v angličtine na skutočne kvalitnej úrovni. Neobsahuje skoro žiadne preklepy, logické alebo štylistické chyby.

100
Práce s literaturou

Študent v práci cituje z množstva relevantných zdrojov. Zoznam literatúry obsahuje 37 položiek. Odkazovaná literatúra obsahuje dobrý mix online zdrojov aj rôznych konferenčných alebo žurnálových článkov a kníh. V texte sú riadne odkazované.

100
Realizační výstup

Implementované riešenie je funkčné a bolo prezentované na osobnej konzultácii. Vytvorený kód je na vysokej úrovni, logicky zorganizovaný do modulov a tried s dedičnosťou tak aby bol modulárny a rozšíriteľný.

Riešenie je tiež plne zdokumentované dokumentačnými komentármi.

100
Využitelnost výsledků

Práca bola vypracovaná ako firemné zadanie pre spoločnost Y Soft, podľa ich požiadavkov a má teda priame praktické využtie v kombinácii s platformou AIVA.

Otázky k obhajobě:
  1. V návaznosti na predchádzajúcu otázku, aký je plán pre klávesnice s inými znakovými sadami (cyrilika, ázijské jazyky)?
  2. V práci sa zaoberáte detekciou rozloženia klávesnice počas post-processingu pre zvýšenie presnosti detekcie. Máte v pláne rozšíriť riešenie o iné rozloženia klávesníc, napríklad DVORAK? Ako by to zkomplikovalo riešenie?
Výsledný počet bodů navržený oponentem: 100

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová