Doctoral Thesis

Text Mining Based on Artificial Intelligence Methods

Final Thesis 2.41 MB Summary of Thesis 835.14 kB

Author of thesis: Ing. Lukáš Povoda, Ph.D.

Acad. year: 2018/2019

Supervisor: prof. Ing. Radim Burget, Ph.D.

Reviewers: Univ. Prof. Dr. Peter Brezany, prof. Ing. Jana Tučková, CSc.

Abstract:

This work deals with the problem of text mining which is becoming more popular due to exponential growth of the data in electronic form. The work explores contemporary methods and their improvement using optimization methods, as well as the problem of text data understanding in general. The work addresses the problem in three ways: using traditional methods and their optimizations, using Big Data in train phase and abstraction through the minimization of language-dependent parts, and introduction of the new method based on the deep learning which is closer to how human reads and understands text data. The main aim of the dissertation was to propose a method for machine understanding of unstructured text data. The method was experimentally verified by classification of text data on 5 different languages – Czech, English, German, Spanish and Chinese. This demonstrates possible application to different languages families. Validation on the Yelp evaluation database achieve accuracy higher by 0.5% than current methods.

Keywords:

Artificial intelligence, data mining, emotion classification, genetic programming optimization, natural language processing, sentiment analysis, text data, text mining

Date of defence

14.12.2018

Result of the defence

Defended (thesis was successfully defended)

znamkaPznamka

Process of defence

Oba oponenti doporučují práci k obhajobě. Cíle disertační práce byly splněny, za získanými výsledky se skrývá velmi mnoho experimentální práce. Hlavní části práce byly publikovány v prestižních zahraničních časopisech. Disertant odpověděl správně na všechny otázky členů komise.

Language of thesis

Slovak

Faculty

Department

Study programme

Electrical Engineering and Communication (EKT-PK)

Field of study

Teleinformatics (PK-TLI)

Composition of Committee

prof. Ing. Zdeněk Smékal, CSc. (předseda)
prof. Ing. Ivan Baroňák, CSc. (člen)
prof. Ing. Boris Šimák, CSc. (člen)
prof. Ing. Miroslav Vozňák, Ph.D. (člen)
prof. Ing. Kamil Říha, Ph.D. (člen)
prof. Ing. Jiří Mekyska, Ph.D. (člen)
Univ. Prof. Dr. Peter Brezany - oponent (člen)
prof. Ing. Jana Tučková, CSc. - oponent (člen)

Supervisor’s report
prof. Ing. Radim Burget, Ph.D.

Ing. Lukáš Povoda pracoval během svého doktorského studia samostatně a svědomitě plnil pokyny školitele. Aktivně se podílel nejen na přípravě doktorské práce, ale účastnil se v rámci hospodářské činnosti v oblasti big-data pro společnost Honeywell, kde analyzoval přibližně 120 TB dat. Výsledky této činnosti pomohly identifikovat možnosti úspor v objemu přibližně $6.7 mil. / rok. V rámci jeho disertační práce se podařilo v přesnosti překonat stav vědy a techniky v oblasti analýzy textu a to s 90% úsporou paměti. Jako jeho školitel doporučuji jeho disertační práci přijmout k obhajobě.

Reviewer’s report
Univ. Prof. Dr. Peter Brezany

viz příloha pdf
File inserted by the reviewer Size
Posudek oponenta [.pdf] 1,73 MB

Reviewer’s report
prof. Ing. Jana Tučková, CSc.

viz příloha pdf
File inserted by the reviewer Size
Posudek oponenta [.pdf] 231,06 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová