Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Boris Semanco
Acad. year: 2025/2026
Supervisor: doc. Ing. Vítězslav Beran, Ph.D.
Reviewer: Ing. Igor Szőke, Ph.D.
This thesis addresses the problem of automated dramatic audiobook generation from plain literary text. Existing text-to-speech systems produce monotonous, single-voice output that fails to capture the dramatic character of fiction. The proposed system solves this by combining a large language model with a neural text-to-speech engine in a three-stage pipeline: semantic analysis, human review, and audio synthesis. The semantic analysis stage uses Gemini 2.5 Flash to annotate every sentence with its speaker, emotion, and intensity, and to divide the text into scenes with associated mood labels. The synthesis stage uses the XTTS v2 model with zero-shot voice cloning and emotional reference samples from the RAVDESS dataset to generate character-consistent, emotionally expressive speech, which is then mixed with background music. A listener evaluation study with six participants showed that character voice distinction was rated comparably to professionally produced audiobooks, while emotional naturalness was identified as the primary area for further improvement. The system was successfully tested on several novels and demonstrates that high-quality dramatic audiobook generation is achievable without manual production work.
audiobook generation, text-to-speech, large language models, voice cloning, emotional speech synthesis, XTTS, RAVDESS, audio mixing
Date of defence
15.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Vítězslav Beran, Ph.D.
Boris Semanco approached his project with enthusiasm. He demonstrated the ability to work independently on a challenging topic, successfully identified the necessary study resources, and proposed practical solutions. During the system implementation, he demonstrated the ability to independently and constructively overcome technical difficulties.
This bachelor's thesis presents a more challenging task. Its goal is to automate the processing of a book in electronic form in order to generate an audio version with dramatic elements. Among other things, the author focused on generating dialogues involving multiple characters. The topic required familiarity with audiobook production processes and an understanding of the attributes of various LLM models, both for text analysis and for generating speech from text (text-to-speech). The student successfully designed a procedure for automating the process while preserving the possibility of user intervention, selected appropriate tools, and implemented a functional system. The assignment was completed in full, and I am satisfied with the results. This work is not related to any other projects.
Student actively searches for relevant resources and materials. He drew on several key scholarly sources and, to a lesser extent, less methodologically rigorous materials.
Throughout the project, Boris Semanco was active and showed a keen interest in the topic. He attended consultations as scheduled and always presented preliminary practical results. Initially, the student kept his ideas mainly in his head, so it took some time to establish a common professional tone and move on to methodological considerations. In the initial phase, he focused more on the general implementation of the entire system; later, he also addressed more methodological and key aspects, as well as specific tasks.
Work on developing the system and preparing the test dataset proceeded smoothly and according to schedule, allowing it to be completed well in advance. The final content and the experiments conducted were thoroughly reviewed. The supervisor’s recommendations were taken into account and incorporated.
Grade proposed by supervisor: B
Reviewer’s reportIng. Igor Szőke, Ph.D.
Celkově se jedná o nadprůměrnou práci. Text dobře popisuje postup řešení a technické řešení je funkční. Výsledek byl dobře otestován a vyhodnocen. Pro lepší hodnocení by text měl být v některých částech detailnější a student by měl během řešení vyzkoušet a vyhodnotit více přístupů.
Evaluation level: průměrně obtížné zadání
Jedná se o průměrně obtížné zadání s dostatkem prostoru pro možné rozšíření.
Text práce je pochopitelný a má logickou strukturu. Student dobře popisuje a vysvětluje postup řešení bez zbytečné vaty. V textu mi chybí více schémat a obrázků, které by pomohly čtenáři ještě lépe pochopit práci. Dále bych uvítal, kdyby v příloze byly uvedeny příklady promptů. V textu student nediskutuje nákladovou stránku generované audio knihy.
Text práce je psán dobrou angličtinou a má dobrou typografickou úpravu. Našel jsem jen pár drobných chyb.
Technické řešení včetně dokumentace je "stručnější" a funkční. Generované audio knihy jsou poslouchatelné, nicméně je jasně slyšitelný vliv syntézy. Student nadprůměrně pečlivě otestoval kvalitu výstupu. Chybí mi hlubší analýza více nástrojů pro syntézu, různých promptů pro LLM s následnou evaluací posluchači.
Výsledek je dle mého názoru použitelný, i když pro běžné audioknihy výstup ještě nedosahuje kvalit, které bych očekával.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Student použil existující nástroje a knihovny všude, kde to dávalo smysl. Citovaná literatura je na dobré úrovni a pokrývá řešené téma.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová