Bachelor's Thesis

Automated transcription and full score reconstruction of historical vocal books

Final Thesis 9.27 MB Appendix 12.35 MB

Author of thesis: Roman Ivakhniuk

Acad. year: 2025/2026

Supervisor: Mgr. Jan Faltýnek, Ph.D.

Reviewer: Ing. Jan Turčínek, Ph.D.

Abstract:

This bachelor's thesis presents a software solution for transcribing 17th-century historical music printed by Pierre Ballard. Currently, evaluating the sound of these digitized compositions is impossible before investing significant time into manual transcription. To solve this, this work implements a multi-stage Optical Music Recognition (OMR) pipeline using YOLO neural networks. The software, named nanoScore, breaks the transcription process into four steps: detecting staves, detecting musical symbols, classifying their vertical positions, and algorithmically reconstructing the polyphonic score into a MusicXML format. To handle occasional neural network prediction errors, an interactive semiautomatic mode allows users to correct mistakes before the final score is generated. Evaluation of the trained models shows high accuracy. Staff and symbol detection reached an mAP50 of 0.995 and 0.927, respectively, and position classification achieved a Top-1 accuracy of 0.982. When tested on a 384-page partbook, the software achieved rhythmic synchronization for 71.5% of the measures across all four voices. Running efficiently on a standard consumer CPU, the pipeline provides musicologists and laypersons with an accessible tool to generate an approximate sound assessment from images, allowing them to hear and evaluate a piece before committing to a manual transcription.

Keywords:

Historical music notation, Optical Music Recognition (OMR), object detection, image classification, YOLO (You Only Look Once), score reconstruction, MusicXML

Date of defence

16.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student seznámil komisi s výsledky své bakalářské práce a odpověděl na otázky oponenta. Následovala diskuze k závěrečné práci a otázky komise: Rozpoznání různých notových klíčů a jejich transpozice. Kontrola délky jednotlivých taktů. Student odpověděl na všechny doplňující dotazy ke spokojenosti komise.

Language of thesis

English

Faculty

Department

Study programme

Engineering (B-STR-P)

Specialization

Applied Computer Science and Control (AIŘ)

Composition of Committee

doc. Ing. Lukáš Novotný, Ph.D. (předseda)
doc. Ing. Miloš Hammer, CSc. (místopředseda)
Ing. et Ing. Stanislav Lang, Ph.D. (člen)
Mgr. Jan Faltýnek, Ph.D. (člen)
Ing. Petr Lošák, Ph.D. (člen)
Ing. Filip Kšica, Ph.D. (člen)
doc. Ing. Ivan Švarc, CSc. (člen)
doc. Ing. Radek Vlach, Ph.D. (člen)
Ing. Luděk Janák (člen)

Supervisor’s report
Mgr. Jan Faltýnek, Ph.D.

Bakalářská práce předložená panem Ivakhniukem je věnována automatizaci v oblasti přepisu historické hudební notace pomocí neuronových sítí. Konkrétním záměrem práce bylo provést rešerši současného stavu softwarových nástrojů a na jejím základě představit vlastní softwarové řešení pro přepis francouzských notových tisků ze 17. století.

Celá práce je sepsána v angličtině, což podle mě výrazně zvyšuje její možný dosah. Po formální stránce má text práce velmi dobrou úroveň s minimem překlepů a chyb (což je v době možností korektur pomocí AI snad již standardem) a je logicky rozdělena do osmi kapitol a několika příloh. Zdroje jsou přiměřeně citovány a srozumitelnost textového sdělení je podpořena řadou ilustrací s odkazy v textu. Součástí práce je také kompletní zdrojový kód vytvořeného softwaru nanoScore a jeho dokumentace.

Těžištěm práce je detailní rešerše zejména v oblasti použitelných architektur neuronových sítí, nalezení vhodného kandidátního modelu a jeho trénování na zvolené datové sadě. Nad touto natrénovanou sítí následně student vybudoval interaktivní software s GUI, který umožňuje jak plně automatizovaný přepis, tak editaci rozpoznaných prvků a následnou spartaci do formátu MusicXML. Ve finální fázi dochází rovněž k validaci výsledků formou porovnání délek stejných úseků v různých hlasech skladby.

Pozitivně hodnotím také samotný proces přípravy práce, jak z hlediska organizace práce, o čemž svědčí i pečlivě vystavěné sekce metodiky a implementace, tak i z pohledu samostatnosti. Mám snad jen poznámku k finální fázi přípravy práce, kde i kvůli střetu ambicí autora s termínem odevzdání zbýval jen malý prostor pro společnou diskusi a ladění jinak velmi kvalitního výsledného produktu.

Závěrem mohu tedy konstatovat, že bakalářská práce podle mého názoru zcela naplňuje (a v mnoha ohledech překonává) nároky kladené na bakalářské práce v oboru Aplikovaná informatika a řízení a splňuje i všechny cíle vytyčené v zadání. Proto doporučuji předloženou práci k obhajobě a navrhuji ji hodnotit známkou A.

Některé připomínky:

- Drobné překlepy (například chybně uvedení autoři citace [2]).
- Záměna popisků obrázků Fig 11g-i.
- Ačkoliv těžiště práce spočívá spíše v experimentálním nástroji než v produkčním softwaru, některé skripty jsou velmi obsáhlé. Pro případný další vývoj softwaru by určitě byla na místě refaktorizace kódu.
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii B
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A
Samostatnost studenta při zpracování tématu A

Grade proposed by supervisor: A

Reviewer’s report
Ing. Jan Turčínek, Ph.D.

Předloženou bakalářskou práci hodnotím jako velice zdařenou, a to jak svým obsahem, tak i mimořádným rozsahem provedených činností. Práce úspěšně řeší technologicky náročný úkol, který kombinuje zpracování historických hudebních pramenů s moderními metodami umělé inteligence.

Samotná fáze přípravy dat a natrénování neuronových sítí pro automatický přepis historických partitur je natolik komplexní, že by sama o sobě splňovala nároky na samostatnou a velmi kvalitní bakalářskou práci. Autor však nad rámec tohoto algoritmického jádra navrhl a implementoval také plně funkční grafické uživatelské rozhraní. Toto prostředí neslouží pouze k pasivnímu zobrazení výsledků, ale funguje jako interaktivní nástroj, který uživatelům umožňuje rozpoznané skladby pohodlně doeditovat. Výsledná aplikace tak má okamžitý praktický přínos.

Práci  doporučuji k obhajobě.

Otázky k obhajobě:

Jak moc obecný je Váš natrénovaný nástroj? Umožňuje spolehlivé rozpoznání hudebních partů i od jiných vydavatelů nebo ze zcela jiného historického období?

Co konkrétně by se muselo v systému změnit nebo doplnit (např. z hlediska trénovacích dat), aby aplikace dokázala úspěšně zpracovat i tato odlišná historická období?
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová