Bachelor's Thesis

Listening test for recognizing harmonics, inharmonic and noise spectra

Final Thesis 3.9 MB Appendix 10.52 MB

Author of thesis: David Michael Novotný

Acad. year: 2025/2026

Supervisor: MgA. et Mgr. Ondřej Jirásek, Ph.D.

Reviewer: Ing. Zdeněk Otčenášek, Ph.D.

Abstract:

This thesis focuses on the psychoacoustic analysis of the sound spectra of various types, especially the comparison of harmonic, inharmonic, and noise spectra. It also determines the sensitivity thresholds of human hearing. The sound samples were selected and created according to the theory and previous experimental research. The aim of the thesis is to verify theoretical findings through a listening test and, based on its results, to draw conclusions and evaluate the contribution of this work.

Keywords:

Psychoacoustics, spectrum, harmonic bands, inharmonic components, noises, masking, human hearing limits, semantic differential, adaptive staircase method, listening test

Date of defence

18.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta. Otázky: 1) 1. Z čeho vycházejí matematické modely Vámi použitých psychoakustických metrik? Prosím o vysvětlení principů i o upřesnění jednotlivých proměnných v rovnicích a jejich názvů. 2) 2. Jaké byly histogramy četností hodnot odpovědí v jednotlivých testech? Prosím o přesnější odlišení test/retest či prahy nejen pro jednotlivé vlastnosti, ale i pro jednotlivé zvukové podněty (u nich prosím o více intuitivní vystižení odlišnosti, než pořadovým číslem, např. miniaturou spektra). V případě, že použijete 3D graf (jako v Obr. 8.22 až 8.26), prosím o monochromatickou škálu, kde 0 bude bílá barva.

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (BPC-AUD)

Specialization

Audio Production and Recording (AUDB-ZVUK)

Composition of Committee

prof. Mgr. Pavel Rajmic, Ph.D. (předseda)
MgA. et Mgr. Ondřej Jirásek, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Richard Ladislav (člen)
Ing. Václav Mach, Ph.D. (člen)

Student měl za úkol realizovat poslechový test zkoumající úrovně, kdy posluchač dokáže či už nedokáže rozpoznat, zda se jedná o spektrum harmonické, neharmonické nebo šumové, případně spektra různě kombinovaná, a navíc posazená do jiných Barkových pásem s různě intenzivními složkami výše zmíněných tří druhů témbrů.

Student samostatně nastudoval příslušnou literaturu a připravil pilotní test. Ten sloužil k pozdějšímu ostrému testu, který student rozdělil na dvě části: v první části pomocí sémantického diferenciálu a polarit zkoumal, jakou měrou respondenti hodnotí drsnost/hladkost, ostrost/tupost, temnost/jasnost, úzkost/širokost, tónovost/šumovost čistějších i kombinovaných vzorků. V druhé části pak zkoumal pomocí adaptivního schodovitého testu rozpoznatelné prahy rozladění a práh šumovosti.

Student pomocí syntéz vyrobil 15 zvukových vzorků určených pro sémantický diferenciál, dle spektrálních a psycho akustických metrik změřil jejich hodnoty související s danými polaritami a 54 vzorků pro adaptivní schodovitý text. V prostředí HTML, CSS a JavaScript připravil online dotazník. Zabezpečil panel deseti odborných respondentů (převážně zvukových inženýrů) a provedl poslechové testy.

Pomocí korelace provedl vyhodnocení polarit, popsal a vyhodnotil i vztahy mezi jednotlivými pěti kategoriemi. Okomentoval jednoznačné i rozporuplnější výsledky, a hlavně provedl Pearsonovu kontrolu odpovědí (ověření homogenity odpovědí a stability metodiky měření) i Spearmanovu kontrolu odpovědí (konzistentnost pořadí v hodnocení jednotlivých vzorků). Na základě shod potom posoudil věrohodnost získaných výsledků celkově i v jednotlivých kategoriích.

Oceňuji studentovu samostatnost i detailní práci. Points proposed by supervisor: 95

Grade proposed by supervisor: A

Název diplomové práce: Poslechový test pro rozpoznání harmonických, neharmonických a šumových spekter
Celkové hodnocení diplomové práce: C (70 bodů ze 100)
Prezentační úroveň:
Vymezení cíle a jeho naplnění: Cíl práce není autorem explicitně vyjádřen. V Pokynech  pro vypracování je uvedeno: 1. nastudování literatury o rozdílech mezi hustými harmonickými, neharmonickými a šumovými spektry, 2. příprava
poslechového testu a aplikace pro něj za účelem stanovení hladiny, kdy posluchač do/nedokáže rozpoznat jakost spektra pro jednotlivá i kombinovaná barková pásma v návaznosti na hladiny citlivosti lidského sluchu, 3. pomocí
Pearsonovy či Spearmanovy metriky stanoví ideální počet respondentů a bude-li do počtu 30, provede s tímto počtem test.
V Abstraktu je uvedeno: 1. že se práce zabývá psychoakustickou analýzou zvukových spekter různého charakteru a porovnáním harmonických, neharmonických a šumových spekter, 2. výstupem má být též stanovení prahových hladin citlivosti lidského sluchu, 3. cílem je ověření teoretických poznatků prostřednictvím poslechového testu a vyvození závěrů a přínos práce. K tomu byly vybrány a vytvořeny zvukové ukázky na základě teorie a předchozího
experimentálního výzkumu.
V Úvodu je uvedeno: 1. Cílem je experimentálně ověřit schopnosti lidského sluchu v rozlišování různých typů spekter. K tomu byl navržen a vytvořen interaktivní poslechový test k rozeznání v jakých minimálních mezích je
respondent ještě schopen rozpoznat rozdíly v narušení harmonicity či míře šumovosti, 2. Cílem je stanovit prahové hladiny rozpoznatelnosti na základě různě odlišných a podobných vzorků, přičemž data jsou statisticky analyzována,
metrikami korelace, které umožňují kvantifikovat míru shody mezi jednotlivými respondenty.
V Závěru je uvedeno: Úkolem bylo na základě nastudované odborné literatury o zvukovém spektru a jeho vlastnostech připravit psychoakustický poslechový test, který ověří teoretické poznatky o vnímání zvuku člověkem a podle reálných výsledků stanoví prahové hladiny lidského sluchu.
Je tak obtížné posoudit naplnění cíle. Z práce vyplývá, že autor postupoval podle 1. a 2. bodu Pokynů pro vypracování, z jejich 3. bodu jsem našel pouze ověření korelační shody posluchačů, nikoli stanovení ideálního počtu.
Formální úprava, původnost, logická stavba, členění práce:
Práce je členěna do Úvodu, 7 kapitol s členěním na podkapitoly, Závěru, Literatu ry a Příloh. V kapitole 1. Psychologická akustika jsou stručně uvedeny základní pojmy (psychoakustika, témbr, maskování) a mechanismus slyšení (sluchový orgán a oblast slyšitelnosti). Údaje jsou zde však až příliš stručné (např. uveden je jen to notopický princip určení výšky) a i nepřesné (jako ukázku nepřesnosti uvedu např.: „na bazilární membráně … vzniká samotný zvukový vjem“ - ne, ten vzniká až ve sluchové kůře; „rychlost šíření zvukové vlny v hlemýždi se mění … dochází
k místnímu zesílení vibrací bazilární membrány“ - ne, zesílení nemá příčinu ve změně rychlosti šíření, ale v sekundárních zdrojích z prvotních výchylek membrány; „Každý hudební nástroj nebo lidský hlas má své unikátní … rozložení forman tových oblastí … i v případě, kdy daný souzvuk mění svou výšku tónu, formantové oblasti zachovávají svůj tvar“ - ne, takto je tomu jen u některých zdrojů zvuku; „k jevu zvanému maskování dojde … dva podobné zvukové signály … jeden je silnější“ - ne, kmitočtové maskování není dáno podobností signálů, ale přítom
ností dominantních frekvenčních složek spektra, které neumožní detekci dalších složek spektra, a to i v rámci téhož signálu; nepřesností je ještě více).
V kapitole 2. Spektrum jsou definovány klíčové vlastnosti zvukového spektra, ze kterých mají následně vycházet návrh a tvorba testovacích zvukových vzorků (autor používá tento název namísto obvykle více používaného psychoakustického pojmu podněty nebo stimuly). I zde jsou nepřesnosti (např. „Neharmonické spektrum … frekvenční složky zvuku nezaujímají celočíselné poměry vůči její základní frekvenci“ - ne, nejde o poměry, ale o násobky; „šedý šum, jehož charakteristika je inverzní křivkou citlivosti lidského sluchu vnímání hlasitosti ve spektru“
ne, charakteristkou je rozložení amplitud ve spektru, které má inverzní průběh ke křivkám stejné hlasitosti; „vzorec (1) vyjadřuje, jak široký filtr používá lidské ucho“ - ne, lidské ucho nepoužívá filtr, při zpracování na BM může být vnímání frekvenčních složek oslabeno, jako by tomu bylo při filtraci, ale správně by mělo být: vzorec modeluje šíři frekvencí kolem dominantní střední frekvence, ve kterém je vnímání ostatních frekvencí oslabeno).
V kapitole 3. Periodické signály jsou uvedeny matematická podstata periodických signálů a principy harmonické analýzy (přesněji by mělo být spektrální analýzy).
V kapitole 4. Praktický výzkum experimentem jsou uvedeny principy 2 použitých psychoakustických metod (sémantický diferenciál, schodovitá metoda), výběr respondentů a charakterizace vlastností zvukových podnětů, které autor pomocí uvedených metod předkládá k posouzení (drsnost, jasnost, ostrost a rozpětí spektra, rozladění, šumovost, harmonický poměr). Formálně jsou v kapitole pro pojeny, ale jde o představení metod, které nemají logickou souvislost, měly by být prezentovány odděleně. I zde jsou nepřesnosti (např. „test se adaptivně
stává složitějším anebo snazším“ - ne, test je stejný, mění se míra odlišnosti testované vlastnosti, autor v následující větě míru odlišnosti označuje nepřesně jako „hloubka odlišnosti“; „Drsnost … (15 až 300 Hz) a je definována jako energie tepových frekvencí … Ukazuje, jak rychle dochází k amplitudovým změnám (tření)“ - ne, dolní mez je udávána 20 Hz, nepoužívá se tepová frekvence či tření, nezpůsobuje rázy, text působí, že jde o nezkontrolované vyhledání a překlad pomocí AI; „vnímaná hloubka této modulace (rozdíl mezi vrcholem a propadem vnímané hlasitosti)“ - ne, nejde o hlasitost, ΔL je charakteristika signálu, nikoli sluchového vjemu; „jasnost … těžištní bod … indikuje, kde je zvuk kmitočtově nejhustší“ - ne, nejde o hustotu kmitočtů; „hodnotí zvukové vzorky tzv. obkroč
mo“ - obvykle se používá pojem retest).
V kapitole 5. Vzorky je uveden postup vytváření testovaných podnětů. Autor je označuje jako vzorky a v jejich názvech používá označení gradient G (u 3 typů vlastností, které proměňuje: změny míry G1 harmonicity a rozladění, G2 harmonickosti a šumovosti, G3 drsnostních rázů) nebo žebřík Z (Z1 pro 8 změn rozladění harmonických složek vůči celočíselnému násobku základní frekvence: o 40, 25, 15, 10, 6, 3, 1 a 0,5 centu, Z2 pro 8 procentních poměrů zvukové energie mezi šumem/sinusovým tónem: 80/20, 60/40, 40/60, 25/75, 15/85, 8/92, 4/96, 2/98 %). Výsledný seznam je uveden v Tab 5.1 a 5.2. V názvech vzorků je však polovina textu jen variací písemného kódu (např. G1_C_MediumDetune). Pro čtenáře by bylo vhodné tuto část názvu vynechat a více upřesnit, co a o kolik bylo variováno (u Z podnětů přehled variované vlastnosti chybí úplně).
V kapitole 6. Implementace testu do uživatelského rozhraní je uveden přehled o realizaci aplikace vytvořené autorem k testování (výpis programu je uveden v Příloze) a ukázka obrazovek z jejího použití. Jsou zde i technické podmínky
provedení testu, které by ale měly být podrobnější a patří do kapitoly o provedení testu (kterou postrádám) nebo alespoň do popisu metodiky (v Kapitole 4).
V kapitole 7. Vyhodnocení a výsledky experimentu jsou nejprve uvedeny principy korelační analýzy, které by měly být v Kapitole 4. v metodách, následně jsou prezentovány výsledky inter-individuální shody a pak jsou diskutována porovnání subjektivních výsledků jednotlivých typů poslechových testu s výpočtymodelů psychoakustických metrik. Očekával bych nejprve uvedení samotných výsledků a následně jejich vyhodnocování k jednotlivým účelům dle zadání (shodarespondentů, rozlišitelnost určitých vlastností, odhad prahových hodnot). Grafická forma použitá v Příloze v Obr. 8.22 až 8.26 neumožňuje čtenáři rychlou orientaci v odpovědích respondentů ani neprezentuje výsledky jednotlivých statistických analýz.  Diskuze k získaným výsledkům by měla být oddělena od prezentovaných
dat, jelikož v ní autor často spíše vytváří hypotézy na úkor objektivních analýz.
V kapitole 8. Závěr autor shrnuje své v pohledy na získaná data (diskutované v Kapitole 7.) a zabývá se přínosem a možnostmi použití těchto poznatků.
Práce s literaturou:
Odkazy na informační zdroje jsou souhrnně uvedeny v části Literatura. Problema tické jsou zde odkazy na bakalářské práce, které ze své podstaty nejsou dosta tečně recenzovanými vědeckovýzkumnými pracemi. Stejně jako v této Bc práci je v nich často řada informačních a metodických chyb. U rovnic (12 až 16) výpočetních modelů psychoakustických metrik odkaz na literaturu zcela chybí a tak to spolu s nepřesným českým popisným textem ještě více nasvědčuje, že jde o výsledek vyhledání pomocí AI. 
Jazyková, stylistická a terminologická úroveň:
V práci se vyskytuje minimum pravopisných a stylistických chyb nebo překlepů. Terminologické nedostatky jsem uvedl v textu Formální úprava … .     
Odborná úroveň:
V práci se vyskytují nedostatky, které snižují odbornou úroveň jinak rozsáhlého a provedením časově náročného výzkumu, který autor realizoval. K nepřesnostem, které jsem uvedl v textu Formální úprava … se přidružují i metodické chyby (není známo, že stupnice použité v metodě sémantického diferenciálu jsou metrické, Pearsonova korelační analýza nemá být použita; kritické hodnoty bez vazby na statistickou významnost neposkytují přehled o hodnocených dějích; ostrost, jako výsledek jasnosti, úzkosti a drsnosti měla být zpracována metodicky odlišně). V
samotné metodice kvantitativního výzkumu postrádám stanovení hypotéz, které by pak bylo možné snadněji diskutovat a potvrzovat/vyvracet statistickými metodami. Jelikož bakalářská práce nemusí nutně přinášet nové poznatky, nepředpokládá se, že se během bakalářského studia student seznámí se všemi potřebnými detaily, které má odborná vědecká práce a publikace splňovat. Proto se nezabývám problémy s použitými typy spekter a variováním charakteristik, které do podnětů přinášely další skryté faktory ovlivňující získané výsledky. Z hlediska
budoucího uplatnění získaných výsledků by ale měl být tento výzkum doplněn dalšími experimenty, které by skryté faktory eliminovaly a pak by výsledky mohly být přínosné pro praxi.
Aktuálnost tématu, případné využití v praxi: Téma je stále aktuální. V praxi kolují modely psychoakustických metrik, které nedávají v konkrétních situacích relevantní hodnoty. Výsledky však v praxi nejsou přímo použitelné, budou vyžadovat další doplňující experimenty, které by měly odstranit odborné nedostatky (např. autor sám uvádí, že ve skupině respondentů nebyl zohledněn faktor výběru vhodného počtu a zastoupení různých skupin v populaci posluchačů).
Celkové shrnutí hodnotitele: Autor postupoval podle pokynů pro vypracování. Některé nemohl splnit (bez předběžného experimentu neměl možnost stanovit, jak početný panel respondentů je pro shodu ideální; bez dalších experimentů, které by ověřily metriku mezi hodnotami škály nemohl použít Pearsonovu korelaci). Množství nepřesností a chyb v teoretické části však není vyváženo rozsahem uskutečněné práce (obvykle je rozsah práce na úkor zpracování textů, na který již nezbývá čas). Autor prokázal, že základy metodiky zvládl a požadavky na vypra
cování splnil. Nedostatky, které mě vedly ke snížení hodnocení, jsem uvedl vpředchozích odstavcích. Topics for thesis defence:
  1. 1. Z čeho vycházejí matematické modely Vámi použitých psychoakustických met rik? Prosím o vysvětlení principů i o upřesnění jednotlivých proměnných v rovni cích a jejich názvů.
  2. 2. Jaké byly histogramy četností hodnot odpovědí v jednotlivých testech? Prosím o přesnější odlišení test/retest či prahy nejen pro jednotlivé vlastnosti, ale i pro jednotlivé zvukové podněty (u nich prosím o více intuitivní vystižení odlišnosti, než pořadovým číslem, např. miniaturou spektra). V případě, že použijete 3D graf (jako v Obr. 8.22 až 8.26), prosím o monochromatickou škálu, kde 0 bude bílá barva.
Points proposed by reviewer: 70

Grade proposed by reviewer: C

File inserted by the reviewer Size
Posudek oponenta [.pdf] 86,87 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová