Project Detail

Funding resources

Ministerstvo kultury ČR - NAKI III – program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030

On the project

Jazyk je základním spojovacím prvkem každého národa a jeho teritoriální nářečí jsou důležitou součástí regionální identity. V moderním světě nářečí postupně mizí, jejich variabilita se zmenšuje a postupně se asimilují do jazyka představovaného mainstreamovými médii a internetem. Kvůli značným nákladům na pořizování a anotaci trénovacích jazykových dat mají nářečí prakticky nulovou podporu v moderních technologiích umělé inteligence (AI) a strojového učení (ML) reprezentovaných především automatickým rozpoznáváním řeči (ASR). V České republice se studiu nářečí věnuje dialektologické oddělení ÚJČ AV ČR, které je jediným akademickým pracovištěm systematicky se zabývajícím výzkumem nespisovných útvarů českého národního jazyka. Toto pracoviště ale postrádá jakékoliv moderní technologie pro automatické zpracování, uchování, dokumentaci a prezentaci nářečí. Výstupy dialektologického oddělení jsou navíc dostupné především odborné veřejnosti, chybí ale moderní interaktivní webové aplikace nebo služby využitelné širokou veřejností. Projekt, který je navržený specialisty na ASR (VUT), dialektology (ÚJČ) a odborníky na interaktivní mapové zobrazování (UPOL), si klade za cíl adaptovat existující technologie a vyvinout nové postupy pro automatické zpracování, uchování, dokumentaci a prezentaci nářečí českého jazyka. Nejprve bude zpracována podrobná metodika pro převod strukturovaných znalostí z dialektologie do strojového učení, kde je dominantní práce s daty. Stávající Archiv zvukových záznamů nářečních promluv (budovaný v ÚJČ od r. 1952 do současnosti a obsahující nahrávky s celkovou délkou záznamu přes 750 hodin) bude doplněn metadaty a bude připraven pro strojové učení. Zároveň jako prerekvizitu vyvineme software pro detekci dialektu na základě audionahrávky.

Description in English
Language is a fundamental connecting element of every nation and its territorial dialects are an important part of regional identity. In the modern world, dialects are gradually disappearing, their variability is diminishing and they are gradually assimilating into the language represented by the mainstream media and the Internet. Due to the significant costs of acquiring and annotating training language data, the dialects have virtually zero support in modern artificial intelligence (AI) and machine learning (ML) technologies, represented mainly by automatic speech recognition (ASR). In Czechia, the dialectology department of the Czech Academy of Sciences, Czech Language Institute (ÚJČ AV ČR) is systematically engaged in research of colloquial phenomena of the Czech national language, is dedicated to the study of dialects. However, ÚJČ lacks any modern technology for automatic processing, storage, documentation and presentation of dialects. Also, the outputs of the dialectology department are available primarily to the scientific community; there is a lack of modern interactive web applications or services that could be used by the general public. The project, proposed by ASR specialists (BUT), dialectologists (ÚJČ) and interactive map imaging experts (UPOL), aims to adapt existing technologies and develop new procedures for automatic processing, storage, documentation and presentation of Czech language dialects. A detailed methodology for the transfer of structured knowledge from dialectology to machine learning (where work with data is dominant) will be developed. The existing Archive of Sound Recordings of Dialect Speech (built in ÚJČ from 1952 to the present and containing over 750 hours of recordings) will be supplemented with metadata and prepared for machine learning. As a prerequisite, we will develop software for dialect detection based on audio recording.

Keywords
Český jazyk, dialekty, dialektologie, umělá inteligence, řečová a jazyková data, automatická identifikace nářečí, automatické rozpoznávání řeči, interaktivní mapy, jazyková paměť regionů

Key words in English
Czech language, dialects, dialectology, artificial intelligence, speech and language data, automatic dialect identification, automatic speech recognition, interactive maps, language memory of regions

Mark

DH23P03OVV010

Default language

Czech

People responsible

Karafiát Martin, Ing., Ph.D. - principal person responsible
Kocour Martin, Ing. - fellow researcher
Kotolan Martin - fellow researcher
Sedláček Šimon, Ing. - fellow researcher
Yusuf Bolaji - fellow researcher
Žižka Josef, Ing. - fellow researcher

Units

Department of Computer Graphics and Multimedia
- responsible department (19.4.2022 - not assigned)
Speech Data Mining Research Group BUT Speech@FIT
- internal (1.3.2023 - 31.12.2027)
Department of Computer Graphics and Multimedia
- beneficiary (1.3.2023 - 31.12.2027)

Results

ŠIMEČKOVÁ, M.; KARAFIÁT, M.; PLCHOT, O. Using machine learning for automatic dialect detection. New methods in Czech dialectology. In Slovanské dialek ty v době dig itál ních technologií. Nářeční prameny a jejich současné zpracování. Praha: Slovanský ústav AV ČR, 2025. p. 297.ISBN: 978-80-86420-99-8.
Detail

ŠIMEČKOVÁ, M.; STUPŇÁNEK, B.; KARAFIÁT, M.; VONDRÁKOVÁ, A.; VOŽENÍLEK, V.; NÉTEK, R.: Metodika pro převod strukturovaných znalostí z oboru dialektologie do strojového učení. URL: https://www.fit.vut.cz/research/product/843/. (Metodiky certifikované)
Detail

PLCHOT, O.; ODEHNAL, O.; KARAFIÁT, M.; ŽIŽKA, J.; ŠIMEČKOVÁ, M.: Automatický detektor dialektu na základě audionahrávky. URL: https://www.fit.vut.cz/research/product/837/. (Software)
Detail

BENEŠ, K.; KOCOUR, M.; BURGET, L. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11276-11280. ISBN: 979-8-3503-4485-1.
Detail

MATĚJKA, P.; SILNOVA, A.; SLAVÍČEK, J.; MOŠNER, L.; PLCHOT, O.; KLČO, M.; PENG, J.; STAFYLAKIS, T.; BURGET, L. Description and Analysis of ABC Submission to NIST LRE 2022. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. iss. 08, p. 511-515. ISSN: 1990-9772.
Detail

Martin Karafiát, Josef Žižka, Marta Šimečková, Bronislav Stupňánek: Rozpoznávač řeči adaptovaný pro generování dialektologické transkripce z audionahrávek. URL: https://prepis.jamap.cz/. (Software)
Detail

Šimečková Marta, Kubeček Filip, Přadková Petra, Stupňánek Bronislav, Šuta Radek, Temer Šimon, Nétek Rostislav, Barvíř Radek, Voženílek Vít, Vondráková Alena, Žižka Josef.: Diferenční hlásky v nářečích českého jazyka – soubor tří interaktivních syntetických map s odborným komentářem. URL: https://fonomapy.jamap.cz/. (Specializovaná mapa s odborným obsahem)
Detail

Link

https://www.jamap.cz/

Responsibility: Karafiát Martin, Ing., Ph.D.

VUT

Faculties and university institutes

Parts

Language memory of the regions of the Czech Republic. Machine learning methods for preservation, documentation and presentation of the dialects of the Czech language