Detail projektu

Zdroje financování

Evropská unie - MEZISEKTOROVÁ SPOLUPRÁCE

O projektu

Cílem projektu "Umělá inteligence a jazykové a řečové technologie: od výzkumu k aplikacím" je:
1. Prohloubení a realizace spolupráce mezi výzkumnými organizacemi a aplikační sférou: konkrétně mezi Univerzitou Karlovou (Ústav formální a aplikované lingvistiky MFF UK); Vysokým učením technickým v Brně (Fakulta informačních technologií, FIT VUT) a firmami Phonexia s.r.o.; Mamma AI Coolma, s.r.o. a Phrase, a.s. například ve věci vzájemné výměny znalostí, ověření parametrů výzkumných výsledků pro jejich uplatnění v praxi a získání přístupu podniků k hraničnímu poznání a pokročilým metodám, modelům a technologiím.
2. Realizace naplánovaného komplexního výzkumného záměru a čtyřech pracovních balíčků (WP) ve spolupráci se subjekty aplikační sféry, zejména s Phonexia s.r.o.; Mamma AI Coolma, s.r.o. a Phrase a.s. a s dalšími spolupracujícími subjekty.
3. Příprava a podání společně zpracovaných projektových žádostí se subjekty z aplikační sféry: zejména v oblastech navazujících na plánované čtyři pracovní balíčky v rámci VZ1, a to účastí v národních i mezinárodních soutěžích/programech či v přístupových projektech ke kapacitám velkých výzkumných infrastruktur
4. Zapojení zástupců aplikační sféry do výuky: zejména potom odborníků z Phonexia s.r.o.; Mamma AI Coolma, s.r.o. a Phrase a.s., případně dalších spolupracujících subjektů v tématech souvisejících s navrženou výzkumnou agendou.

Popis anglicky
The aim of the project "Artificial intelligence and language and speech technologies: from research to applications" is:
1. Deepening and implementation of cooperation between research organizations and the application sphere: specifically between Charles University (Institute of Formal and Applied Linguistics, MFF UK); Higher technical education in Brno (Faculty of Information Technologies, FIT BUT) and the companies Phonexia s.r.o.; Mamma AI Coolma, s.r.o. and Phrase, a.s. for example, in the matter of mutual exchange of knowledge, verification of the parameters of research results for their application in practice and obtaining access of enterprises to frontier knowledge and advanced methods, models and technologies.
2. Realization of the planned comprehensive research plan and four work packages (WP) in cooperation with subjects of the application sphere, especially with Phonexia s.r.o.; Mamma AI Coolma, s.r.o. and Phrase a.s. and with other cooperating entities.
3. Preparation and submission of jointly processed project applications with subjects from the application sphere: especially in areas related to the planned four work packages within VZ1, namely participation in national and international competitions/programs or in access projects to the capacities of large research infrastructures
4. Involvement of representatives of the application sphere in teaching: especially then experts from Phonexia s.r.o.; Mamma AI Coolma, s.r.o. and Phrase a.s., or other cooperating entities in topics related to the proposed research agenda.

Klíčová slova
Umělá inteligence, jazykové a řečové technologie

Klíčová slova anglicky
Artificial intelligence, language and speech technologies

Označení

EH23_020/0008518

Originální jazyk

čeština

Řešitelé

Černocký Jan, prof. Dr. Ing. - hlavní řešitel
Diez Sánchez Mireia, M.Sc., Ph.D. - spoluřešitel
Han Jiangyu - spoluřešitel
Jírovec Martin, Ing. - spoluřešitel
Kesiraju Santosh, Ph.D. - spoluřešitel
Kocmanová Martina, Ing. - spoluřešitel
Kudla Radim, Ing. - spoluřešitel
Mošner Ladislav, Ing., Ph.D. - spoluřešitel
Polok Alexander, Ing. - spoluřešitel
Singh Prachi, B.Tech., Ph.D. - spoluřešitel
Szőke Igor, Ing., Ph.D. - spoluřešitel
Vendrame Katia, Ing. - spoluřešitel

Útvary

Ústav počítačové grafiky a multimédií
- odpovědné pracoviště (29.1.2024 - nezadáno)
Seznam.cz, a.s.
- interní (1.1.2025 - 31.12.2028)
Výzkumná skupina dolování dat z řeči BUT Speech@FIT
- interní (1.1.2025 - 31.12.2028)
MAMA AI Coolma, s.r.o.
- spolupříjemce (1.1.2025 - 31.12.2028)
Phonexia
- spolupříjemce (1.1.2025 - 31.12.2028)
Phrase a.s.
- spolupříjemce (1.1.2025 - 31.12.2028)
Ústav počítačové grafiky a multimédií
- spolupříjemce (1.1.2025 - 31.12.2028)
Univerzita Karlova v Praze
- příjemce (1.1.2025 - 31.12.2028)

Výsledky

Polok, A., Klement, D., Kocour, M.: DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. URL: https://github.com/BUTSpeechFIT/TS-ASR-Whisper https://github.com/BUTSpeechFIT/DiCoW https://github.com/BUTSpeechFIT/SOT-DiCoW. (Software)
Detail

LI, J.; MAK, M.; ROHDIN, J.; LEE, K.; HERMANSKY, H. Bayesian Learning for Domain-Invariant Speaker Verification and Anti-Spoofing. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025. p. 1123-1127.
Detail

POTHULA, A.; AKKIRAJU, B.; BANDARUPALLI, S.; D, C.; KESIRAJU, S.; VUPPALA, A. End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data. In Interspeech 2025. Interspeech. Rotterdam: ISCA, 2025. p. 41-45.
Detail

CUMANI, S.; SILNOVA, A.; BARAHONA, S.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J. Analysis of the ABC classification backends for NIST SRE24. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025. p. 3978-3982.
Detail

PENG, J.; ASHIHARA, T.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Detail

POLOK, A.; KLEMENT, D.; KOCOUR, M.; HAN, J.; LANDINI, F.; YUSUF, B.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. COMPUTER SPEECH AND LANGUAGE, 2026, vol. 95, iss. 1, p. 1-19.
Detail

PÁLKA, P.; LANDINI, F.; KLEMENT, D.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; BURGET, L.; DELCROIX, M. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. In Proceedings of 33rd European Signal Processing Conference (EUSIPCO 2025). Palermo: IEEE Signal Processing Society, 2025. p. 31-35. ISBN: 978-9-46-459362-4.
Detail

HAN, J.; LANDINI, F.; ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; BURGET, L. Leveraging Self-Supervised Learning for Speaker Diarization. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Detail

PENG, J.; MOŠNER, L.; ZHANG, L.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L.; ČERNOCKÝ, J. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Detail

POLOK, A.; KLEMENT, D.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. Target Speaker ASR with Whisper. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025. p. 1-5. ISBN: 979-8-3503-6874-1.
Detail

HEGDE, P.; KESIRAJU, S.; ŠVEC, J.; SEDLÁČEK, Š.; YUSUF, B.; PLCHOT, O.; DEEPAK, K.; ČERNOCKÝ, J. Factors affecting the in-context learning abilities of LLMs for dialogue state tracking. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025. p. 4818-4822.
Detail

HAN, J.; LANDINI, F.; ROHDIN, J.; SILNOVA, A.; DIEZ, M.; ČERNOCKÝ, J.; BURGET, L. Fine-tune Before Structured Pruning: Towards Compact and Accurate Self-Supervised Models for Speaker Diarization. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025. p. 1583-1587.
Detail

Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget. BUT System for the MLC-SLM Challenge. ISCA: ISCA, 2025. p. 23.
Detail

SEDLÁČEK, Š.; YUSUF, B.; ŠVEC, J.; HEGDE, P.; KESIRAJU, S.; PLCHOT, O.; ČERNOCKÝ, J. Approaching Dialogue State Tracking via Aligning Speech Encoders and LLMs. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025. p. 1748-1752.
Detail

HAN, J.; PÁLKA, P.: DiariZen. URL: https://github.com/BUTSpeechFIT/DiariZen. (Software)
Detail

PENG, J.; PLCHOT, O.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L.; ČERNOCKÝ, J.: AN ATTENTION-BASED BACKEND ALLOWING EFFICIENT FINE-TUNING OF TRANSFORMER MODELS FOR SPEAKER VERIFICATION. URL: https://github.com/JunyiPeng00/SLT22_MultiHead-Factorized-Attentive-Pooling. (Software)
Detail

BARAHONA, S.; SILNOVA, A.; MOŠNER, L.; PENG, J.; PLCHOT, O.; ROHDIN, J.; ZHANG, L.; HAN, J.; PALKA, P.; LANDINI, F.; BURGET, L.; STAFYLAKIS, T.; CUMANI, S.; BOBOŠ, D.; HLAVAČEK, M.; KODOVSKY, M.; PAVLIČEK, T. Analysis of ABC Frontend Audio Systems for the NIST-SRE24. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025. p. 5763-5767.
Detail

AKKIRAJU, B.; POTHULA, A.; KESIRAJU, S.; VUPPALA, A. IIITH-BUT system for IWSLT 2025 low-resource Bhojpuri to Hindi speech translation. Proceedings of the 22nd International Conference on Spoken Language Translation (IWSLT 2025). Vienna, Austria: Association for Computational Linguistics, 2025. p. 333.ISBN: 979-8-89176-272-5.
Detail

Odpovědnost: Černocký Jan, prof. Dr. Ing.

VUT

Fakulty a vysokoškolské ústavy

Součásti

Jazykověda, umělá inteligence a jazykové a řečové technologie: od výzkumu k aplikacím