Přístupnostní navigace
E-application
Search Search Close
Project detail
Duration: 1.7.2016 — 30.6.2019
Funding resources
Evropská unie - Horizon 2020
On the project
The proposed project deals with speaker recognition and is motivated by the huge performance gains that, in recent years, have been brought to other recognition tasks by so called neural networks (NN)s. The objective of the proposal is to develop a new type of NN that is suitable for speaker recognition and take it to the state where it is ready for practical use. So far, attempts to take advantage of NNs in speaker recognition have replaced one or more components in the state-of-the-art speaker recognition chain with NN equivalencies. However, this approach has the same limitations as the state-of-art processing chain in terms of what kind of patterns in the speech signals that be can modeled. Instead, our proposed project aims at replacing the whole speaker recognition chain with one NN that process whole utterances in one step. This approach should take better advantage of NNs ability to model complex patterns in the speech signals. The objectives of the proposal will be achieved by theoretical work (derivation of NN structure, training criteria etc.), implementation (parallelization, scalability etc.) and careful testing on real speech data (finding appropriate default settings etc.).
Description in CzechAutomatické rozpoznávání mluvčího má za úkol oveřit nebo identifikovat osobu na základě nahrávky. Komerční aplikace rozpoznávání mluvčího jsou v přístupových systémech a v bankovnictví, důležité je také užití je v oblasti národní bezpečnosti. Navrhovaný projekt se týká automatického rozpoznávání mluvčího a je inspirován obrovským pokrokem, který v několika minulých letech přinesly do detekčních a rozpoznávacích úloh umělé neuronové sítě (neural networks, NN). Cílem našeho projektu je vyvinout nový typ NN, která bude vhodná pro rozpoznávání mluvčího a dosáhnout stavu, kdy bude tento přístup použitelný pro praktické aplikace. Dosavadní snahy použít NN pro rozpoznávání mluvčího se vždy zaměřovaly jen na to, že se jeden nebo několik funkčních bloků v klasických systémech nahradil za NN. Tento přístup je ale omezen (podobně jako existující systémy) tím, že je pevně předepsáno, co má neuronová síť modelovat. Náš projekt se zaměřuje na náhradu celého řetězce bloků v rozpoznávacím systému jednou neuronovou sítí, která bude celé promluvy zpracovávat v jediném kroku. To by mělo lépe využít schopností NN modelovat složité vzory v řečových signálech. Cíle projektu budou dosaženy teoretickou prací (odvození struktury NN, odvození kritérií pro trénování), implementací (paralelizace, škálování, atd.) a důkladným testováním na reálných řečových datech. Navrhovaný projekt je plně v souladu s Regionální inovační strategií Jihomoravského kraje, a jeho specializační strategií "Smart Specialization strategy (S3)". S3 definuje výzkum a vývoj v oblasti počítačového hardware a software jako jednu z pěti strategických priorit, a zvlášť zmiňuje oblasti IT bezpečnosti a cognitroniky. Navrhovaný projekt zcela spadá do oblasti cognitroniky a vzhledem k hlavním aplikacím rozpoznávání mluvčího se týká i oblasti počítačové bezpečnosti.
Keywords Speaker recognition, Neural networks
Mark
5SA15094
Default language
English
People responsible
Rohdin Johan Andréas, M.Sc., Ph.D. - principal person responsible
Units
Department of Computer Graphics and Multimedia - responsible department (24.11.2015 - not assigned)Speech Data Mining Research Group BUT Speech@FIT- internal (24.11.2015 - 30.6.2019)Department of Computer Graphics and Multimedia - beneficiary (24.11.2015 - 30.6.2019)
Results
ZEINALI, H.; BURGET, L.; ROHDIN, J.; STAFYLAKIS, T.; ČERNOCKÝ, J. How To Improve Your Speaker Embeddings Extractor in Generic Toolkits. In Proceedings of 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP). Brighton: IEEE Signal Processing Society, 2019. p. 6141-6145. ISBN: 978-1-5386-4658-8.Detail
ALAM, J.; BOULIANNE, G.; GLEMBEK, O.; LOZANO DÍEZ, A.; MATĚJKA, P.; MIZERA, P.; MONTEIRO, J.; MOŠNER, L.; NOVOTNÝ, O.; PLCHOT, O.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; WANG, S.; ZEINALI, H. ABC NIST SRE 2019 CTS System Description. Proceedings of NIST. Sentosa, Singapore: National Institute of Standards and Technology, 2019. p. 1-6. Detail
DIEZ SÁNCHEZ, M.; LANDINI, F.; BURGET, L.; ROHDIN, J.; SILNOVA, A.; ŽMOLÍKOVÁ, K.; NOVOTNÝ, O.; VESELÝ, K.; GLEMBEK, O.; PLCHOT, O.; MOŠNER, L.; MATĚJKA, P. BUT system for DIHARD Speech Diarization Challenge 2018. In Proceedings of Interspeech 2018. Proceedings of Interspeech. Hyderabad: International Speech Communication Association, 2018. no. 9, p. 2798-2802. ISSN: 1990-9772.Detail
MATĚJKA, P.; PLCHOT, O.; NOVOTNÝ, O.; CUMANI, S.; LOZANO DÍEZ, A.; SLAVÍČEK, J.; DIEZ SÁNCHEZ, M.; GRÉZL, F.; GLEMBEK, O.; KAMSALI VEERA, M.; SILNOVA, A.; BURGET, L.; ONDEL YANG, L.; KESIRAJU, S.; ROHDIN, J. BUT- PT System Description for NIST LRE 2017. Proceedings of NIST Language Recognition Workshop 2017. Orlando, Florida: National Institute of Standards and Technology, 2017. p. 1-6. Detail
DIEZ SÁNCHEZ, M.; BURGET, L.; WANG, S.; ROHDIN, J.; ČERNOCKÝ, J. Bayesian HMM based x-vector clustering for Speaker Diarization. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. no. 9, p. 346-350. ISSN: 1990-9772.Detail
PLCHOT, O.; MATĚJKA, P.; SILNOVA, A.; NOVOTNÝ, O.; DIEZ SÁNCHEZ, M.; ROHDIN, J.; GLEMBEK, O.; BRÜMMER, N.; SWART, A.; PRIETO, J.; GARCIA PERERA, L.; BUERA, L.; KENNY, P.; ALAM, J.; BHATTACHARYA, G. Analysis and Description of ABC Submission to NIST SRE 2016. In Proceedings of Interspeech 2017. Proceedings of Interspeech. Stockholm: International Speech Communication Association, 2017. no. 08, p. 1348-1352. ISSN: 1990-9772.Detail
MATĚJKA, P.; PLCHOT, O.; GLEMBEK, O.; BURGET, L.; ROHDIN, J.; ZEINALI, H.; MOŠNER, L.; SILNOVA, A.; NOVOTNÝ, O.; DIEZ SÁNCHEZ, M.; ČERNOCKÝ, J. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 63, p. 1-15. ISSN: 0885-2308.Detail
ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018. p. 4874-4878. ISBN: 978-1-5386-4658-8.Detail
PLCHOT, O.; MATĚJKA, P.; NOVOTNÝ, O.; CUMANI, S.; LOZANO DÍEZ, A.; SLAVÍČEK, J.; DIEZ SÁNCHEZ, M.; GRÉZL, F.; GLEMBEK, O.; KAMSALI VEERA, M.; SILNOVA, A.; BURGET, L.; ONDEL YANG, L.; KESIRAJU, S.; ROHDIN, J. Analysis of BUT-PT Submission for NIST LRE 2017. In Proceedings of Odyssey 2018 The Speaker and Language Recognition Workshop. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Les Sables d'Olonne: International Speech Communication Association, 2018. no. 6, p. 47-53. ISSN: 2312-2846.Detail
BRUMMER, J.; SWART, A.; PRIETO, J.; GARCIA PERERA, L.; MATĚJKA, P.; PLCHOT, O.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; JIANG, X.; NOVOTNÝ, O.; ROHDIN, J.; GLEMBEK, O.; GRÉZL, F.; BURGET, L.; ONDEL YANG, L.; PEŠÁN, J.; ČERNOCKÝ, J.; KENNY, P.; ALAM, J.; BHATTACHARYA, G.; ZEINALI, H. ABC NIST SRE 2016 SYSTEM DESCRIPTION. San Diego: National Institute of Standards and Technology, 2016. p. 1-8. Detail
ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; PLCHOT, O.; MATĚJKA, P.; BURGET, L.; GLEMBEK, O. End-to-end DNN based text-independent speaker recognition for long and short utterances. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 59, p. 22-35. ISSN: 0885-2308.Detail
ALAM, J.; BHATTACHARYA, G.; BRUMMER, J.; BURGET, L.; DIEZ SÁNCHEZ, M.; GLEMBEK, O.; KENNY, P.; KLČO, M.; LANDINI, F.; LOZANO DÍEZ, A.; MATĚJKA, P.; MONTEIRO, J.; MOŠNER, L.; NOVOTNÝ, O.; PLCHOT, O.; PROFANT, J.; ROHDIN, J.; SILNOVA, A.; SLAVÍČEK, J.; STAFYLAKIS, T.; ZEINALI, H. ABC NIST SRE 2018 SYSTEM DESCRIPTION. Proceedings of 2018 NIST SRE Workshop. Athens: National Institute of Standards and Technology, 2018. p. 1-10. Detail
MATĚJKA, P.; PLCHOT, O.; ZEINALI, H.; MOŠNER, L.; SILNOVA, A.; BURGET, L.; NOVOTNÝ, O.; GLEMBEK, O. Analysis of BUT Submission in Far-Field Scenarios of VOiCES 2019 Challenge. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. no. 9, p. 2448-2452. ISSN: 1990-9772.Detail
ZEINALI, H.; STAFYLAKIS, T.; ATHANASOPOULOU, G.; ROHDIN, J.; GKINIS, I.; BURGET, L.; ČERNOCKÝ, J. Detecting Spoofing Attacks Using VGG and SincNet: BUT-Omilia Submission to ASVspoof 2019 Challenge. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. no. 9, p. 1073-1077. ISSN: 1990-9772.Detail
ROHDIN, J.; STAFYLAKIS, T.; SILNOVA, A.; ZEINALI, H.; BURGET, L.; PLCHOT, O. Speaker Verification Using End-To-End Adversarial Language Adaptation. In Proceedings of ICASSP 2019. Brighton: IEEE Signal Processing Society, 2019. p. 6006-6010. ISBN: 978-1-5386-4658-8.Detail
STAFYLAKIS, T.; ROHDIN, J.; PLCHOT, O.; MIZERA, P.; BURGET, L. Self-supervised speaker embeddings. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. no. 9, p. 2863-2867. ISSN: 1990-9772.Detail
WANG, S.; ROHDIN, J.; BURGET, L.; PLCHOT, O.; QIAN, Y.; YU, K.; ČERNOCKÝ, J. On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. no. 9, p. 1148-1152. ISSN: 1990-9772.Detail
Link
http://www.jcmm.cz/data/ivana/SoMoPro_3_Call_Fiche.pdf
Responsibility: Rohdin Johan Andréas, M.Sc., Ph.D.