diplomová práce

Modelování jazyka v rozpoznávání češtiny

Autor práce: Ing. Tomáš Mikolov, Ph.D.

Ak. rok: 2006/2007

Abstrakt:

Tato práce se zabývá problematikou jazykových modelů v oblasti automatického přepisu mluvené řeči. V teoretické části jsou rozebrány současně používané metody pro pokročilé jazykové modelování založené na statistickém přístupu - modely založené na třídách, na faktorech a na neuronových sítích. Následně je popsána implementace jazykového modelu založeného na dvou neuronových sítích. V závěru práce jsou uvedeny výsledky dosažené na Pražském a Brněnském mluveném korpusu (cca 1 170 000 slov) - redukce perplexity o zhruba 20%. Výsledky dosažené při reskórování N-best listů ukazují zlepšení při rozpoznávání spontánní řeči o více než 1%. V závěru práce jsou uvedeny možnosti využití práce, její možná rozšíření a také jsou uvedeny hlavní nevýhody současně používaných přístupů pro statistické jazykové modelování.

Klíčová slova:

jazykový model, čeština, n-gramové statistiky, neuronové sítě, rozpoznávání řeči, umělá inteligence

Termín obhajoby

21.06.2007

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

Jazyk práce

čeština

Fakulta

Fakulta informačních technologií