diplomová práce

Modelování jazyka v rozpoznávání češtiny

Text práce 443.16 kB

Autor práce: Ing. Tomáš Mikolov, Ph.D.

Ak. rok: 2006/2007

Vedoucí: doc. RNDr. Pavel Smrž, Ph.D.

Oponent: prof. Dr. Ing. Jan Černocký

Abstrakt:

Tato práce se zabývá problematikou jazykových modelů v oblasti automatického přepisu mluvené řeči. V teoretické části jsou rozebrány současně používané metody pro pokročilé jazykové modelování založené na statistickém přístupu - modely založené na třídách, na faktorech a na neuronových sítích. Následně je popsána implementace jazykového modelu založeného na dvou neuronových sítích. V závěru práce jsou uvedeny výsledky dosažené na Pražském a Brněnském mluveném korpusu (cca 1 170 000 slov) - redukce perplexity o zhruba 20%. Výsledky dosažené při reskórování N-best listů ukazují zlepšení při rozpoznávání spontánní řeči o více než 1%. V závěru práce jsou uvedeny možnosti využití práce, její možná rozšíření a také jsou uvedeny hlavní nevýhody současně používaných přístupů pro statistické jazykové modelování.

Klíčová slova:

jazykový model, čeština, n-gramové statistiky, neuronové sítě, rozpoznávání řeči, umělá inteligence

Termín obhajoby

21.06.2007

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Informační technologie (IT-MGR-2)

Studijní obor

Počítačová grafika a multimédia (MGM)

Známka navržená vedoucím: B

Známka navržená oponentem: B

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová