Detail předmětu

Zpracování přirozeného jazyka

FIT-ZPDAk. rok: 2022/2023

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Okruhy otázek k SDZ:

  1. Distribuční sémantika slov, modely Word2Vec, Glove a FastText
  2. Jazykové modelování
  3. Strojový překlad
  4. Modely typu seq2seq a mechanismus pozornosti (attention)
  5. Odpovídání na otázky v přirozeném jazyce
  6. Konvoluční neuronové sítě pro klasifikaci vět
  7. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  8. Sítě typu transformer a self-attention pro generativní modely
  9. Generování přirozeného jazyka
  10. Koreference a její automatické zpracování

Výsledky učení předmětu

Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Literatura

Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc.", 2017.
Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.

Způsob a kritéria hodnocení

Diskuse v rámci přednášek či individuálních konzultací, kontrola zpracování tématické práce.

Jazyk výuky

čeština, angličtina

Cíl

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích. Pochopit základní principy reprezentace znalostí a inference s využitím neuronových modelů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Přednášky a zpracování projektu.

Zařazení předmětu ve studijních plánech

  • Program DIT doktorský, libovolný ročník, zimní semestr, 0 kreditů, povinně volitelný
  • Program DIT doktorský, libovolný ročník, zimní semestr, 0 kreditů, povinně volitelný
  • Program DIT-EN doktorský, libovolný ročník, zimní semestr, 0 kreditů, povinně volitelný
  • Program DIT-EN doktorský, libovolný ročník, zimní semestr, 0 kreditů, povinně volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova

  1. Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
  2. Významy slov a jejich vektorová reprezentace
  3. Závislostní syntaxe
  4. Jazykové modely
  5. Strojový překlad
  6. Modely typu seq2seq a pozornost (attention)
  7. Odpovídání na otázky v přirozeném jazyce
  8. Konvoluční neuronové sítě pro klasifikaci vět
  9. Informace z částí slov: modely typu subword
  10. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  11. Sítě typu transformer a self-attention pro generativní modely
  12. Generování přirozeného jazyka
  13. Koreference a její automatické zpracování

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor