ABSTRAKT
Úvodní, prakticky orientovaný kurs pro zájemce o problematiku
zpracování a využívání paralelních textů na počítači, včetně jejich
uplatnění při (polo)automatickém překladu. Během semestru
bude mít každý účastník možnost vytvořit svůj vlastní paralelní
korpus v přiměřeném rozsahu.
Předpoklady:
- nevyžadují se, ale výhodou je základní orientace v metodách korpusové lingvistiky a počítačového
zpracování textu, doporučení: Korpusová lingvistika - úvod
Osnova:
-
Úvod: korpusy a korpusová lingvistika, paralelní korpusy a jejich využití
-
Technické aspekty: formát dat, programové nástroje, hardware
-
Ukázky: existující projekty a zdroje dat
-
Výběr a získávání textů: vyváženost korpusu, technické a právní problémy
-
Příprava textů: opravy a úpravy, konverze
-
Zarovnávání (alignment): automatické nástroje, kontrola a opravy
-
Hledání v paralelním korpusu: nástroje a práce s nimi
-
Další způsoby využití paralelních korpusů: komputační lexikografie,
hledání v cizojazyčných textech, strojový nebo
počítačem podporovaný překlad, ...
-
Konzultace k individuálním projektů, jejich prezentace