Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Both sides previous revision Předchozí verze Následující verze | Předchozí verze Poslední revize Both sides next revision | ||
wiki:user:skoumal:tahaky:rucni-anotace [2021/03/27 21:33] skoumal [Pomůcky a nástroje] |
wiki:user:skoumal:tahaky:rucni-anotace [2021/06/24 21:27] skoumal |
||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
+ | <ifvar lang=en> | ||
+ | ====== Manual annotation of corpora ====== | ||
+ | |||
+ | There are several types of annotated corpora. Some guides are only in Czech | ||
+ | |||
+ | <else> | ||
====== Ruční anotace korpusů - návody a taháky ====== | ====== Ruční anotace korpusů - návody a taháky ====== | ||
Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů: | Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů: | ||
- | * Korpusy řady [[wiki:user:skoumal:tahaky:syn2020|SYN podle nového značkování]] (typ SYN2020) | + | * Korpusy řady [[wiki:user:skoumal:tahaky:syn2020|SYN podle nového značkování]] (typ SYN2020). |
+ | * [[wiki:user:skoumal:tahaky:Verbtagy]] v korpusu SYN2020. | ||
* [[wiki:user:skoumal:tahaky:ortofon-syn2020|Ortofon podle nového značkování]]. | * [[wiki:user:skoumal:tahaky:ortofon-syn2020|Ortofon podle nového značkování]]. | ||
* [[wiki:user:skoumal:tahaky:ortofon-synv8|Ortofon podle starého značkování]]. | * [[wiki:user:skoumal:tahaky:ortofon-synv8|Ortofon podle starého značkování]]. | ||
- | Kromě návodů pro jednotlivé typy, jsou zde i návody obecné, jako "Jak značkovat cizí slova" apod. | + | Kromě návodů pro jednotlivé typy korpusů, je zde soupis nástrojů a pomůcek, které můžete při anotaci využít. |
===== Pomůcky a nástroje ===== | ===== Pomůcky a nástroje ===== | ||
Řádek 29: | Řádek 36: | ||
* Korpusy na adrese https://www.korpus.cz/kontext. Podle toho, jaký typ textu značkujete, zvolte korpus SYN2020 nebo nějaký starší. | * Korpusy na adrese https://www.korpus.cz/kontext. Podle toho, jaký typ textu značkujete, zvolte korpus SYN2020 nebo nějaký starší. | ||
- | ===== Cizí slova ===== | + | </ifvar> |
- | + | ||
- | U cizích slov vzniká problém, zda je tagovat jako **''F%''**, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto: | + | |
- | + | ||
- | * Pokud se slovo v češtině nedá skloňovat, dostane značku **''F%''**. | + | |
- | * Dá-li se skloňovat, dostane **''NN''**, i když je součástí víceslovného cizojazyčného názvu, např. //Buffalo//(**''NN''**) //Sabres//(**''F%''**); v tom případě je to 1. pád singuláru. | + | |
- | * Je-li v nabídce u cizího slova **''AA''** (např. //New//) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme **''F%''**, nebo **''invalid''** (pokud **''F%''** chybí). | + | |
- | + | ||
- | + | ||
- | + |