Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
Poslední revize Both sides next revision
wiki:user:skoumal:tahaky:rucni-anotace [2021/03/29 20:55]
skoumal [Ruční anotace korpusů - návody a taháky]
wiki:user:skoumal:tahaky:rucni-anotace [2021/06/24 21:27]
skoumal
Řádek 1: Řádek 1:
 +<ifvar lang=en>
 +====== Manual annotation of corpora ======
 +
 +There are several types of annotated corpora. Some guides are only in Czech
 +
 +<​else>​
 ====== Ruční anotace korpusů - návody a taháky ====== ====== Ruční anotace korpusů - návody a taháky ======
  
 Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů: Nápovědy se liší podle typu anotovaného korpusu. V zásadě anotujeme tři typy korpusů:
  
-  * Korpusy řady [[wiki:​user:​skoumal:​tahaky:​syn2020|SYN podle nového značkování]] (typ SYN2020)+  * Korpusy řady [[wiki:​user:​skoumal:​tahaky:​syn2020|SYN podle nového značkování]] (typ SYN2020)
 +  * [[wiki:​user:​skoumal:​tahaky:​Verbtagy]] v korpusu SYN2020.
   * [[wiki:​user:​skoumal:​tahaky:​ortofon-syn2020|Ortofon podle nového značkování]].   * [[wiki:​user:​skoumal:​tahaky:​ortofon-syn2020|Ortofon podle nového značkování]].
   * [[wiki:​user:​skoumal:​tahaky:​ortofon-synv8|Ortofon podle starého značkování]].   * [[wiki:​user:​skoumal:​tahaky:​ortofon-synv8|Ortofon podle starého značkování]].
  
-Kromě návodů pro jednotlivé typy, jsou zde i návody obecné, platné pro všechny korpusy, jako "Jak značkovat cizí slova" apod.+Kromě návodů pro jednotlivé typy korpusůje zde soupis nástrojů a pomůcek, které můžete přanotaci využít.
  
 ===== Pomůcky a nástroje ===== ===== Pomůcky a nástroje =====
Řádek 29: Řádek 36:
   * Korpusy na adrese https://​www.korpus.cz/​kontext. Podle toho, jaký typ textu značkujete,​ zvolte korpus SYN2020 nebo nějaký starší.   * Korpusy na adrese https://​www.korpus.cz/​kontext. Podle toho, jaký typ textu značkujete,​ zvolte korpus SYN2020 nebo nějaký starší.
  
-===== Cizí slova ===== +</ifvar>
- +
-U cizích slov vzniká problém, zda je tagovat jako **''​F%''​**,​ nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto: +
- +
-  * Pokud se slovo v češtině nedá skloňovat, dostane značku **''​F%''​**. +
-  * Dá-li se skloňovat, dostane **''​NN''​**,​ i když je součástí víceslovného cizojazyčného názvu, např. ​//​Buffalo//​(**''​NN''​**) //​Sabres//​(**''​F%''​**);​ v tom případě je to 1. pád singuláru. +
-  * Je-li v nabídce u cizího slova **''​AA''​** (např. //New//) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme **''​F%''​**,​ nebo **''​invalid''​** (pokud **''​F%''​** chybí). +
- +
- +
- +

QR Code
QR Code wiki:user:skoumal:tahaky:rucni-anotace (generated for current page)