Toto je starší verze dokumentu!


Taháky pro anotaci SYN2020 a podobných korpusů

Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:

Problematické typy

Číslovky sto, tisíc apod.

Na rozdíl od starších korpusů mají vždy tag Cz.

  • Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a 1 na patnácté pozici: CzIP2---------1.
  • Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a 1 na patnácté pozici: CzNS7---------1, resp. CzNS2---------1.

Číslovky neurčité málo, méně apod.

Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.

slovo tag použití
mnoho Dg-------1A---- mnoho mluví
Ca následuje „počítaný předmět“ (i nepočitatelný)
málo Dg-------1A---- málo unavený; málo pracuje; málo lidí
Ca chybná nabídka, bude odstraněno
NN jen málo chybělo; hlavně v dalších pádech s málem, bez mála atd.
víc, více, míň, méně, hodně Dg jediná možnost
nemálo, nemnoho Dg-------1N---- nemálo hloupý, o lahůdky nemnoho stojí
Ca s počítaným předmětem
pár Db užito jako číslovka
NN pěkný pár, (jeden) pár bot

Příjmení ve tvaru adjektiva

Tato příjmení mají vždy tag NN a ženská příjení mají lemma v ženském rodě:

  • pan Červený - lemma: Červený, tag: NNMS1-----A----
  • paní Červená - lemma: Červená, tag: NNFS1-----A----

Zpodstatnělá přídavná jména

Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:

  • cestující do Brna - AA
  • spokojení cestující - NN

Není-li slovo rozvito, určete podle svého citu.

Jednotlivá problematická slova

Adverbia, částice, spojky...

Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:

slovo tag užití
ani J^ ani ryba, ani rak
TT jinak (ani se neptej)
co PQ zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (co to je?; vše, co mám)
Db spojovací výraz časový (od té doby, co ho znám; též den co den)
J, hovorový spojovací výraz (kluk, co přišel)
TT v ostatních případech
dál Dg ve významu místním (šli dál a dál)
Db ve významu časovém (zpíval dál)
jak J^ ve spojení s tak (jak jeden, tak druhý)
J, připojení vedlejší věty (viděl ho, jak zakopl)
Db jakým způsobem je (může být obtížně odlišitelné od J,!); též jak to?
jedině, konečně
a další adverbia odvozená od adjektiv
Db jako odvozenina od jediný, konečný (jakým způsobem? konečně)
dá se stupňovat, negovat
TT jinak (jedině Tereza; no konečně)
jen Db synonymum k pouze
J, ve spojovacím výrazu jen co (jen co si lehl, usnul)
TT v ostatních případech (jen tak tak; jen jestli!)
již, Db v časovém významu (už přišel)
TT jinak (to už nespravíš)
přece J^ ve spojení a přece
TT jinak
tak Db takto; takovým způsobem
J^ jak… tak (jak jeden, tak druhý),
nebo připojení věty (a) tak (nepřišel, tak jsme jeli sami)
POZOR: ve větě jak řekli, tak udělali je jak i tak Db
TT výplňkové slovo
II chybná nabídka, bude odstraněna
to PD zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje
TT v ostatních případech (to se nám to hezky šlape; to jo)
totiž J^ vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky)
TT jinak (upřesnění) (to je totiž tak)
třeba Db je třeba
TT synonymum k například
však J^ synonymum k ale
TT jinak (však jsem to říkal)

QR Code
QR Code wiki:user:skoumal:tahaky:syn2020 (generated for current page)