Toto je starší verze dokumentu!


Taháky pro anotaci SYN2020 a podobných korpusů

Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:

Problematické typy

Číslovky sto, tisíc apod.

Na rozdíl od starších korpusů mají vždy tag Cz.

  • Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a 1 na patnácté pozici: CzIP2---------1.
  • Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a 1 na patnácté pozici: CzNS7---------1, resp. CzNS2---------1.

Číslovky neurčité málo, méně apod.

Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.

slovo tag použití
mnoho Dg-------1A---- mnoho mluví
Ca následuje „počítaný předmět“ (i nepočitatelný)
málo Dg-------1A---- málo unavený; málo pracuje; málo lidí
Ca chybná nabídka, bude odstraněno
NN jen málo chybělo; hlavně v dalších pádech s málem, bez mála atd.
víc, více, míň, méně, hodně Dg jediná možnost
nemálo, nemnoho Dg-------1N---- nemálo hloupý, o lahůdky nemnoho stojí
Ca s počítaným předmětem
pár Db užito jako číslovka
NN pěkný pár, (jeden) pár bot

Příjmení ve tvaru adjektiva

Tato příjmení mají vždy tag NN a ženská příjení mají lemma v ženském rodě:

  • pan Červený - lemma: Červený, tag: NNMS1-----A----
  • paní Červená - lemma: Červená, tag: NNFS1-----A----

Adverbia odvozená od adjektiv chovající se jako částice

Některá adverbia odvozená od adjektiv získala význam částice. Jde o slova jako konečně, zřejmě a další. V původním adverbiálním významu je možné je stupňovat, či negovat; jako částice jsou ustrnulé v tom jediném tvaru:

slovo tag užití
konečně Dg v matematickém nebo fyzikálním smyslu; na rozdíl od nekonečně
úředně: konečně platný (v konečném znění)
TT konečně přišli; no konečně, to je dost
zřejmě Dg zřejmým způsobem
TT jistý stupeň jistoty; zřejmě už odešli

Podobná jsou slova jistě, samozřejmě a další.

Zpodstatnělá přídavná jména

Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:

  • cestující do Brna - AA
  • spokojení cestující - NN

Není-li slovo rozvito, určete podle svého citu.

Cizí slova

U cizích slov vzniká problém, zda je tagovat jako F%, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto:

  • Pokud se slovo v češtině nedá skloňovat, dostane značku F%.
  • Dá-li se skloňovat, dostane NN, i když je součástí víceslovného cizojazyčného názvu, např. Buffalo(NN) Sabres(F%); v tom případě je to 1. pád singuláru.
  • Je-li v nabídce u cizího slova AA (např. New) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme F%, nebo invalid (pokud F% chybí).
  • Další problém je velikost počátečního písmene u lemmatu. Přijali jsme zásadu, že jestliže je v nabídce u cizího slova (tag F%) velké i malé písmeno, volíme malé (i když jde o součást názvu psanou s velkými počátečními písmeny).

Jednotlivá problematická slova

Adverbia, částice, spojky...

Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:

slovo tag užití
ani J^ ani ryba, ani rak
TT jinak (ani se neptej)
co PQ zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (co to je?; vše, co mám)
Db spojovací výraz časový (od té doby, co ho znám; též den co den)
J, hovorový spojovací výraz (kluk, co přišel)
TT v ostatních případech
dál Dg ve významu místním (šli dál a dál)
Db ve významu časovém (zpíval dál)
jak J^ ve spojení s tak (jak jeden, tak druhý)
J, připojení vedlejší věty (viděl ho, jak zakopl)
Db jakým způsobem (může být obtížně odlišitelné od J,: vyprávěl, jak jel na hory – buď vyprávěl o cestě (J,), anebo o tom, jakým způsobem cestoval (Db); též jak to?
POZOR: jak si usteleš, tak si lehneš je Db
jedině Db jedině Tereza
Dg chybná nabídka, bude odstraněna
jen Db synonymum k pouze
J, ve spojovacím výrazu jen co (jen co si lehl, usnul)
TT v ostatních případech (jen tak tak; jen jestli!)
již, Db v časovém významu (už přišel)
TT jinak (to už nespravíš)
přece J^ ve spojení a přece
TT jinak
tak Db takto; takovým způsobem
J^ jak… tak (jak jeden, tak druhý),
nebo připojení věty (a) tak (nepřišel, tak jsme jeli sami)
POZOR: ve větě jak řekli, tak udělali je jak i tak Db
TT výplňkové slovo
II chybná nabídka, bude odstraněna
to PD zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje
TT v ostatních případech (to se nám to hezky šlape; to jo)
totiž J^ vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky)
TT jinak (upřesnění) (to je totiž tak)
třeba Db je třeba
TT synonymum k například
však J^ synonymum k ale
TT jinak (však jsem to říkal)

QR Code
QR Code wiki:user:skoumal:tahaky:syn2020 (generated for current page)