Taháky pro anotaci SYN2020 a podobných korpusů

Tento tahák obsahuje problematická slova v korpusu SYN2020 a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka:

Problematické typy

Číslovky sto, tisíc apod.

Na rozdíl od starších korpusů mají vždy tag Cz.

  • Tvar tisíc, který se vyskytuje ve složených výrazech typu pět tisíc padesát má tag s genitivem a 1 na patnácté pozici: CzIP2---------1.
  • Tvar sto, který se vyskytuje ve složených výrazech jako se sto lidmi nebo bez sto padesáti lidí mají tag s příslušným pádem a 1 na patnácté pozici: CzNS7---------1, resp. CzNS2---------1.

Číslovky neurčité málo, méně apod.

Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na mnoho, nemálo a nemnoho, u kterých se nadále rozlišuje číslovka a adverbium.

slovo tag použití
mnoho Dg-------1A---- mnoho mluví
Ca následuje „počítaný předmět“ (i nepočitatelný)
nemnoho Dg-------1N---- o lahůdky nemnoho stojí
Ca s počítaným předmětem
málo Dg-------1A---- málo unavený; málo pracuje; málo lidí
Ca chybná nabídka, bude odstraněno
NN ani to málo; to málo, co; hlavně v dalších pádech s málem, bez mála atd.
nemálo Dg-------1N---- nemálo hloupý; nemálo pracuje; nemálo lidí
NN jen v dalších pádech, jeden z nemála atd.
víc, více, míň, méně, hodně Dg jediná možnost
pár Db užito jako číslovka
NN pěkný pár, (jeden) pár bot

Příjmení ve tvaru adjektiva

Tato příjmení mají vždy tag NN a ženská příjení mají lemma v ženském rodě:

  • pan Červený - lemma: Červený, tag: NNMS1-----A----
  • paní Červená - lemma: Červená, tag: NNFS1-----A----

Adverbia odvozená od adjektiv chovající se jako částice

Některá adverbia odvozená od adjektiv získala význam částice. Jde o slova jako konečně, zřejmě a další. V původním adverbiálním významu je možné je stupňovat, či negovat; jako částice jsou ustrnulé v tom jediném tvaru:

slovo tag užití
konečně Dg v matematickém nebo fyzikálním smyslu; na rozdíl od nekonečně
úředně: konečně platný (v konečném znění)
TT konečně přišli; no konečně, to je dost
zřejmě Dg zřejmým způsobem
TT určitý stupeň jistoty; zřejmě už odešli

Podobná jsou slova jistě, samozřejmě a další.

Zpodstatnělá přídavná jména

Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití:

  • cestující do Brna - AG
  • spokojení cestující - NN

Není-li slovo rozvito, určete podle svého citu.

Cizí slova

U cizích slov vzniká problém, zda je tagovat jako F%, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto:

  • Pokud se slovo v češtině nedá skloňovat, dostane značku F%.
  • Dá-li se skloňovat, dostane NN, i když je součástí víceslovného cizojazyčného názvu, např. Buffalo(NN) Sabres(F%); v tom případě je to 1. pád singuláru.
  • Je-li v nabídce u cizího slova AA (např. New) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme F%, nebo invalid (pokud F% chybí).
  • Další problém je velikost počátečního písmene u lemmatu. Přijali jsme zásadu, že jestliže je v nabídce u cizího slova (tag F%) velké i malé písmeno, volíme malé (i když jde o součást názvu psanou s velkými počátečními písmeny). Změnili jsme názor a lemma bude totožné s formou (i co do velikosti písmen).

Novinářské šifry

Zkratky jednotlivých novinářů psané v závorkách někde na začátku článku, např. (gap), nebo (zkř, opo) budou tagované jako zkratky:

(       (       Z:-------------
gap     gap     BN-------------
)       )       Z:-------------

Jednotlivá problematická slova

Adverbia, částice, spojky...

Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších:

slovo tag užití
ani J^ ani ryba, ani rak
TT jinak (ani se neptej)
co PQ zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (co to je?; vše, co mám)
Db spojovací výraz časový (od té doby, co ho znám; též den co den); co (možná) + superlativ
J, hovorový spojovací výraz (kluk, co přišel)
TT v ostatních případech
dál Dg jde-li o 2. stupeň ke slovu daleko (šli dál a dál)
Db ostatní případy (zpíval dál; pojďte dál)
jak J^ ve spojení s tak (jak jeden, tak druhý)
J, připojení vedlejší věty (viděl ho, jak zakopl)
Db jakým způsobem (může být obtížně odlišitelné od J,: vyprávěl, jak jel na hory – buď vyprávěl o cestě (J,), anebo o tom, jakým způsobem cestoval (Db); též jak to?
POZOR: jak si usteleš, tak si lehneš je Db
jedině Db jedině Tereza
Dg chybná nabídka, bude odstraněna
jen Db synonymum k pouze
J, ve spojovacím výrazu jen co (jen co si lehl, usnul)
TT v ostatních případech (jen tak tak; jen jestli!)
již, Db v časovém významu (už přišel)
TT jinak (to už nespravíš)
přece J^ ve spojení a přece
TT jinak
tak Db takto; takovým způsobem
J^ jak… tak (jak jeden, tak druhý),
nebo připojení věty (a) tak (nepřišel, tak jsme jeli sami)
POZOR: ve větě jak řekli, tak udělali je jak i tak Db
TT výplňkové slovo
II chybná nabídka, bude odstraněna
to PD zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje
TT v ostatních případech (to se nám to hezky šlape; to jo)
totiž J^ vysvětlení, doplnění (nerozumím mu, mluví totiž anglicky)
TT jinak (upřesnění) (to je totiž tak)
trochu NN je-li zleva rozvito přívlastkem: malou trochu, jakou trochu?
Db jinak
třeba Db je třeba
TT synonymum k například
však J^ synonymum k ale
TT jinak (však jsem to říkal)

QR Code
QR Code wiki:user:skoumal:tahaky:syn2020 (generated for current page)