====== Taháky pro anotaci SYN2020 a podobných korpusů ====== Tento tahák obsahuje problematická slova v korpusu **SYN2020** a dalších, tagovaných podle stejných zásad. Nejdříve jsou uvedeny typy problematických slov (příjmení, číslovky atp.) a potom jednotlivá slovíčka: ===== Problematické typy ===== ==== Číslovky sto, tisíc apod. ==== Na rozdíl od starších korpusů mají vždy tag **''Cz''**. * Tvar **tisíc**, který se vyskytuje ve složených výrazech typu //pět tisíc padesát// má tag s genitivem a **''1''** na patnácté pozici: ''%%CzIP2---------1%%''. * Tvar **sto**, který se vyskytuje ve složených výrazech jako //se sto lidmi// nebo //bez sto padesáti lidí// mají tag s příslušným pádem a **''1''** na patnácté pozici: ''%%CzNS7---------1%%'', resp. ''%%CzNS2---------1%%''. ==== Číslovky neurčité málo, méně apod. ==== Ve starších korpusech se rozlišovalo užití adverbiální (především u sloves) a číslovkové. V SYN2020 jsme skoro u všech ponechali pouze adverbium, až na //mnoho//, //nemálo// a //nemnoho//, u kterých se nadále rozlišuje číslovka a adverbium. ^ slovo ^ tag ^ použití ^ | **mnoho** | ''%%Dg-------1A----%%'' | //mnoho mluví// | | | ''Ca'' | následuje "počítaný předmět" (i nepočitatelný) | | **nemnoho** | ''%%Dg-------1N----%%'' | //o lahůdky nemnoho stojí// | | | ''Ca'' | s počítaným předmětem | | **málo** | ''%%Dg-------1A----%%'' | //málo unavený//; //málo pracuje//; //málo lidí// | | | ''Ca'' | **chybná nabídka, bude odstraněno** | | | ''NN'' | //ani to málo//; //to málo, co//; hlavně v dalších pádech //s málem//, //bez mála// atd. | | **nemálo** | ''%%Dg-------1N----%%'' | //nemálo hloupý//; //nemálo pracuje//; //nemálo lidí// | | | ''NN'' | jen v dalších pádech, //jeden z nemála// atd. | | **víc**, **více**, **míň**, **méně**, **hodně** | ''Dg'' | jediná možnost | | **pár** | ''Db'' | užito jako číslovka | | | NN | //pěkný pár//, (//jeden//) //pár bot// | ==== Příjmení ve tvaru adjektiva ==== Tato příjmení mají vždy tag **''NN''** a ženská příjení mají lemma v ženském rodě: * pan **Červený** - lemma: **Červený**, tag: **%%NNMS1-----A----%%** * paní **Červená** - lemma: **Červená**, tag: **%%NNFS1-----A----%%** ==== Adverbia odvozená od adjektiv chovající se jako částice ==== Některá adverbia odvozená od adjektiv získala význam částice. Jde o slova jako **konečně**, **zřejmě** a další. V původním adverbiálním významu je možné je stupňovat, či negovat; jako částice jsou ustrnulé v tom jediném tvaru: ^ slovo ^ tag ^ užití ^ | **konečně** | **''Dg''** | v matematickém nebo fyzikálním smyslu; na rozdíl od //nekonečně// \\ úředně: //konečně platný// (v konečném znění) | | | **''TT''** | //konečně přišli//; //no konečně, to je dost// | | **zřejmě** | **''Dg''** | //zřejmým způsobem// | | | **''TT''** | určitý stupeň jistoty; //zřejmě už odešli// | Podobná jsou slova **jistě**, **samozřejmě** a další. ==== Zpodstatnělá přídavná jména ==== Je třeba posoudit, zda ve větě slovo vystupuje spíše jako adjektivum nebo substantivum, a to podle rozvití: * **cestující** do Brna - **AG** * spokojení **cestující** - **NN** Není-li slovo rozvito, určete podle svého citu. ==== Cizí slova ==== U cizích slov vzniká problém, zda je tagovat jako **''F%''**, nebo jako česká slov. Řídíme se hlavně tím, zda je slovo už přejaté do češtiny, hlavně zdali se skloňuje. Postupujeme takto: * Pokud se slovo v češtině nedá skloňovat, dostane značku **''F%''**. * Dá-li se skloňovat, dostane **''NN''**, i když je součástí víceslovného cizojazyčného názvu, např. //Buffalo//(**''NN''**) //Sabres//(**''F%''**); v tom případě je to 1. pád singuláru. * Je-li v nabídce u cizího slova **''AA''** (např. //New//) nebo jiný slovní druh, je to chybná nabídka; v takovém případě vybereme **''F%''**, nebo **''invalid''** (pokud **''F%''** chybí). * Další problém je velikost počátečního písmene u lemmatu. Přijali jsme zásadu, že jestliže je v nabídce u cizího slova (tag **''F%''**) velké i malé písmeno, volíme **malé** (i když jde o součást názvu psanou s velkými počátečními písmeny). Změnili jsme názor a lemma bude totožné s formou (i co do velikosti písmen). ==== Novinářské šifry ==== Zkratky jednotlivých novinářů psané v závorkách někde na začátku článku, např. **(gap)**, nebo **(zkř, opo)** budou tagované jako zkratky: ( ( Z:------------- gap gap BN------------- ) ) Z:------------- ===== Jednotlivá problematická slova ===== ==== Adverbia, částice, spojky... ==== Mnoho slov se syntakticky chová jako adverbia, částice nebo spojky (příp. další slovní druhy) a není snadné rozhodnout, jaký mají mít tag. Zde je přehled těch nejčastějších: ^ slovo ^ tag ^ užití ^ | **ani** | **''J^''** | //ani ryba, ani rak// | | | **''TT''**| jinak (//ani se neptej//) | | **co** | **''PQ''** | zájmeno (tázací nebo vztažné) v případě, že dokážeme určit pád (//co to je?//; //vše, co mám//) | | | **''Db''** | spojovací výraz časový (//od té doby, co ho znám//; též //den co den//); //co (možná)// + superlativ | | | **''J,''** | hovorový spojovací výraz (//kluk, co přišel//) | | | **''TT''** | v ostatních případech | | **dál** | **''Dg''** | jde-li o 2. stupeň ke slovu //daleko// (//šli dál a dál//) | | | **''Db''** | ostatní případy (//zpíval dál//; //pojďte dál//) | | **jak** | **''J^''** | ve spojení s //tak// (//jak jeden, tak druhý//) | | | **''J,''** | připojení vedlejší věty (//viděl ho, jak zakopl//) | | | **''Db''** | jakým způsobem (může být obtížně odlišitelné od **''J,''**: //vyprávěl, jak jel na hory// -- buď vyprávěl o cestě (**''J,''**), anebo o tom, jakým způsobem cestoval (**''Db''**); též //jak to?// \\ **POZOR**: // jak si usteleš, tak si lehneš// je **''Db''** | | **jedině** | **''Db''** | //jedině Tereza// | | | **''Dg''** | **chybná nabídka, bude odstraněna** | | **jen** | **''Db''** | synonymum k //pouze// | | | **''J,''** | ve spojovacím výrazu //jen co// (//jen co si lehl, usnul//)| | | **''TT''** | v ostatních případech (//jen tak tak//; //jen jestli!//) | | **již**, **už** | **''Db''** | v časovém významu (//už přišel//) | | | **''TT''** | jinak (//to už nespravíš//) | | **přece** | **''J^''** | ve spojení //a přece// | | | **''TT''** | jinak | | **tak** | **''Db''** | takto; takovým způsobem | | | **''J^''** | //jak... tak// (//jak jeden, tak druhý//), \\ nebo připojení věty //(a) tak// (//nepřišel, tak jsme jeli sami//) \\ **POZOR**: ve větě //jak řekli, tak udělali// je //jak// i //tak// **''Db''** | | | **''TT''** | výplňkové slovo | | | **''II''** | **chybná nabídka, bude odstraněna** | | **to** | **''PD''** | zájmeno je to v případě, že dokážeme určit pád a objekt nebo situaci, na které zájmeno odkazuje | | | **''TT''** | v ostatních případech (//to se nám to hezky šlape//; //to jo//) | | **totiž** | **''J^''** | vysvětlení, doplnění (//nerozumím mu, mluví totiž anglicky//) | | | **''TT''** | jinak (upřesnění) (//to je totiž tak//) | | **trochu** | **''NN''** | je-li zleva rozvito přívlastkem: //malou trochu//, //jakou trochu?// | | | **''Db''** | jinak | | **třeba** | **''Db''** | //je třeba// | | | **''TT''** | synonymum k //například// | | **však** | **''J^''** | synonymum k //ale// | | | **''TT''** | jinak (//však jsem to říkal//) |