Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
skript_man:navod_k_anotaci [2019/07/12 13:27]
rosen [Vymazání a vložení tokenu]
skript_man:navod_k_anotaci [2020/02/18 19:29]
rosen [4.2. Postup] ??? - na @ort,@gram i @lex
Řádek 1: Řádek 1:
-====== Návod k anotaci žákovských textů ​rodilých mluvčích ​v prostředí TEITOK ======+====== Návod k anotaci žákovských textů v prostředí TEITOK ======
  
-===== Organizační záležitosti =====+===== 1. Organizační záležitosti =====
  
-==== Přihlášení do systému TEITOK ====+==== 1.1. Přihlášení do systému TEITOK ====
  
 +=== 1.1.1. Projekt Skript 2015 ===
 Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​ Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​
 Nemáte-li přístupové údaje, napište si o ně.  Nemáte-li přístupové údaje, napište si o ně. 
  
-==== Výběr textů k anotaci ​====+ 
 +=== 1.1.2. Projekt CzeSL === 
 +Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​czesl/​.  
 +Nemáte-li přístupové údaje, napište si o ně.  
 +==== 1.2. Anotace textů rodilých mluvčích (Skript 2015) ==== 
 + 
 +=== 1.2.1. ​Výběr textů k anotaci ===
  
 V nabídce na levé straně úvodní stránky klikněte na XML Files. Uvidíte pod sebou názvy složek, které odpovídají inciálám anotátorů. Měly by tam být i ty Vaše. Pokud nejsou, napište si o ně. V nabídce na levé straně úvodní stránky klikněte na XML Files. Uvidíte pod sebou názvy složek, které odpovídají inciálám anotátorů. Měly by tam být i ty Vaše. Pokud nejsou, napište si o ně.
Řádek 24: Řádek 31:
 U vybraného textu klikneme na "​rename"​ a v rámečku "New filename"​ nahradíme aktuální složku před lomítkem ("​_ROMI"​ nebo "​_SKRIPT2012"​) názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z _ROMI a _SKRIPT2012 pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky. U vybraného textu klikneme na "​rename"​ a v rámečku "New filename"​ nahradíme aktuální složku před lomítkem ("​_ROMI"​ nebo "​_SKRIPT2012"​) názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z _ROMI a _SKRIPT2012 pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky.
  
-===Odevzdávání textů ​====+=== 1.2.2. ​Odevzdávání textů ===
  
 Texty, které budeme považovat za hotové, přesuneme do složky HOTOVO, kterou si vytvoříme uvnitř své složky takto: klik na "​create new folder"​ a do rámečku za "Type in the path of the folder you want to create"​ uvedeme název své složky (Vaše iniciály), lomítko a název nové složky: HOTOVO. Vlastní přesunutí provedeme kliknutím na "​rename"​ vlevo od příslušného textu a pak v rámečku "New filename"​ vložíme "​HOTOVO",​ oddělené lomítky, mezi iniciály a název textu. Při měsíčních uzávěrkách se budou vyhodnocovat jen texty umístěné ve složkách "​HOTOVO"​. Texty, které budeme považovat za hotové, přesuneme do složky HOTOVO, kterou si vytvoříme uvnitř své složky takto: klik na "​create new folder"​ a do rámečku za "Type in the path of the folder you want to create"​ uvedeme název své složky (Vaše iniciály), lomítko a název nové složky: HOTOVO. Vlastní přesunutí provedeme kliknutím na "​rename"​ vlevo od příslušného textu a pak v rámečku "New filename"​ vložíme "​HOTOVO",​ oddělené lomítky, mezi iniciály a název textu. Při měsíčních uzávěrkách se budou vyhodnocovat jen texty umístěné ve složkách "​HOTOVO"​.
  
-==== Problémy, dotazy, nápady apod. ====+==== 1.3. Anotace textů nerodilých mluvčích (CzeSL) ==== 
 + 
 +* Jde o texty nerodilých mluvčích češtiny, studentů češtiny jako cizího jazyka. To je hlavní rozdíl ve srovnání s texty z korpusu SKRIPT2015.  
 + 
 +* Otevřete si stránku [[http://​utkl.ff.cuni.cz/​teitok/​czesl]] a přihlašte se svou emailovou adresou. Heslo je “teitok”,​ změňte si ho prosím.  
 + 
 +* V seznamu XML souborů najdete složku czesl-old. Otevírání složky i souborů může být pomalé – složka obsahuje 5877 textů, které byly přepsány z rukopisů zhruba během minulých 10 let a dosud nebyly ručně neopraveny. Z těchto textů si můžete vybírat ty, které byste chtěli anotovat. Výběr provedete přesunem souboru do složky pojmenované Vašimi iniciálami takto: 
 + 
 +  * Po kliknutí na název textu se otevře jeho přepis a většinou i sken rukopisu. 
 + 
 +  * U vybraného textu klikneme na "​rename"​ a v rámečku "New filename"​ nahradíme aktuální složku před lomítkem ("​czesl-old"​) názvem své složky (tj. Vašimi iniciálami). Tím se text přemístí do Vaší složky. Kromě výběru textů z czesl-old pracujte prosím jen ve svých složkách, systém sám nijak nechrání Vaše kolegy před zásahy do cizí složky. 
 + 
 +* Podobných textů k anotaci je ještě víc - texty bez metadat a s formálními chybami byly zatím odloženy. 
 + 
 +* Soubory by měly být formálně v pořádku (při otevření by neměly hlásit chybu) a měly by už být vybaveny metadaty. U většiny souborů by se měl otevřít i sken rukopisu. 
 + 
 +* Vaším úkolem je zkontrolovat přepis, text tokenizovat,​ opravit na rovinách dform, ort, gram a lex, podle potřeby upravit nebo doplnit název. Položka “nform” je určena pro automaticky provedené opravy, tu nechte prázdnou. 
 + 
 +* Po přihlášení do projektu máte přístup nejen do své složky, ale i do složek Vašich kolegů, včetně těch, kteří přepisují nové texty. Buďte prosím opatrní, abyste texty v jiných složkách nepoškodily. 
 + 
 + 
 +==== 1.4. Problémy, dotazy, nápady apod. ====
  
 Neváhejte a pište, pokud možno do fóra [[https://​groups.google.com/​forum/?​utm_medium=email&​utm_source=footer#​!forum/​emendace|Emandace žákovských textů v TEITOKu]]. Nemáte-li do fóra přístup, napište si o něj. Neváhejte a pište, pokud možno do fóra [[https://​groups.google.com/​forum/?​utm_medium=email&​utm_source=footer#​!forum/​emendace|Emandace žákovských textů v TEITOKu]]. Nemáte-li do fóra přístup, napište si o něj.
  
-===== Formáty textu  =====+===== 2. Formáty textu  =====
  
-==== Skeny ====+==== 2.1. Skeny ====
  
 Některé texty jsou dlouhé – až 6 rukopisných stránek, ale stránky se zobrazují vždy vpravo pod sebou a nenavazují na přepis. Můžete to napravit tím, že na patřičná místa v XML vložíte údaj o přechodu na novou stránku. Je nutné přitom využít elementy <pb .../>, které jsou uvedeny na začátku textu, za elementem <pb ...>, který označuje první stránku, např. takto: Některé texty jsou dlouhé – až 6 rukopisných stránek, ale stránky se zobrazují vždy vpravo pod sebou a nenavazují na přepis. Můžete to napravit tím, že na patřičná místa v XML vložíte údaj o přechodu na novou stránku. Je nutné přitom využít elementy <pb .../>, které jsou uvedeny na začátku textu, za elementem <pb ...>, který označuje první stránku, např. takto:
Řádek 43: Řádek 71:
 Přechod na druhou stránku označíme přemístěním druhého elementu, jinak nijak neupravovaného,​ na příslušné místo v textu. Elementem <pb .../> však nesmíme rozdělit token (element <​tok ​  >​...</​tok>​). Přechod na druhou stránku označíme přemístěním druhého elementu, jinak nijak neupravovaného,​ na příslušné místo v textu. Elementem <pb .../> však nesmíme rozdělit token (element <​tok ​  >​...</​tok>​).
  
-==== Formát XML ====+Pokud je u textů uvedeno v metadatech "text medium: typed",​ tak k textu sken nepřipojujeme a automaticky vygenerovaný odkaz na sken v hlavičce dokumentu by být neměl (je-li, bude odstraněno hromadně). 
 + 
 +CzeSL: Pokud se k textu neotevře zároveň i sken, nejčastější příčinou bude to, že se skládá z více stránek. Zkuste soubor otevřít ve formátu XML a odkaz na sken upravte. Velmi často stačí např. nahradit řádek <pb facs="​AA_CH_003.jpg"​ id="​e-1"​ admin="​1”/>​ dvěma řádky, kde jen za název souboru se skenem přidáte znaky “a” a “b” (viz příklad). Mohou být i delší než dvě rukopisné stránky a jejich skeny jsou označené analogicky dalšími písmeny abecedy. 
 + 
 +       <​pb facs="​AA_CH_003a.jpg"​ id="​e-1"​ admin="​1”/>​ 
 +       <​pb facs="​AA_CH_003b.jpg"​ id="​e-1"​ admin="​1”/>​ 
 +==== 2.2. Formát XML ====
  
 Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby. Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby.
  
-Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>​kočkovíté</​tok>''​.+Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>>​kočkovíté</​tok>''​.
  
 Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//)
  
-===== Přepisy textu =====+===== 3. Přepisy textu =====
  
-==== Anonymizace ====+==== 3.1. Anonymizace ====
  
 Z přepisu by neměla být zřejmá identita autora, jeho příbuzných,​ spolužáků,​ adresa, datum narození, případně ani jméno instituce s autorem nějak spojené. Proto by v přepisu měla být skutečná vlastní jména a další osobní údaje, která mohou autora identifikovat,​ nahrazena zástupnými jmény. Zástupná jména jsou v přepisu uvedena šedě. Pokud v přepisu narazíme na neanonymizované vlastní jméno (osoby, místa, instituce), datum narození apod., nahradíme ho podle pokynů na str. 10 a 11 dokumentu [[http://​utkl.ff.cuni.cz/​~rosen/​public/​manual_prepis_textu_Romove.pdf|Manuál pro přepis psaných materiálů]]. To je třeba udělat přímo v XML – viz [[skript_man:​navod_k_anotaci#​Opravy textů ve formátu XML]]. Datum sepsání textu necháváme neanonymizované. Nevíte-li si rady, odložte zatím takový text na později nebo si řekněte o pomoc v tomto fóru. Z přepisu by neměla být zřejmá identita autora, jeho příbuzných,​ spolužáků,​ adresa, datum narození, případně ani jméno instituce s autorem nějak spojené. Proto by v přepisu měla být skutečná vlastní jména a další osobní údaje, která mohou autora identifikovat,​ nahrazena zástupnými jmény. Zástupná jména jsou v přepisu uvedena šedě. Pokud v přepisu narazíme na neanonymizované vlastní jméno (osoby, místa, instituce), datum narození apod., nahradíme ho podle pokynů na str. 10 a 11 dokumentu [[http://​utkl.ff.cuni.cz/​~rosen/​public/​manual_prepis_textu_Romove.pdf|Manuál pro přepis psaných materiálů]]. To je třeba udělat přímo v XML – viz [[skript_man:​navod_k_anotaci#​Opravy textů ve formátu XML]]. Datum sepsání textu necháváme neanonymizované. Nevíte-li si rady, odložte zatím takový text na později nebo si řekněte o pomoc v tomto fóru.
  
-==== Opravy přepisu ====+==== 3.2. Opravy přepisu ====
  
 Někdy zjistíte, že přepis neodpovídá skenu. V takovém případě je žádoucí přepis opravit. Přísně však odlišujeme opravu přepisu (@pform) a anotaci chybných tvarů (@form). Zde řešíme jen opravy přepisu. Někdy zjistíte, že přepis neodpovídá skenu. V takovém případě je žádoucí přepis opravit. Přísně však odlišujeme opravu přepisu (@pform) a anotaci chybných tvarů (@form). Zde řešíme jen opravy přepisu.
Řádek 67: Řádek 101:
 Dále popisujeme opravy přepisu po tokenizaci. Dále popisujeme opravy přepisu po tokenizaci.
  
-=== Přeškrtnutý text ===+=== 3.2.1. ​Přeškrtnutý text ===
  
   * V přepisu by slovo přeškrtnuté v rukopisu měl být přeškrtnuté taky. Např. takto:   * V přepisu by slovo přeškrtnuté v rukopisu měl být přeškrtnuté taky. Např. takto:
Řádek 90: Řádek 124:
  
  
-=== Slova chybně přepsaná bez oddělovacích mezer ===+=== 3.2.2. ​Slova chybně přepsaná bez oddělovacích mezer ===
  
 Text chybně přepsaný bez mezer opravíme tak, že vložíme mezery a doplníme značky pro tokeny. Nedoplňujeme atributy "​id=",​ TEITOK si tokeny očísluje sám.  Text chybně přepsaný bez mezer opravíme tak, že vložíme mezery a doplníme značky pro tokeny. Nedoplňujeme atributy "​id=",​ TEITOK si tokeny očísluje sám. 
Řádek 98: Řádek 132:
        <​tok>​Procházka</​tok>​ <​tok>​bylo</​tok>​ <​tok>​mu</​tok>​. ​        <​tok>​Procházka</​tok>​ <​tok>​bylo</​tok>​ <​tok>​mu</​tok>​. ​
  
-=== Mezery chybně rozdělující slovo ===+=== 3.2.3. ​Mezery chybně rozdělující slovo ===
  
   * U slova chybně rozděleného mezerami klikneme na token za mezerou a pak dole na "merge left to ...". Uložíme. Máme ze dvou tokenů jeden. V @pform pak vymažeme mezeru mezi oběma slovy a znovu uložíme. Totéž můžeme udělat i přímo ve formátu XML.   * U slova chybně rozděleného mezerami klikneme na token za mezerou a pak dole na "merge left to ...". Uložíme. Máme ze dvou tokenů jeden. V @pform pak vymažeme mezeru mezi oběma slovy a znovu uložíme. Totéž můžeme udělat i přímo ve formátu XML.
Řádek 107: Řádek 141:
        <​tok>​jedno <​unclear>​hubky</​unclear></​tok>​        <​tok>​jedno <​unclear>​hubky</​unclear></​tok>​
  
-=== Rozluštěná slova ===+=== 3.2.4. ​Rozluštěná slova ===
  
   * Pokud rozluštíte slovo nebo několik slov, která jsou přepsána jako <​gap/>,​ nahraďte značku rozpoznaným slovem (slovy), označeným(i) jako "​tok"​. ​   * Pokud rozluštíte slovo nebo několik slov, která jsou přepsána jako <​gap/>,​ nahraďte značku rozpoznaným slovem (slovy), označeným(i) jako "​tok"​. ​
   * Jde to částečně i přes "Edit Token",​ ale je to komplikovanější:​ Klikněte na slovo těsně před nebo za [...] (<​gap/>​),​ na stránce Edit Token klikněte na "edit token after (resp. before) separate"​ a na nové stránce vložte rozpoznané slovo do rámečku pro přepis místo prázdného elementu <​ee/>​. Uložte, ale na přidané slovo znovu klikněte a na stejné stránce Edit Token klikněte tentokrát na "edit kontext XML". Najděte značku <​gap/>​ a smažte ji. Uložte.   * Jde to částečně i přes "Edit Token",​ ale je to komplikovanější:​ Klikněte na slovo těsně před nebo za [...] (<​gap/>​),​ na stránce Edit Token klikněte na "edit token after (resp. before) separate"​ a na nové stránce vložte rozpoznané slovo do rámečku pro přepis místo prázdného elementu <​ee/>​. Uložte, ale na přidané slovo znovu klikněte a na stejné stránce Edit Token klikněte tentokrát na "edit kontext XML". Najděte značku <​gap/>​ a smažte ji. Uložte.
-===== Anotace =====+===== 4. Anotace =====
  
  
-==== Zásady anotace ====+==== 4.1. Zásady anotace ====
  
 V této části se věnujeme opravám textu po opravách žáka (podle @form) a po tokenizaci. Opravy přepisu (@pform) jsou popsány jinde. V této části se věnujeme opravám textu po opravách žáka (podle @form) a po tokenizaci. Opravy přepisu (@pform) jsou popsány jinde.
Řádek 120: Řádek 154:
 Při anotaci se snažíme minimalizovat zásahy. Cílem je opravit text tak, aby byl pokud možno srozumitelný,​ gramaticky správný a podle spisovné normy. Neusilujeme o stylistickou vybroušenost ani o typografickou preciznost. Např. přímou řeč stačí oddělit čárkou, nemusíme doplňovat dvojtečku a uvozovky. Podobně i věty řazené za sebou bez interpunkce a počátečních velkých písmen od sebe oddělujeme čárkou nebo středníkem místo tečky a velkého písmene, pokud to nebrání porozumění. Při anotaci se snažíme minimalizovat zásahy. Cílem je opravit text tak, aby byl pokud možno srozumitelný,​ gramaticky správný a podle spisovné normy. Neusilujeme o stylistickou vybroušenost ani o typografickou preciznost. Např. přímou řeč stačí oddělit čárkou, nemusíme doplňovat dvojtečku a uvozovky. Podobně i věty řazené za sebou bez interpunkce a počátečních velkých písmen od sebe oddělujeme čárkou nebo středníkem místo tečky a velkého písmene, pokud to nebrání porozumění.
  
-==== Postup ====+==== 4.2. Postup ====
  
 Po kontrole anonymizace a přepisu je třeba text rozdělit na slova. Klikneme na "​Tokenize the text" dole pod textem. Po kontrole anonymizace a přepisu je třeba text rozdělit na slova. Klikneme na "​Tokenize the text" dole pod textem.
Řádek 132: Řádek 166:
 | gram | Morphosyntactically corrected form | morfosyntaktická oprava | | gram | Morphosyntactically corrected form | morfosyntaktická oprava |
 | lex | Lexically corrected form | lexikální oprava | | lex | Lexically corrected form | lexikální oprava |
 +| subs  | Subsequent correction | následná oprava (jen CzeSL) |
  
 Každá položka je v souboru XML zapsána jako atribut elementu tok, pojmenovaný zkratkou v prvním sloupci. V dalším textu budeme na tyto položky odkazovat jako na atributy XML. Např. @ort odkazuje na atribut a položku "​ort"​. Každá položka je v souboru XML zapsána jako atribut elementu tok, pojmenovaný zkratkou v prvním sloupci. V dalším textu budeme na tyto položky odkazovat jako na atributy XML. Např. @ort odkazuje na atribut a položku "​ort"​.
Řádek 141: Řádek 176:
 Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<​nowiki>​--</​nowiki>​). Takovým způsobem lze např. v @ort vymazat interpunkci navíc. Nevyplněné položky se při dalším zpracování doplní údaji z výše uvedených rovin. Pokud chcete na nějaké rovině uvést, že zde token neexistuje, zapište dva spojovníky (<​nowiki>​--</​nowiki>​). Takovým způsobem lze např. v @ort vymazat interpunkci navíc.
  
-Pokud je slovo nesrozumitelné,​ nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort tři otazníky (???​). ​Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvarykteré jsou samy o sobě korektní nebo nějak interpretovatelné, označte třemi otazníky ​celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám)+Pokud je slovo nesrozumitelné,​ nedává smysl ani v širším kontextu a žádný tvar, kterým by se dalo nahradit, vás nenapadá, uveďte do položky @ort, @gram nebo @lex tři otazníky (???​). ​Neexistující tvar, který se vám nedaří opravit, označte třemi otazníky ​položce @ort. Jde-li o existujícíale morfosyntakticky chybný tvar, uveďte třotazníky v položce @gram. Správně utvořené slovo ve správném tvaruvčetně autorských neologismů,​ které však v kontextu nedává smysl a nelze ho ničím nahradit, označte třemi otazníky v položce @lex
  
-==== Na jaké rovině tvar opravit? ====+Pokud je nesrozumitelná celá věta, i když třeba obsahuje tvary, které jsou samy o sobě korektní nebo nějak interpretovatelné,​ označte třemi otazníky celou větu (viz níže Opravy na úrovni věty / Poznámky ke větám). ​
  
-  * Do @ort patří chyby v diakritice((pokud nejde o lexikální chybu typu pán => pan)) a i/y (//​úklízely ​=> uklízeli//​),​ velikosti písmen((neopravujeme slova nebo dokonce celé texty zapsané velkými písmeny)) a hranicích slov (//na jednou ​=> Najednou//​),​ interpunkci (tečky, čárky, dvojtečky, středníky,​ uvozovky, včetně teček za řadovou číslovkou),​ ú/ů (//​ůkol//​),​ dále opravy nespisovných a nářečních tvarů (//velké [města], dobrej, hodný [holky]//​) +==== 4.3Na jaké rovině tvar opravit? ​====
-  * Do @gram patří chyby ve shodě, rekci a v dalších morfosyntaktických jevech, pokud jsou slyšet, nejde o chyby v diakritice ani nespisovné nebo nářeční tvaryŘadíme sem i chybně (ne)vokalizované předložky +
-  * Do @lex patří chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //). +
-==== Postupné opravy ​==== +
  
-Opravy řešíme postupně po rovinách v pořadí od rektifikace nespisovných tvarů po lexikum. Např. //[znám] novák// opravíme v @ort na //[znám] Novák// a pak v @gram na //[znám] Nováka//​. +  * **@dform**: chyby v pravopisu nespisovných tvarů, např. //dobrey => dobrej//  
-==== Nespisovná čeština a nářečí ====+  * **@ort** – chyby: 
 +    * v diakritice((pokud nejde o lexikální chybu typu pán => pan)) a i/y (//​úklízely => uklízeli//​);​ **//​CzeSL//​**:​ jde-li o chybu v afixu, chybný tvar je nesprávný jen v kontextu a sám o sobě je správně utvořený, patří chyba do @gram 
 +    * ve velikosti písmen((neopravujeme slova nebo dokonce celé texty zapsané velkými písmeny)) 
 +    * v hranicích slov (//na jednou => Najednou//​) 
 +    * v interpunkci (tečky, čárky, dvojtečky, středníky,​ uvozovky, včetně teček za řadovou číslovkou),​ ú/ů (//​ůkol//​) 
 +    * v užití nespisovných a nářečních tvarů (//velké [města], dobrej, hodný [holky]//); **//​CzeSL//​**:​ pokud lze tvar sám o sobě interpretovat jako spisovný, patří chyba do @gram, např. //lidi => lidé// 
 +    * tvary, které jsou chybně utvořené, i když přísně vzato pravopisnou chybu nevykazují,​ např. //babičkem => babičkou, pracovám => pracuju, kůněm => koněm//  
 +    * záměna za tvar, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený a vysloví se jinak než jeho oprava, patří do @gram; **//​CzeSL//​**:​ podmínky jiné výslovnosti odpadá, do @gram patří i chyba ve tvaru, který je nesprávný jen v kontextu, ale sám o sobě je správně utvořený 
 +  * **@gram**:  
 +    * chyby ve shodě, rekci a v dalších morfosyntaktických jevech, pokud jsou slyšet, nejde o chyby v diakritice ani nespisovné nebo nářeční tvary; **//​CzeSL//​**:​ chyby ve shodě, rekci a v dalších morfosyntaktických jevech nemusí být slyšet, může jít o diakritiku i nespisovné nebo nářeční tvary 
 +    * nejčastěji jde o chybu v morfologické kategorii pádu, čísla, rodu, osoby, ale i stupně (adjektiv a adverbií) 
 +    * chybně (ne)vokalizované předložky  
 +    * chybějící nebo přebývající pomocná slova: pomocná a modální slovesa, předložky,​ spojky a krátké zvratné tvary //se// a //si// 
 +      * chybějící a přebývající předložky,​ spojky a zvratné částice doplňujeme nebo mažeme jako samostatné tokeny 
 +      * kategorie pomocných sloves se týká pomocných sloves v minulém a budoucím čase, kondicionálu i trpném rodu, a také spony 
 +      * když pomocné sloveso přebývá (//děti jsou přišly//​),​ spojíme ho s významovým slovesem na @gram do elementu mtok 
 +      * když pomocné sloveso chybí, rozdělíme významové sloveso na dtoks 
 +      * příklady typu //budu napsat => napíšu// řešíme spojením do mtok na @gram, záměnu vidu zde ignorujeme 
 +      * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves 
 +      * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony  
 +      * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu významovému,​ použijeme stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme ​  
 +  * **@lex**:  
 +    * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo 
 +    * opravy slovesného vidu 
 +  * **@subs**:  
 +    * opravy forem, které byly v lokálním kontextu původního textu správně a je nutné je opravit jen s ohledem na chybu v jiném slově 
 +    * obvykle jde o odlišnou syntaktickou vazbu v opraveném textu, např. //do školy => ve škole, podpořit někoho => pomáhat někomu// 
 +    * záměnu předložky a slovesa řešíme v těchto případech jako chybu @lex, záměnu gramatických kategorií slovesa jako chybu @gram 
 +==== 4.4. Postupné opravy ====  
 + 
 +Opravy řešíme postupně po rovinách v pořadí od rektifikace nespisovných tvarů po lexikum. Např. //[znám] novák// opravíme v @ort na //[znám] Novák// a pak v @gram na //[znám] Nováka//. Podobně v příkladu //jeli jsme na prahu => jeli jsme do Prahy // opravíme //prahu => Prahu// jako @ort,  //na => do// jako @lex, a //Prahu => Prahy// jako @subs
 + 
 +Někdy ale postupné opravy anotaci zbytečně komplikují. Třeba v příkladu //k naším životem ​=> pro náš život// by se jako @gram mohlo opravit //​životem ​=> životu// a //​naším ​=> našemu//, pak na @lex //k => pro// a na @subs //životu => život// a //našemu => náš//. V tomto případě můžeme meziopravu na @gram vypustit a opravovat jen na @lex a @subs. 
 + 
 +==== 4.5. Nespisovná čeština a nářečí ====
  
 V @ort uvádíme opravy podle spisovné normy (viz např. http://​prirucka.ujc.cas.cz),​ např. V @ort uvádíme opravy podle spisovné normy (viz např. http://​prirucka.ujc.cas.cz),​ např.
Řádek 191: Řádek 257:
  
  
-==== Opravy hranic slov ====+==== 4.6. Opravy hranic slov ====
  
 Chybně spojená a rozdělená slova považujeme za pravopisnou chybu. ​ Chybně spojená a rozdělená slova považujeme za pravopisnou chybu. ​
  
-=== Chybně spojená slova ===+=== 4.6.1. ​Chybně spojená slova ===
  
-Chybně spojená slova (např. //​řeklsi//​) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na "Split tokens based on ort". Původní token (stále označený jako element "​tok"​ se tak rozdělí na více podtokenů, označených jako "​dtok"​. U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu ("​D-Token"​ na stránce "Edit Token"​) a lze ji dále opravovat.+Chybně spojená slova (např. //​řeklsi//​) stačí přepsat odděleně s mezerou v @ort, uložit a kliknout pod textem dole na "Split tokens based on ort". Původní token (stále označený jako element "​tok"​se tak rozdělí na více podtokenů, označených jako "​dtok"​. U podtokenů je oddělená část původně spojeného tvaru uvedena jako @form daného podtokenu ("​D-Token"​ na stránce "Edit Token"​) a lze ji dále opravovat.
  
 Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci "Split tokens based on ort". Funkci lze na daný text použít jen jednou. Opravíme tedy nejprve všechna spojené slova v textu v @ort a až nakonec klikneme na funkci "Split tokens based on ort".
  
-=== Chybně oddělená slova ===+=== 6.6.2. ​Chybně oddělená slova ===
  
 Chybně oddělená slova (např. //s kamarádit//​) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme "​create mtok left: 1" (pokud spojujeme s jedním tokenem vlevo) nebo "​create mtok left: 2" (pokud spojujeme se dvěma tokeny vlevo). V @ort pod "​Multi-token value (newmtok)"​ pak vyplníme @ort.  Chybně oddělená slova (např. //s kamarádit//​) opravíme na @ort tak, že klikneme na slovo za mezerou a zvolíme "​create mtok left: 1" (pokud spojujeme s jedním tokenem vlevo) nebo "​create mtok left: 2" (pokud spojujeme se dvěma tokeny vlevo). V @ort pod "​Multi-token value (newmtok)"​ pak vyplníme @ort. 
Řádek 227: Řádek 293:
 Editování XML si ušetříme,​ když postup obrátíme: nejdřív za //slovo2// přidáme čárku a teprve potom spojíme //slovo2// se //​slovem1//​. Dostaneme tak správnou verzi rovnou. Editování XML si ušetříme,​ když postup obrátíme: nejdřív za //slovo2// přidáme čárku a teprve potom spojíme //slovo2// se //​slovem1//​. Dostaneme tak správnou verzi rovnou.
  
-=== Nahrazení jednoho slova více slovy a naopak ===+=== 4.6.3. ​Nahrazení jednoho slova více slovy a naopak ===
  
 Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "​insert tok before: separate"​. Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<​nowiki>​--</​nowiki>​). Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "​insert tok before: separate"​. Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<​nowiki>​--</​nowiki>​).
-==== Vymazání a vložení tokenu ====+==== 4.7. Vymazání a vložení tokenu ====
  
 U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná,​ byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. ​ U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná,​ byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. ​
Řádek 236: Řádek 302:
 Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<​nowiki>​--</​nowiki>,​ viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//. Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<​nowiki>​--</​nowiki>,​ viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//.
  
-=== Vymazání tokenu ===+=== 4.7.1. ​Vymazání tokenu ===
  
 Na příslušné rovině zapište dva spojovníky (<​nowiki>​--</​nowiki>​). ​ Na příslušné rovině zapište dva spojovníky (<​nowiki>​--</​nowiki>​). ​
  
-=== Vložení tokenu ===+=== 4.7.2. ​Vložení tokenu ===
  
 Slova do textu doplňujeme jen v nutných případech,​ kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet. Slova do textu doplňujeme jen v nutných případech,​ kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet.
Řádek 247: Řádek 313:
   - Pod všemi položkami najdete různé možnosti, jak tokeny vkládat, spojovat a rozdělovat. Má-li být token vložen bez oddělovací mezery (např. u interpunkce),​ vyberte si možnost "​insert tok after: attached"​ (klikněte na červené slovo "​attached"​). Objeví se nová stránka "Edit token",​ tentokrát je ale v @pform značka <ee/> ("​empty element"​). ​   - Pod všemi položkami najdete různé možnosti, jak tokeny vkládat, spojovat a rozdělovat. Má-li být token vložen bez oddělovací mezery (např. u interpunkce),​ vyberte si možnost "​insert tok after: attached"​ (klikněte na červené slovo "​attached"​). Objeví se nová stránka "Edit token",​ tentokrát je ale v @pform značka <ee/> ("​empty element"​). ​
   - Na příslušnou rovinu (např. @ort) vložíme nový token (např. chybějící čárku). Stiskneme Enter nebo klikneme na Save.   - Na příslušnou rovinu (např. @ort) vložíme nový token (např. chybějící čárku). Stiskneme Enter nebo klikneme na Save.
-  - Opravu uvidíme, když klikneme v Možnostech zobrazení na Pravopisné opravy. V souboru XML je vložená tečka zaznamenána např. takto: +  - Opravu uvidíme, když klikneme v Možnostech zobrazení na Pravopisné opravy. V souboru XML je vložená tečka zaznamenána např. takto: <tok id=<​nowiki>"</​nowiki>​w-60<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>,<​nowiki>"</​nowiki><​ee/></​tok>​Značka <ee/> označuje, že na daném místě nebylo původně nic.
-  +
-      ​<tok id=<​nowiki>"</​nowiki>​w-60<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>,<​nowiki>"</​nowiki><​ee/></​tok>​ +
-      +
-Značka <ee/> označuje, že na daném místě nebylo původně nic.+
   - Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("​before"​ místo "​after"​),​ nebo pomlčky, oddělené mezerou ("​separate"​ místo "​attached"​).   - Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("​before"​ místo "​after"​),​ nebo pomlčky, oddělené mezerou ("​separate"​ místo "​attached"​).
   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
-==== Opravy na úrovni věty ====+==== 4.8. Opravy posloupnosti slov ==== 
 + 
 +Více slov najednou opravujeme jen v nutných případech,​ jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. ​   
 + 
 +=== 4.8.1. Opravy slovosledu === 
 + 
 +Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. 
 + 
 +  * slovosled opravujeme až po všech opravách jednotlivých slov v Text view 
 +  * klikneme na Create Stand-off error annotation v Text view dole pod textem 
 +  * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) 
 +  * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima v Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //​ještě//​ 
 +  * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //​ještě//​ 
 +  * vyznačované úseky nemusí dohromady tvořit souvislý úsek a měly by být co nejkratší,​ neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici 
 +  * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo vybereme v položce Code kód **WO** 
 +  * položku Correction ponecháme prázdnou 
 +  * opravu uložíme 
 + 
 +Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. 
 + 
 +Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů. 
 + 
 +=== 4.8.2. Opravy konstrukcí === 
 + 
 +Stand-off anotaci můžeme využít i pro opravy konstrukcí,​ které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//.  
 + 
 +=== 4.8.3. Označení problémových úseků === 
 + 
 +Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. 
 +==== 4.9. Opravy na úrovni věty ==== 
 + 
 +=== 4.9.1. Opravy slovosledu ​===
  
-=== Opravy slovosledu ===+Slovosled opravujeme tímto způsobem jen ve výjimečných případech,​ kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov. 
  
-Slovosled opravujeme jen v nutných případechkdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.+Nesnažíme se také opravovat slovosledkterý ​je jen stylisticky neobratný. Platí zásada minimální intervence: ​původní text by měl být v důsledku nesprávného slovosledu ​negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. ​
  
 V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.
Řádek 264: Řádek 357:
 Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
  
-=== Poznámky ke větám ===+=== 4.9.2. ​Poznámky ke větám ===
  
 Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Do rámečku "​Note"​ můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Do rámečku "​Note"​ můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku.
Řádek 270: Řádek 363:
 Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
  
-=== Rozdělení odstavců na věty ===+=== 4.9.3. ​Rozdělení odstavců na věty ===
  
 Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. ​ Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. ​

QR Code
QR Code skript_man:navod_k_anotaci (generated for current page)