Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
Poslední revize Both sides next revision
skript_man:navod_k_anotaci [2019/10/07 19:38]
rosen [Opravy na úrovni věty]
skript_man:navod_k_anotaci [2019/11/03 11:51]
rosen [4.8. Opravy posloupnosti slov]
Řádek 5: Řádek 5:
 ==== 1.1. Přihlášení do systému TEITOK ==== ==== 1.1. Přihlášení do systému TEITOK ====
  
-=== 1.1.1. Projekt ​SKRIPT2015 ​===+=== 1.1.1. Projekt ​Skript 2015 ===
 Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​ Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​
 Nemáte-li přístupové údaje, napište si o ně.  Nemáte-li přístupové údaje, napište si o ně. 
Řádek 81: Řádek 81:
 Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby. Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby.
  
-Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>​kočkovíté</​tok>''​.+Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>>​kočkovíté</​tok>''​.
  
 Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//)
Řádek 201: Řádek 201:
       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves
       * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony        * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony 
-      * **//​Problémem zůstává, jak řešit ​chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.//​** ​+      * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​významovému,​ použijeme ​stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme  ​
   * **@lex**: ​   * **@lex**: ​
     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo
Řádek 315: Řádek 315:
   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
 ==== 4.8. Opravy posloupnosti slov ==== ==== 4.8. Opravy posloupnosti slov ====
 +
 +Více slov najednou opravujeme jen v nutných případech,​ jinak dáváme přednost opravám jednotlivých slov. Opravy více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. ​  
  
 === 4.8.1. Opravy slovosledu === === 4.8.1. Opravy slovosledu ===
  
-  * klikněte na Create Stand-off error annotation v Text view dole pod textem +Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. 
-  * vyznačte myší ​souvislý úsek textu, ​němž chcete upravit slovosled + 
-  * úsek by být co nejkratší,​ neměby tedy obsahovat ​na začátku a na konci slova, která zůstanou po opravě na stejné pozici +  * slovosled opravujeme až po všech opravách jednotlivých slov v Text view 
-  * v rámečku Edit Annotation vpravo ​vyberte ​v položce Code kód WO +  * klikneme ​na Create Stand-off error annotation v Text view dole pod textem 
-  * položce Correction ​uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem +  * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) 
-  * opravu uložte+  * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší ​zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //​ještě//​ 
 +  * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě// 
 +  * vyznačované úseky nemusí dohromady tvořit souvislý ​úsek ly by být co nejkratší,​ neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici 
 +  * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo ​vybereme ​v položce Code kód **WO** 
 +  * položku Correction ​ponecháme prázdnou 
 +  * opravu uložíme
  
 Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby.
Řádek 340: Řádek 347:
 === 4.9.1. Opravy slovosledu === === 4.9.1. Opravy slovosledu ===
  
-Slovosled opravujeme jen v nutných ​případech,​ kdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.+Slovosled opravujeme ​tímto způsobem ​jen ve výjimečných ​případech,​ kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov.  
 + 
 +Nesnažíme se také opravovat slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: ​původní text by měl být v důsledku nesprávného slovosledu ​negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. ​
  
 V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.

QR Code
QR Code skript_man:navod_k_anotaci (generated for current page)