Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Both sides previous revision Předchozí verze
Následující verze
Předchozí verze
Poslední revize Both sides next revision
skript_man:navod_k_anotaci [2019/10/07 19:36]
rosen [4.6. Opravy hranic slov]
skript_man:navod_k_anotaci [2019/11/03 11:51]
rosen [4.8. Opravy posloupnosti slov]
Řádek 5: Řádek 5:
 ==== 1.1. Přihlášení do systému TEITOK ==== ==== 1.1. Přihlášení do systému TEITOK ====
  
-=== 1.1.1. Projekt ​SKRIPT2015 ​===+=== 1.1.1. Projekt ​Skript 2015 ===
 Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​ Přihlásíme se svým emailem a heslem na adrese http://​utkl.ff.cuni.cz/​teitok/​emendace/​. ​
 Nemáte-li přístupové údaje, napište si o ně.  Nemáte-li přístupové údaje, napište si o ně. 
Řádek 81: Řádek 81:
 Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby. Naskenované rukopisy jsou přepsány do elektronické podoby a uloženy v TEITOKu ve formátu XML (úvod viz např. [[https://​cs.wikipedia.org/​wiki/​Extensible_Markup_Language|heslo XML ve Wiki]]). TEITOK je zobrazuje, edituje, ukládá a prohledává tak, že se o tento formát většinou nemusíme zajímat. S některými problémy si však neporadí, a proto je vhodné se seznámit s tím, jak se v prostředí TEITOK zaznamenávají údaje o vlastnostech rukopisu (škrtání,​ vsuvky), anonymizovaná vlastní jména, dělení na slova (tokenizace) a další chybová i lingvistická anotace. Pomůže nám to opravovat některé typy chyb v přepisu a tokenizaci, upravovat a doplňovat anonymizované údaje, ​ a anotovat složitější chyby.
  
-Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>​kočkovíté</​tok>''​.+Kromě vlastního textu jsou ve formátu XML značky (tagy), které označují začátek a konec elementu, tj. nějaké části textu (písmene, slova, nebo jiného úseku textu). Značky mají své názvy a k odlišení od běžného textu jsou v lomených závorkách,​ např. počáteční značka pro element text (tj. pro celý jeden text) se zapisuje jako ''<​text>''​ a koncová značka jako ''</​text>''​. Je-li element prázdný, může se např. místo ''<​text></​text>''​ zapsat ''<​text/>''​. Některé značky mohou obsahovat atributy s jejich hodnotami, např. element tok (slovo nebo interpunkční znaménko) může mít atributy pro identifikátor daného tokenu v textu a různé jeho interpretace:​ ''<​tok id=<​nowiki>"</​nowiki>​w-6<​nowiki>"</​nowiki>​ ort=<​nowiki>"</​nowiki>​kočkovité<​nowiki>"</​nowiki>>​kočkovíté</​tok>''​.
  
 Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//) Soubor XML lze editovat před tokenizací (//This XML has not been tokenized yet, and only the text is shown below. To edit, click **here**.//​) nebo po tokenizaci. Po tokenizaci si lze navíc nechat zobrazit celý text nebo jen nejbližší okolí konkrétního slova (//Edit the information about each word of this file by clicking on the word in the text below, or click **here** to edit the raw XML.//)
Řádek 201: Řádek 201:
       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves       * záměnu předložky nebo spojky za jinou předložku nebo spojku řešíme na @lex, stejně tak i záměnu modálních sloves
       * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony        * záměna zvratných tvarů, záměna pomocného slovesa //být// nebo spony 
-      * **//​Problémem zůstává, jak řešit ​chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​vyznamovému – nabízí se stejné řešení jako u ostatních pomocných slov, je jen otázka, zda to nerozšířit i na kontaktní pozici.//​** ​+      * je-li chybějící nebo přebývající pomocné sloveso v nekontaktní slovosledné pozici vůči slovesu ​významovému,​ použijeme ​stejné řešení jako u ostatních pomocných slov, tj. pomocné sloveso přidáme nebo smažeme  ​
   * **@lex**: ​   * **@lex**: ​
     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo     * chyby, u kterých je třeba provést záměnu lexémů (//autem mechanikem => automechanikem,​ pán => pan [Novák], kdy => kdyby //), nejde-li o pomocné slovo
Řádek 294: Řádek 294:
  
 Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "​insert tok before: separate"​. Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<​nowiki>​--</​nowiki>​). Jde-li o lexikální opravu, použijeme funkci "split in dtoks" na @lex. Chybějící předložku ale doplňujeme na @gram jako další token pomocí funkce "​insert tok before: separate"​. Chceme-li naopak předložku smazat, uvedeme na příslušné rovině (@gram) dva spojovníky (<​nowiki>​--</​nowiki>​).
-==== Vymazání a vložení tokenu ====+==== 4.7. Vymazání a vložení tokenu ====
  
 U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná,​ byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. ​ U interpunkce jde vždy o chybu pravopisnou (@ort), jindy může jít i o chybu morfosyntaktickou nebo lexikální. Pokud je konstrukce bez doplnění negramatická (část slovesného tvaru, předmět u slovesa //dát//, //mít// apod.), byla by to spíše morfosyntaktická chyba, pokud je bez doplnění nesrozumitelná,​ byla by to chyba spíše lexikální. Za lexikální chybu považujeme také bezdůvodné opakování slova. Každopádně to má smysl jen tehdy, pokud máme relativní jistotu, co doplnit. ​
Řádek 300: Řádek 300:
 Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<​nowiki>​--</​nowiki>,​ viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//. Mazat a přidávat můžeme i podtokeny (elementy dtok). Např. v //dočkat se naněj// rozdělíme nejdřív //naněj// na dva elementy dtok (vz Chybně oddělená slova). V dtok předložky pak zapíšeme do @gram dva spojovníky (<​nowiki>​--</​nowiki>,​ viz Vymazání tokenu) a zájmeno //něj// analogicky opravíme na //ho//. Ale //ho// musíme zapsat i do @gram elementu tok, jinak bude v zobrazení morfosyntaktických chyb na Text view stále jen //na něj//.
  
-=== Vymazání tokenu ===+=== 4.7.1. ​Vymazání tokenu ===
  
 Na příslušné rovině zapište dva spojovníky (<​nowiki>​--</​nowiki>​). ​ Na příslušné rovině zapište dva spojovníky (<​nowiki>​--</​nowiki>​). ​
  
-=== Vložení tokenu ===+=== 4.7.2. ​Vložení tokenu ===
  
 Slova do textu doplňujeme jen v nutných případech,​ kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet. Slova do textu doplňujeme jen v nutných případech,​ kdy by jinak text byl negramatický nebo zcela nesrozumitelný a kdy víme s dostatečnou jistotou, co doplnit. Je-li třeba doplnit více než jedno slovo, snažíme se minimalizovat jejich počet.
Řádek 314: Řádek 314:
   - Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("​before"​ místo "​after"​),​ nebo pomlčky, oddělené mezerou ("​separate"​ místo "​attached"​).   - Můžete tak vkládat libovolné slovo, ale třeba i uvozovky, i těsně před slovo ("​before"​ místo "​after"​),​ nebo pomlčky, oddělené mezerou ("​separate"​ místo "​attached"​).
   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.   - Tokeny nelze vkládat před nebo za spojená slova (elementy mtok). Je tedy lepší nejdříve token vložit před nebo za chybně oddělené slovo a pak teprve chybně oddělená slova spojit. Více viz Chybně oddělená slova.
-==== Opravy posloupnosti slov ====+==== 4.8. Opravy posloupnosti slov ====
  
-=== Opravy ​slovosledu ===+Více slov najednou opravujeme jen v nutných případech,​ jinak dáváme přednost opravám jednotlivých slov. Opravy ​více slov najednou provádíme z jiné stránky než opravy jednotlivých slov. Ze stránky **Text view** se na tuto stránku dostaneme po kliknutí na **Stand-off error annotation**. Opravy více slov se zaznamenávají do odděleného souboru v podobě odkazů na jednotlivé tokeny v textu. Tento soubor nenajdeme ve své složce, ale můžeme se na něj podívat ze stránky **Stand-off error annotation** po kliknutí na **edit raw XML file**. ​  
  
-  * klikněte na Create Stand-off error annotation v Text view dole pod textem +=== 4.8.1. Opravy slovosledu === 
-  * vyznačte myší ​souvislý úsek textu, ​němž chcete upravit slovosled + 
-  * úsek by být co nejkratší,​ neměby tedy obsahovat ​na začátku a na konci slova, která zůstanou po opravě na stejné pozici +Neopravujeme slovosled, který je jen stylisticky neobratný. Platí zásada minimální intervence: původní text by měl být v důsledku nesprávného slovosledu negramatický nebo těžko srozumitelný. 
-  * v rámečku Edit Annotation vpravo ​vyberte ​v položce Code kód WO + 
-  * položce Correction ​uveďte daný úsek textu se všemi provedenými opravami a s opraveným slovosledem +  * slovosled opravujeme až po všech opravách jednotlivých slov v Text view 
-  * opravu uložte+  * klikneme ​na Create Stand-off error annotation v Text view dole pod textem 
 +  * tak jako v Text view si nad textem můžeme vybrat zobrazení, obvykle zvolíme tlačítko nejvíce vpravo (např. Lexically corrected form) 
 +  * slovosled opravujeme tak, že stiskneme klávesu **Alt** a myší ​zvýrazňujeme slova ve správném pořadí; chceme-li např. opravit //ještě líbí se mi klima Praze// na //ještě se mi líbí klima v Praze//, stiskneme **Alt**, zvýrazníme //se mi// a pak //​ještě//​ 
 +  * je také možné postupně ve správném pořadí klikáním se stisknutou klávesou **Alt** zvýrazňovat jednotlivá slova, nikoli úseky: se stisknutou klávesou **Alt** klikneme na postupně na //se//, //mi// a //ještě// 
 +  * vyznačované úseky nemusí dohromady tvořit souvislý ​úsek ly by být co nejkratší,​ neměly by tedy obsahovat slova, která zůstanou po opravě na stejné pozici 
 +  * uvolníme klávesu **alt** a v rámečku Edit Annotation vpravo ​vybereme ​v položce Code kód **WO** 
 +  * položku Correction ​ponecháme prázdnou 
 +  * opravu uložíme
  
 Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby. Takto můžeme opravovat i celou větu. Oproti přepsání věty do Target hypothesis to má tu výhodu, že uvádíme explicitně kód chyby.
Řádek 329: Řádek 336:
 Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů. Stand-off anotace ale má tu nevýhodu, že oprava je vidět jen na stránce Stand-off annotation, po kliknutí na Create Stand-off error annotation. I proto je důležité opravovat tímto způsobem jen slovosled, vycházet tedy ze oprav provedených u jednotlivých tokenů.
  
-=== Opravy konstrukcí ===+=== 4.8.2. ​Opravy konstrukcí ===
  
 Stand-off anotaci můžeme využít i pro opravy konstrukcí,​ které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//​. ​ Stand-off anotaci můžeme využít i pro opravy konstrukcí,​ které nelze dost dobře zvládnout opravami jednotlivých slov. Např. //bratr a sestra jsou moc různí// tak můžeme opravit na //bratr a sestra se hodně liší// tak, že kódem CONSTR vyznačíme a opravíme úsek //jsou moc různí//​. ​
  
-=== Označení problémových úseků ===+=== 4.8.3. ​Označení problémových úseků ===
  
 Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak. Stand-off anotaci můžeme využít i pro označení nesrozumitelných a tedy neopravitelných úseků. Zvolíme kód PROBLEM. Považujte prosím tuhle možnost za nouzové řešení, kdy opravdu nelze anotovat jinak.
-==== Opravy na úrovni věty ====+==== 4.9. Opravy na úrovni věty ==== 
 + 
 +=== 4.9.1. Opravy slovosledu ​===
  
-=== Opravy slovosledu ===+Slovosled opravujeme tímto způsobem jen ve výjimečných případech,​ kdy je při opravě třeba přeformulovat celé dlouhé souvětí a opravu nelze rozumným způsobem provést způsobem popsaným výše v části Oprava posloupnosti slov. 
  
-Slovosled opravujeme jen v nutných případechkdy je původní text negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách.+Nesnažíme se také opravovat slovosledkterý ​je jen stylisticky neobratný. Platí zásada minimální intervence: ​původní text by měl být v důsledku nesprávného slovosledu ​negramatický nebo těžko srozumitelný. Při opravách slovosledu přepisujeme celou větu v jejím konečném znění, po všech opravách. ​
  
 V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Objeví se rámeček "​Target Hypothesis",​ kam lze zapsat celou větu ve správném slovosledu. Uveďte její konečnou verzi, tj. po všech opravách i jednotlivých slov.
Řádek 346: Řádek 355:
 Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
  
-=== Poznámky ke větám ===+=== 4.9.2. ​Poznámky ke větám ===
  
 Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Do rámečku "​Note"​ můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku. Ke každé větě lze připojit i poznámku. V "Text View" klikněte dole pod textem na "​Zobrazit po větách",​ pak vlevo na číslo konkrétní věty. Do rámečku "​Note"​ můžete zapsat ???, pokud je věta zcela nesrozumitelná a lze opravit třeba jen pravopisnou podobu slov. Můžete vložit i jinou relevantní poznámku.
Řádek 352: Řádek 361:
 Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty. Pokud odstavec textu obsahuje více vět, je třeba text na věty nejprve rozdělit, viz Rozdělení odstavců na věty.
  
-=== Rozdělení odstavců na věty ===+=== 4.9.3. ​Rozdělení odstavců na věty ===
  
 Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. ​ Hranice vět v běžných případech nemusíte vůbec řešit. Pokud byste ale u některé věty v textu chtěli opravit slovosled, nebo k ní uvést poznámku, je třeba hranice věty v textu (XML) vyznačit. Začátek a konec věty se označuje značkami <s> a </s>. Po tokenizaci se hranice vět shodují s hranicemi odstavců. Za každým <p> tedy následuje <s> a každému </p> předchází </s>. Obsahuje-li odstavec více vět, je třeba provést níže uvedený postup. ​

QR Code
QR Code skript_man:navod_k_anotaci (generated for current page)