English


Univerzita Karlova

Filozofická fakulta

Ústav teoretické a komputační lingvistiky




Czech syntactic lexicon

Hana Skoumalová



2001

Vedoucí: Prof. PhDr. Jarmila Panevová, DrSc.



Celý soubor si můžete stáhnout tady: .ps.gz, .pdf.gz, nebo jednotlivé kousky z obsahu.

Můžete se také podívat na slídy z mé přednášky o slovníku (zde jsou v PDF).

Vybraní uživatelé, kteří znají heslo, si mohou prohlížet hotové slovníky.


Abstrakt

V této práci se představuje elektronický slovník českých sloves. Slovník obsahuje asi 15000 českých sloves a jeho účelem je rozšířit informaci obsaženou v jiných elektronických slovnících. Trendem posledních let se stává tvorba velkých znovuvyužitelných zdrojů, které se dají kombinovat s jinými zdroji. Tato práce ukazuje, jak slovník spolupracuje s existujícím morfologickým slovníkem a jak může být využit v rozličných systémech zpracování přirozeného jazyka.

Kapitola 2 probírá různé teoretické přístupy ve srovnání s funkčním generativním popisem (FGP), jenž je užit ve slovníku. Výklad se soustřeďuje zejména na strukturu slovníku v jednotlivých teoriích. Slovník zpravidla odpovídá určitým předem daným podmínkám, které vyplývají z použité teorie, a proto se v práci zkoumá možnost vytvoření slovníku, který by byl přenositelný mezi teoriemi.

V kapitole 3 se probírají možnosti využít existující zdroje vzhledem k výsledkům, jichž má být dosaženo, a vzhledem k použité teorii. V minulosti již bylo několik českých syntaktických slovníků vytvořeno, ale bohužel jejich opětovné využití by bylo problematické. Tato kapitola se zmiňuje o několika pokusech a poté popisuje podrobně slovník, který byl nakonec použit.

V kapitole 4 se popisuje slovesný rámec. Nejdříve se popisuje formát slovníkového hesla, dále se probírají různé typy reflexivních konstrukcí v češtině a jejich zápis ve slovníku. V dalším oddíle se vyjmenovávají možné diateze základního (aktivního) rámce a probírá se, které z těchto diatezí mohou být zachyceny pravidly a s kterými je třeba zacházet jako s výjimkami. V poslední části kapitoly se probírají tzv. raising a equi slovesa.

V kapitole 5 je předvedena procedura pro automatický převod zdrojového slovníku do žádoucího formátu. Za tímto účelem byl vyvinut algoritmus, který přiřazuje funktory (sémantické role) jednotlivým členům rámce. Výstup z této procedury poslouží jako vstup pro editor rámců. Probírá se zde také, jaký objem dat se dá definitivně zpracovat touto procedurou a jaké množství vyžaduje následnou editaci. V této kapitole je také ukázáno, jak může být výsledný slovník využit při zpracování přirozeného jazyka.

Kapitola 6 obsahuje závěr. Slovesa jsou utříděna do tříd podle rámců a výsledky jsou porovnány s podobnými pracemi jiných badatelů. V dalším oddíle se probírají perspektivy zpracování jazyka založeného na symbolických metodách a možnost využití slovníku v korpusové lingvistice.


Contents (.ps, .pdf)

Acknowledgments . . . ii

1. Introduction . . . 1 (.ps, .pdf)
1.1. Terminological remarks . . . 2


2. Theoretical background . . . 3
2.1. An overview of FGD . . . 3
2.2. Comparing FGD with other theories . . . 6
2.2.1. Government Binding Theory . . . 6
2.2.2. Lexical Functional Grammar . . . 7
2.2.3. Head Driven Phrase Structure Grammar . . . 7
2.2.4. Comparison with FGD . . . 9


3. Using existing sources . . . 10 (.ps, .pdf)
3.1. Source data . . . 11
3.1.1. The attributes used in the lexicon and their values . . . 11


4. Content of the lexicon . . . 14 (.ps, .pdf)
4.1. Format of a lexical entry . . . 14
4.1.1. Voice . . . 15
4.1.2. Reflexivity . . . 16
4.1.3. Subject . . . 16
4.1.4. Functor . . . 17
4.1.5. Grammatemes . . . 17
4.1.6. Diatheses . . . 18

4.2. Reflexivity . . . 21
4.2.1. True reflexive with se. . . 21
4.2.2. True reflexive with si. . . 23
4.2.3. Reciprocal verbs with se. . . 23
4.2.4. Reciprocal verbs with si. . . 27
4.2.5. Reflexive tantum with se. . . 28
4.2.6. Derived reflexive verbs with se. . . 28
4.2.7. Reflexive tantum with si. . . 28
4.2.8. Derived reflexive verbs with si. . . 29
4.2.9. Reflexive with optional se. . . 29
4.2.10. Reflexive with optional si. . . 30
4.2.11. Reflexive passive . . . 31
4.2.12. Mediopassive . . . 31
4.2.13. Homonymy of reflexive verbs . . . 31

4.3. Diatheses . . . 33
4.3.1. Diatheses encoded in the lexicon . . . 40
4.3.2. Periphrastic passive . . . 41
4.3.3. Reflexive passive . . . 44
4.3.4. Mediopassive . . . 46
4.3.5. Constructions with mít and dostat . . . 47
4.3.6. Resultative construction with mít . . . 49

4.4. Verbs with the infinitive in their frames . . . 49
4.4.1. Raising verbs . . . 55
4.4.2. Equi verbs . . . 59


5. Algorithm for processing the surface frames . . . 66 (.ps, .pdf)
5.1. Identifying and merging frames, marking the obligatority . . . 66
5.2. Assigning functors . . . 68
5.3. Marking diatheses . . . 73
5.4. Usage of the final lexicon . . . 73
5.4.1. Generating frame instances from frames . . . 74
5.4.2. Extracting subcat lists . . . 76


6. Conclusions . . . 78 (.ps, .pdf)
6.1. Verb grouping . . . 78
6.2. Further perspectives . . . 80

Bibliography . . . 81

Subject index . . . 86

Verbs used in examples . . . 88

A. Abbreviations . . . 90 (.ps, .pdf)

B. Symbols used in the dictionary . . . 92
B.1. Voice . . . 92
B.2. Reflexivity . . . 92
B.3. Subject . . . 93
B.4. Functors . . . 93
B.5. Grammatemes . . . 94
B.6. Obligatority . . . 96
B.7. Passive and other diathesis . . . 96


C. Possible functors assigned to grammatemes . . . 97
C.1. Abbreviations used in lists of possible functors . . . 97
C.2. Lists of functors attached to every surface realization . . . 98


D. Algorithm for assigning functors . . . 102
D.1. Prototypical and less typical surface forms . . . 102
D.2. Assigning non prototypical frame . . . 103
D.3. Results . . . 103
D.3.1. Verbs processed fully automatically . . . 103
D.3.2. Verbs with ambiguous frames . . . 108


E. Classification of Czech frames . . . 115
E.1. Automatically processed frames . . . 115
E.2. Ambiguous frames . . . 116


F. Experiment with LFG . . . 121 (.ps, .pdf)
F.1. Verb lexicon . . . 121
F.2. Templates . . . 122
F.3. Lexical rules . . . 123
F.4. Grammar . . . 125
F.5. Test sentences . . . 126


G. Web interface to the lexicon . . . 132 (.ps, .pdf)
2nd part (.ps, .pdf)
3rd part (.ps, .pdf)



List of Tables

4.1. Taxonomy of reflexive verbs . . . 21
4.2. Three types of reciprocal verbs . . . 24
4.3. Reciprocal verbs with si. . . 27
4.4. Subject diatheses . . . 39
4.5. Subject diatheses revisited . . . 40

5.1. Identifying single frames . . . 67
5.2. Merging frame variants . . . 67
5.3. Prototypical frames . . . 70
5.4. Non prototypical frames . . . 70
5.5. Merging frame of the verb čertit se (be angry) . . . 71

6.1. Classification of verbs . . . 78
6.2. Classification of verbs with adjuncts simplified . . . 79



List of Figures

4.1. Three level system . . . 36
4.2. Three level system revisited . . . 37

5.1. Mapping between TL and ML in active voice . . . 69
5.2. Mapping between TL and ML for verbs with at least three actants . . . 69

D.1. The algorithm for assigning functors to non prototypical frame . . . 104

F.1. Simple grammar in LFG . . . 125
F.2. Testing sentences . . . 126
F.3. C structure of sentence 140a . . . 127
F.4. F structure of sentence 140a . . . 127
F.5. C structure of sentence 140b . . . 128
F.6. F structure of sentence 140b . . . 128
F.7. C structure of sentence 140c . . . 129
F.8. F structure of sentence 140c . . . 129
F.9. C structure of sentence 140d . . . 130
F.10.F structure of sentence 140d . . . 131

G.1. Main window of the web interface . . . 133
G.2. File with all frames containing hPTc2 . . . 134
G.3. Frames processed fully automatically, with ambiguous free modifications . . . 135