Simplify Input for Parsers: vstupní/výstupní formáty


Vstupním formátem textů pro zpracování programem je tzv. „vertikála“, v níž je každé slovo umístěné na novém řádku se všemi svými atributy oddělenými tabulátory. Atributy jsou (pro plně syntakticky anotovaný text): slovní tvar, lemma, morfologický tag, syntaktická funkce, ID slova (číslo označující pořadí ve větě) a ID řídícího slova:


Potřebujete

potřebovat

VB-P---2P-AA---

Pred

1

0

rychle

rychle

Dg-------1A----

Adv

2

3

poradit

poradit

Vf--------A----

Obj

3

1

?

?

Z:-------------

AuxK

4

0







Zvedněte

zvednout

Vi-P---2--A----

Pred_Co

1

3

telefon

telefon

NNIS4-----A----

Obj

2

1

a

a

J^-------------

Coord

3

0

zavolejte

zavolat

Vi-P---2--A----

Pred_Co

4

3

.

.

Z:-------------

AuxK

5

0


U nových, syntakticky neznačkovaných textů se používá pouze slovní tvar, lemma a morfologická značka.


Program SimplifyInputForParsers.pl vytváří dva výstupní formáty (lze zvolit při spuštění), podle volby parseru. MaltParser vyžaduje CoNLL formát, MSTParser používá MCD formát. Tyto formáty se používají jako vstup i výstup parserů (pro trénování parserů i pro zpracování nových textů).


CoNLL formát (MaltParser)

1

Potřebujete

potřebovat

V

V

Synt=V|VForm=P|NumGen=-P|Pers=2

0

Pred

0

Pred

2

rychle

rychle

D

D

Synt=D|Gr=1

3

Adv

3

Adv

3

poradit

poradit

V

V

Synt=V|VForm=f

1

Obj

1

Obj

4

?

?

Z

Z

Synt=Z

0

AuxK

0

AuxK











1

Zvedněte

zvednout

V

V

Synt=V|VForm=i|NumGen=-P|Pers=2

3

Pred_Co

3

Pred_Co

2

telefon

telefon

N

N

Synt=N|NumGen=IS|Case=4

1

Obj

1

Obj

3

a

a

J

J

Synt=^

0

Coord

0

Coord

4

zavolejte

zavolat

V

V

Synt=V|VForm=i|NumGen=-P|Pers=2

3

Pred_Co

3

Pred_Co

5

.

.

Z

Z

Synt=Z

0

AuxK

0

AuxK



MCD formát (MSTParser)

Potřebujete

rychle

poradit

?


VB

Dg

Vf

Z:


Pred

Adv

Obj

AuxK


0

3

1

0







Zvedněte

telefon

a

zavolejte

.

Vi

N4

J^

Vi

Z:

Pred_Co

Obj

Coord

Pred_Co

AuxK

3

1

0

3

0


Výsledným formátem (po použití programu RecoverOriginalFormsAndLemmas.pl) je opět vertikála se šesti atributy (se syntaktickou anotací).