Simplify Input for Parsers: Použití


SimplifyInputForParsers.pl vyžaduje instalovaný Perl 5.0 (nebo vyšší verzi).


Nejprve je nutné rozbalit balíček do zvoleného adresáře:

> tar -xzf Simplify_Input_For_Parsers.tgz



Předpokládá se, že máte adresář se vstupními lingvistickými daty (např. ~/pdt2.0/) ve vertikálním formátu, soubory mají koncovku .vert (např. cmpr9406_001.vert ...).


CoNLL formát

Pro zpracování syntakticky anotovaných dat (pro trénink parseru) a získání CoNLL formátu (MaltParser):

> ./SimplifyInputForParsers.pl -TM ~/pdt2.0/

Nové soubory s koncovkou .conll budou vytvořeny v témže adresáři.


Potřebujete-li jeden výstupní soubor (zahrnující všechna data):

> ./SimplifyInputForParsers.pl -TM -o ./NameOfOutputFile.conll ~/pdt2.0/


Pro zpracování nových dat (pouze s morfologickým značkováním) a získání CoNLL formátu a záložních souborů (používaných k získání ztracené informace):

> ./SimplifyInputForParsers.pl -NM ~/pdt2.0/

Nové soubory s koncovkou .conll a s koncovkou .backup budou vytvořeny v témže adresáři.


MCD formát

Pro zpracování syntakticky anotovaných dat (pro trénink parseru) a získání MCD formátu (MSTParser):

> ./SimplifyInputForParsers.pl -TC3 ~/pdt2.0/

Nové soubory s koncovkou .mcd budou vytvořeny v témže adresáři.


Potřebujete-li jeden výstupní soubor (zahrnující všechna data):

> ./SimplifyInputForParsers.pl -TC3 -o ./NameOfOutputFile.conll ~/pdt2.0/


Pro zpracování nových dat (pouze s morfologickým značkováním) a získání MCD formátu a záložních souborů (používaných k získání ztracené informace):

> ./SimplifyInputForParsers.pl -NC3 ~/pdt2.0/

Nové soubory s koncovkou .mcd a s koncovkou .backup budou vytvořeny v témže adresáři.


Ve skutečnosti lze volit více různých nastavení, ale tato jsou nejvíce užívaná a vedou k nejlepšímu výkonu parserů.