Simplify Input for Parsers : Nástroj pro zjednodušení jazykových dat pro automatický parsing
Nástroj zlepšuje efektivitu automatického závislostního parsingu díky zjednodušení lingvistických dat (dílčímu odstranění té části jazykové variability, která je ze syntaktického hlediska irelevantní). Parser se pak snáze naučí rozpoznávat syntaktické struktury, má lepší výsledky a je i o něco rychlejší.
Nástroj má tři součásti (v jednom .tgz balíčku – Simplify_Input_For_Parsers.tgz):
SimplifyInputForParsers.pl
SimplifyInput_LingData.tsv
RecoverOriginalFormsAndLemmas.pl
Perlovský program SimplifyInputForParsers.pl zpracovává lingvistická data (texty), a to jak data značkovaná morfologicky i syntakticky (trénovací), tak data značkovaná pouze morfologicky (nová a testovací data). V datech zaměňuje slovní tvary a lemmata některých slov, která patří do skupin s identickými syntaktickými vlastnostmi, jedním reprezentantem (např. všechna křestní jména mužského rodu se nahrazují jedním zástupným jménem). Program využívá lingvistická data (seznamy slov s jejich vlastnostmi aj.) ze souboru SimplifyInput_LingData.tsv.
Na takto zjednodušených trénovacích datech se natrénuje parser, který se pak používá k automatickému parsingu stejně zpracovaných nových dat.
Informace, které se během zpracování neužívají, se do zparsovaných dat vrátí pomocí programu RecoverOriginalFormsAndLemmas.pl.
Autor a Licence: Tomáš Jelínek, CC-by-sa 3.0
Publikace:
Jelínek, Tomáš: Improving Dependency Parsing by Filtering "Linguistic Noise". In Text, Speech and Dialogue, Proceedings of the 16th International Conference TSD 2013, Lecture Notes in Computer Science, p. 288-294, Springer: Berlin-Heidelberg, Germany, 2013.
Jelínek,Tomáš: A System for Syntactic Annotation of Large Czech Corpora. In Trudy meždunarodnoj konferencii "Korpusnaja lingvistika - 2013" (Proceedings of the International Conference "Corpus Linguistics – 2013"), p. 44-51, St.-Petersburg University Press, St.-Petersburg, Russia, 2013.