Introducing a Gold Standard Corpus from Young Multilinguals for
the Evaluation of Automatic UD-PoS Taggers for Italian

Introducing a Gold Standard Corpus from Young Multilinguals for the Evaluation of Automatic UD-PoS ... Tato aplikace je zatím určena pro spuštění na stolním počítači. Na tomto mobilním zařízení je také funkční, ale zatím plně nevyužívá jeho možností.

Tato aplikace je zatím určena pro spuštění na stolním počítači. Na tomto mobilním zařízení je také funkční, ale zatím plně nevyužívá jeho možností.

Podrobný výpis o publikaci

SCHMALZ, Verena, Jennifer-Carmen FREY a Egon STEMLE. Introducing a Gold Standard Corpus from Young Multilinguals for the Evaluation of Automatic UD-PoS Taggers for Italian. Online. In 8th Italian Conference on Computational Linguistics, CLiC-it 2021. Milan, Italy: CEUR Workshop Proceedings, 2021, s. 1-7. ISSN 1613-0073.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Introducing a Gold Standard Corpus from Young Multilinguals for the Evaluation of Automatic UD-PoS Taggers for Italian
Autoři	SCHMALZ, Verena (380 Itálie), Jennifer-Carmen FREY (40 Rakousko) a Egon STEMLE (276 Německo, garant, domácí).
Vydání	Milan, Italy, 8th Italian Conference on Computational Linguistics, CLiC-it 2021, od s. 1-7, 7 s. 2021.
Nakladatel	CEUR Workshop Proceedings

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Stát vydavatele	Itálie
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	elektronická verze "online"
WWW	URL
Kód RIV	RIV/00216224:14330/21:00125291
Organizace	Fakulta informatiky – Masarykova univerzita – Repozitář
ISSN	1613-0073
Klíčová slova anglicky	PoS tagging; automatic evaluation
Změnil	Změnil: RNDr. Daniel Jakubík, učo 139797. Změněno: 7. 4. 2023 04:30.

Anotace

Part-of-speech (PoS) tagging constitutes a common task in Natural Language Processing (NLP), given its widespread applicability. However, with the advance of new information technologies and language variation, the contents and methods for PoS-tagging have changed. The majority of Italian existing data for this task originate from standard texts, where language use is far from multifaceted informal real-life situations. Automatic PoS-tagging models trained with such data do not perform reliably on non-standard language, like social media content or language learners’ texts. Our aim is to provide additional training and evaluation data from language learners tagged in Universal Dependencies (UD), as well as testing current automatic PoStagging systems and evaluating their performance on such data. We use a multilingual corpus of young language learners, LEONIDE, to create a tagged gold standard for evaluating UD PoStagging performance on the Italian nonstandard language. With the 3.7 version of Stanza, a Python NLP package, we apply available automatic PoS-taggers, namely ISDT, ParTUT, POSTWITA, TWITTIRÒ and VIT, trained with both standard and non-standard data, on our dataset. Our results show that the above taggers, trained on non-standard data or multilingual Treebanks, can achieve up to 95% of accuracy on multilingual learner data, if combined.

Typ	Název	Vložil/a	Vloženo
	paper13.pdf		27. 1. 2022
Vlastnosti Název paper13.pdf Adresa v ISu https://repozitar.cz/auth/repo/48309/1233896/ Adresa ze světa https://repozitar.cz/repo/48309/1233896/ Adresa do Správce https://repozitar.cz/auth/repo/48309/1233896/?info Ze světa do Správce https://repozitar.cz/repo/48309/1233896/?info Vloženo Čt 27. 1. 2022 02:16 Práva Právo číst kdokoliv v Internetu Právo vkládat Právo spravovat osoba Mgr. Lucie Vařechová, uco 106253 osoba RNDr. Daniel Jakubík, uco 139797 osoba Mgr. Jolana Surýnková, uco 220973 Atributy

Vytisknout
Přidat do schránky Zobrazeno: 27. 9. 2024 05:53

Podrobný výpis o publikaci

Vlastnosti

Práva

Další aplikace