Constructing Datasets from Dialogue Data

Constructing Datasets from Dialogue Data Tato aplikace je zatím určena pro spuštění na stolním počítači. Na tomto mobilním zařízení je také funkční, ale zatím plně nevyužívá jeho možností.

Tato aplikace je zatím určena pro spuštění na stolním počítači. Na tomto mobilním zařízení je také funkční, ale zatím plně nevyužívá jeho možností.

Podrobný výpis o publikaci

SOTOLÁŘ, Ondřej, Jaromír PLHÁK, Michal TKACZYK, Michaela LEBEDÍKOVÁ a David ŠMAHEL. Constructing Datasets from Dialogue Data. In Proceedings of the 16th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022. Brno: Tribun EU, 2022, s. 131-139. ISBN 978-80-263-1752-4.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Constructing Datasets from Dialogue Data
Název česky	Sestavování datových souborů z dialogových dat
Autoři	SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí), Jaromír PLHÁK (203 Česká republika, domácí), Michal TKACZYK (616 Polsko, domácí), Michaela LEBEDÍKOVÁ (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí).
Vydání	Brno, Proceedings of the 16th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 131-139, 9 s. 2022.
Nakladatel	Tribun EU

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	URL URL
Kód RIV	RIV/00216224:14330/22:00129251
Organizace	Fakulta informatiky – Masarykova univerzita – Repozitář
ISBN	978-80-263-1752-4
ISSN	2336-4289
Klíčová slova anglicky	Dialogue Dataset;Dataset Split;Online Conversations
Návaznosti	GX19-27828X, projekt VaV.
Změnil	Změnil: RNDr. Daniel Jakubík, učo 139797. Změněno: 16. 5. 2024 04:14.

Anotace

We present methods for transforming raw dialogue data into a dataset suitable for processing with statistical NLP models. We reveal the potential pitfalls for processing this type of data, such as ensuring the representatives of the sample, the generalization ability of models, and the definition of the local context of the utterances. We use novel methods to solve these problems and demonstrate their effectiveness on an utterance classification problem. As a result, this paper provides guidelines for generating valuable datasets from dialogue data.

Typ	Název	Vložil/a	Vloženo
	RASLAN_2022_sotolar.pdf		15. 12. 2022
Vlastnosti Název RASLAN_2022_sotolar.pdf Adresa v ISu https://repozitar.cz/auth/repo/53147/1418592/ Adresa ze světa https://repozitar.cz/repo/53147/1418592/ Adresa do Správce https://repozitar.cz/auth/repo/53147/1418592/?info Ze světa do Správce https://repozitar.cz/repo/53147/1418592/?info Vloženo Čt 15. 12. 2022 04:34 Práva Právo číst kdokoliv v Internetu Právo vkládat Právo spravovat osoba Mgr. Lucie Vařechová, uco 106253 osoba RNDr. Daniel Jakubík, uco 139797 osoba Mgr. Jolana Surýnková, uco 220973 Atributy

Vytisknout
Přidat do schránky Zobrazeno: 12. 7. 2024 09:25

Podrobný výpis o publikaci

Vlastnosti

Práva

Další aplikace