2022
			
	    
	
	
    Constructing Datasets from Dialogue Data
SOTOLÁŘ, Ondřej; Jaromír PLHÁK; Michal TKACZYK; Michaela LEBEDÍKOVÁ; David ŠMAHEL et. al.Základní údaje
Originální název
Constructing Datasets from Dialogue Data
	Název česky
Sestavování datových souborů z dialogových dat
	Autoři
SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí); Jaromír PLHÁK (203 Česká republika, domácí); Michal TKACZYK (616 Polsko, domácí); Michaela LEBEDÍKOVÁ (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí)
			Vydání
 Brno, Proceedings of the 16th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 131-139, 9 s. 2022
			Nakladatel
Tribun EU
		Další údaje
Jazyk
angličtina
		Typ výsledku
Stať ve sborníku
		Stát vydavatele
Česká republika
		Utajení
není předmětem státního či obchodního tajemství
		Forma vydání
tištěná verze "print"
		Kód RIV
RIV/00216224:14330/22:00129251
		Organizace
Fakulta informatiky – Masarykova univerzita – Repozitář
			ISBN
978-80-263-1752-4
		ISSN
EID Scopus
2-s2.0-85171476391
		Klíčová slova anglicky
Dialogue Dataset;Dataset Split;Online Conversations
		Návaznosti
GX19-27828X, projekt VaV. 
			
				
				Změněno: 16. 5. 2024 04:14, RNDr. Daniel Jakubík
				
		Anotace
V originále
We present methods for transforming raw dialogue data into a dataset suitable for processing with statistical NLP models. We reveal the potential pitfalls for processing this type of data, such as ensuring the representatives of the sample, the generalization ability of models, and the definition of the local context of the utterances. We use novel methods to solve these problems and demonstrate their effectiveness on an utterance classification problem. As a result, this paper provides guidelines for generating valuable datasets from dialogue data.