D
		
		2022
			
	    
Constructing Datasets from Dialogue Data
	    SOTOLÁŘ, Ondřej; Jaromír PLHÁK; Michal TKACZYK; Michaela LEBEDÍKOVÁ; David ŠMAHEL et. al.
	
	
	
	    
	
     
 
	
	Základní údaje
	
		Originální název
		Constructing Datasets from Dialogue Data
	 
	
		Název česky
		Sestavování datových souborů z dialogových dat
	 
				Autoři
				SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí); Jaromír PLHÁK (203 Česká republika, domácí); Michal TKACZYK (616 Polsko, domácí); Michaela LEBEDÍKOVÁ (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí)
			 
			
				Vydání
				 Brno, Proceedings of the 16th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 131-139, 9 s. 2022
			 
		
		
Další údaje
		
	
		
			Typ výsledku
			Stať ve sborníku
		 
	
		
			Stát vydavatele
			Česká republika
		 
	
		
			Utajení
			není předmětem státního či obchodního tajemství
		 
	
		
			Forma vydání
			tištěná verze "print"
		 
			
		
		
			Kód RIV
			RIV/00216224:14330/22:00129251
		 
	
			
				Organizace
				Fakulta informatiky – Masarykova univerzita – Repozitář
			 
		
		
	
				
			
		
			EID Scopus
			2-s2.0-85171476391
		 
		
			Klíčová slova anglicky
			Dialogue Dataset;Dataset Split;Online Conversations
		 
				Návaznosti
				GX19-27828X, projekt VaV. 
			 
			
			
				
					V originále
					We present methods for transforming raw dialogue data into a dataset suitable for processing with statistical NLP models. We reveal the potential pitfalls for processing this type of data, such as ensuring the representatives of the sample, the generalization ability of models, and the definition of the local context of the utterances. We use novel methods to solve these problems and demonstrate their effectiveness on an utterance classification problem. As a result, this paper provides guidelines for generating valuable datasets from dialogue data.
				  
				Zobrazeno: 4. 11. 2025 00:47