D 2022

Constructing Datasets from Dialogue Data

SOTOLÁŘ, Ondřej; Jaromír PLHÁK; Michal TKACZYK; Michaela LEBEDÍKOVÁ; David ŠMAHEL et. al.

Základní údaje

Originální název

Constructing Datasets from Dialogue Data

Název česky

Sestavování datových souborů z dialogových dat

Autoři

SOTOLÁŘ, Ondřej (203 Česká republika, garant, domácí); Jaromír PLHÁK (203 Česká republika, domácí); Michal TKACZYK (616 Polsko, domácí); Michaela LEBEDÍKOVÁ (203 Česká republika, domácí) a David ŠMAHEL (203 Česká republika, domácí)

Vydání

Brno, Proceedings of the 16th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 131-139, 9 s. 2022

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Kód RIV

RIV/00216224:14330/22:00129251

Organizace

Fakulta informatiky – Masarykova univerzita – Repozitář

ISBN

978-80-263-1752-4

ISSN

EID Scopus

2-s2.0-85171476391

Klíčová slova anglicky

Dialogue Dataset;Dataset Split;Online Conversations

Návaznosti

GX19-27828X, projekt VaV.
Změněno: 16. 5. 2024 04:14, RNDr. Daniel Jakubík

Anotace

V originále

We present methods for transforming raw dialogue data into a dataset suitable for processing with statistical NLP models. We reveal the potential pitfalls for processing this type of data, such as ensuring the representatives of the sample, the generalization ability of models, and the definition of the local context of the utterances. We use novel methods to solve these problems and demonstrate their effectiveness on an utterance classification problem. As a result, this paper provides guidelines for generating valuable datasets from dialogue data.

Přiložené soubory