Přehled o publikaci
2015
Determining Window Size from Plagiarism Corpus for Stylometric Features
SUCHOMEL, Šimon a Michal BRANDEJSZákladní údaje
Originální název
Determining Window Size from Plagiarism Corpus for Stylometric Features
Autoři
SUCHOMEL, Šimon a Michal BRANDEJS
Vydání
Toulouse, France, Experimental IR Meets Multilinguality, Multimodality, and Interaction, od s. 293-299, 7 s. 2015
Nakladatel
Springer International Publishing
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
Informatika
Stát vydavatele
Francie
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
tištěná verze "print"
Odkazy
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/15:00084706
Organizace
Fakulta informatiky – Masarykova univerzita – Repozitář
ISBN
978-3-319-24026-8
ISSN
Klíčová slova anglicky
plagiarism; average word frequency class; stylometry; text classification; intrinsic plagiarism
Návaznosti
LG13010, projekt VaV.
Změněno: 2. 9. 2020 09:52, RNDr. Daniel Jakubík
Anotace
V originále
The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.