Informační systém Repo 

Determining Window Size from Plagiarism Corpus for Stylometric Features

česky | in English

Přihlášení

eduID.cz
 
SUCHOMEL, Šimon a Michal BRANDEJS. Determining Window Size from Plagiarism Corpus for Stylometric Features. In Experimental IR Meets Multilinguality, Multimodality, and Interaction. Toulouse, France: Springer International Publishing, 2015. s. 293-299, 7 s. ISBN 978-3-319-24026-8.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Determining Window Size from Plagiarism Corpus for Stylometric Features
Autoři SUCHOMEL, Šimon (203 Česká republika, domácí) a Michal BRANDEJS (203 Česká republika, garant, domácí).
Vydání Toulouse, France, Experimental IR Meets Multilinguality, Multimodality, and Interaction, od s. 293-299, 7 s. 2015.
Nakladatel Springer International Publishing
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor Informatika
Stát vydavatele Francie
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/15:00084706
Organizace Fakulta informatiky - Masarykova univerzita
ISBN 978-3-319-24026-8
ISSN 0302-9743
Klíčová slova anglicky plagiarism; average word frequency class; stylometry; text classification; intrinsic plagiarism
Návaznosti LG13010, projekt VaV.
Změnil Změnil: RNDr. Daniel Jakubík, učo 139797. Změněno: 2. 9. 2020 09:52.
Anotace
The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called ‘average word frequency class’ using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.
Typ Název Vložil/a Vloženo Práva
Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf Licence Creative Commons  Verze souboru 2. 9. 2020

Vlastnosti

Název
Determining_Window_Size_from_Plagiarism_Corpus_for_Stylometric_Features.pdf
Adresa v ISu
https://repozitar.cz/auth/repo/19266/899438/
Adresa ze světa
https://repozitar.cz/repo/19266/899438/
Adresa do Správce
https://repozitar.cz/auth/repo/19266/899438/?info
Ze světa do Správce
https://repozitar.cz/repo/19266/899438/?info
Vloženo
St 2. 9. 2020 09:52

Práva

Právo číst
  • kdokoliv v Internetu
Právo vkládat
 
Právo spravovat
  • osoba Mgr. Lucie Vařechová, uco 106253
  • osoba RNDr. Daniel Jakubík, uco 139797
  • osoba Mgr. Jolana Surýnková, uco 220973
Atributy
 
... Licence Creative Commons  Verze souboru 17. 11. 2015

Vlastnosti

Název
...
Adresa v ISu
https://repozitar.cz/auth/repo/19266/253714/
Adresa ze světa
https://repozitar.cz/repo/19266/253714/
Adresa do Správce
https://repozitar.cz/auth/repo/19266/253714/?info
Ze světa do Správce
https://repozitar.cz/repo/19266/253714/?info
Vloženo
Út 17. 11. 2015 00:50

Práva

Právo číst
  • kdokoliv v Internetu
Právo vkládat
 
Právo spravovat
  • osoba Mgr. Bc. Růžena Zemanová, uco 134451
  • osoba RNDr. Daniel Jakubík, uco 139797
Atributy
 
Vytisknout
Přidat do schránky Zobrazeno: 24. 9. 2020 17:43

Relevantní odkazy 

Další projekty

Službu Repozitar.cz provozuje Vývojový tým Informačního systému Masarykovy univerzity.


Nahoru | Aktuální datum a čas: 24. 9. 2020 17:43, 39. (lichý) týden | Přístupnost

Kontakty: repozitar(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz