D 2025

Database and Corpora Creation within RapCor Project for Czech

NĚMCOVÁ POLICKÁ, Alena a Pavel RYCHLÝ

Základní údaje

Originální název

Database and Corpora Creation within RapCor Project for Czech

Autoři

NĚMCOVÁ POLICKÁ, Alena a Pavel RYCHLÝ

Vydání

Brno, Raslan 2025 : recent advances in slavonic natural language processing, od s. 137-144, 8 s. 2025

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

URL

Označené pro přenos do RIV

Ne

Organizace

Filozofická fakulta – Masarykova univerzita – Repozitář

ISBN

978-80-263-1858-3

ISSN

EID Scopus

2-s2.0-105029936188

Klíčová slova anglicky

database; corpora; hip hop; RapCor; Czech

Návaznosti

LINDAT/CLARIAH-CZ II, velká výzkumná infrastruktura.
Změněno: 21. 2. 2026 00:51, RNDr. Daniel Jakubík

Anotace

V originále

This paper introduces the motivations and first results of the creation of Czech RapCor project, mainly the constitution process of Czech RapCor Boosted v1 (Czech RCB), a specialized corpus of Czech rap lyrics designed for sociolinguistic and NLP research. The corpus highlights distinctive linguistic features, such as written colloquialism, frequent use of vulgarisms, and non-standard forms, which pose challenges for traditional NLP tools. Preliminary results demonstrate the corpus’s potential for studying authentic spoken language in written form, offering insights into rap culture and sociolinguistic phenomena.
Zobrazeno: 6. 5. 2026 19:13