D
2011
The Art of Mathematics Retrieval
SOJKA, Petr a Martin LÍŠKA
Základní údaje
Originální název
The Art of Mathematics Retrieval
Název česky
Umění indexování a vyhledávání matematiky
Autoři
SOJKA, Petr a Martin LÍŠKA
Vydání
Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, od s. 57--60, 4 s. 2011
Další údaje
Typ výsledku
Stať ve sborníku
Stát vydavatele
Česká republika
Utajení
není předmětem státního či obchodního tajemství
Forma vydání
elektronická verze "online"
Označené pro přenos do RIV
Ano
Kód RIV
RIV/00216224:14330/11:00053335
Organizace
Fakulta informatiky – Masarykova univerzita – Repozitář
Klíčová slova česky
indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Klíčová slova anglicky
math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Návaznosti
LC536, projekt VaV. MUNI/A/0057/2011, interní kód Repo. 250503, interní kód Repo.
V originále
The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.
Česky
V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.
Zobrazeno: 6. 5. 2026 20:57