D 2011

The Art of Mathematics Retrieval

SOJKA, Petr and Martin LÍŠKA

Basic information

Original name

The Art of Mathematics Retrieval

Name in Czech

Umění indexování a vyhledávání matematiky

Authors

SOJKA, Petr and Martin LÍŠKA

Edition

Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, p. 57--60, 4 pp. 2011

Publisher

ACM

Other information

Language

English

Type of outcome

Proceedings paper

Field of Study

Informatics

Country of publisher

Czech Republic

Confidentiality degree

is not subject to a state or trade secret

Publication form

electronic version available online

References:

Marked to be transferred to RIV

Yes

RIV identification code

RIV/00216224:14330/11:00053335

Organization

Fakulta informatiky – Repository – Repository

ISBN

978-1-4503-0863-2

Keywords (in Czech)

indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS

Keywords in English

math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS

Links

LC536, research and development project. MUNI/A/0057/2011, interní kód Repo. 250503, interní kód Repo.
Changed: 1/9/2020 11:39, RNDr. Daniel Jakubík

Abstract

In the original language

The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.

In Czech

V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.

Files attached