Přehled o publikaci
2011
The Art of Mathematics Retrieval
SOJKA, Petr and Martin LÍŠKABasic information
Original name
The Art of Mathematics Retrieval
Name in Czech
Umění indexování a vyhledávání matematiky
Authors
SOJKA, Petr and Martin LÍŠKA
Edition
Mountain View, CA, USA, Proceedings of the 2011 ACM Symposium on Document Engineering, p. 57--60, 4 pp. 2011
Publisher
ACM
Other information
Language
English
Type of outcome
Proceedings paper
Field of Study
Informatics
Country of publisher
Czech Republic
Confidentiality degree
is not subject to a state or trade secret
Publication form
electronic version available online
Marked to be transferred to RIV
Yes
RIV identification code
RIV/00216224:14330/11:00053335
Organization
Fakulta informatiky – Repository – Repository
ISBN
978-1-4503-0863-2
UT WoS
Keywords (in Czech)
indexování a vyhledávání matematiky; matematické digitální knihovny; informační systémy; vyhledávání; vyhledávání matematického obsahu; MIaS; WebMIaS
Keywords in English
math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS
Links
LC536, research and development project. MUNI/A/0057/2011, interní kód Repo. 250503, interní kód Repo.
Changed: 1/9/2020 11:39, RNDr. Daniel Jakubík
In the original language
The design and architecture of MIaS (Math Indexer and Searcher), a system for mathematics retrieval is presented, and design decisions are discussed. We argue for an approach based on Presentation MathML using a similarity of math subformulae. The system was implemented as a math-aware search engine based on the state-of-the-art system Apache Lucene. Scalability issues were checked against more than 400,000 arXiv documents with 158 million mathematical formulae. Almost three billion MathML subformulae were indexed using a Solr-compatible Lucene.
In Czech
V článku je navržena architektura nového systému, MIaS (Math Indexer and Searcher), a návrh je zdůvodněn. Byl zvolen přístup založený na podobnosti matematických formulí v prezentačním MathML. Systém byl implementován a návrh verifikován na široce používaném indexačním systému Apache Lucene. Škálovatelnost byla ověřena na více než 400,000 odborných matematických článcích z archivu arXiv s 158 miliony matematickými formulemi. To představovalo indexování téměř tří bilionů matematických podformulí v MathML pomocí Solr-kompatibilního rozšíření Lucene.