Датасеты · SciLib

⊕ Каталог

Датасеты

Открытые датасеты лаборатории: граф знаний над Mathlib, обучающие корпуса для моделей SciLibMath / SciLibModal, полные логи бенчмарков. Большинство — на открытых лицензиях с указанием авторов; обучающие корпуса — по запросу.

{# Декоративный фоновый знак — только короткий symbol (один глиф), длинные LaTeX-формулы из artifact.formula не используются: они теснили контент и ломали выравнивание. #}
slm-data-v1 v1.0

SciLibMath dataset v1

Первая версия учебного корпуса (январь 2026): пары формулировок Mathlib для тренировки модели SciLibMath v1. Только английский текст, без Lean-кода и LaTeX.

120K пар · text-only CC BY-NC 4.0
{# Декоративный фоновый знак — только короткий symbol (один глиф), длинные LaTeX-формулы из artifact.formula не используются: они теснили контент и ломали выравнивание. #}
slm-data-v2 v2.0

sciLibRuModal v2

Обучающий корпус для модели SciLibModal: математические объекты Mathlib в пяти модальностях (EN, RU, Lean4, LaTeX, изображение) с привязкой к онтологии SciLib.

≈ 1 M мультимодальных записей · 5 модальностей по запросу, с указанием авторов
{# Декоративный фоновый знак — только короткий symbol (один глиф), длинные LaTeX-формулы из artifact.formula не используются: они теснили контент и ломали выравнивание. #}
mathlib-emb v2.0

MathLib Embeddings

Векторные представления утверждений Mathlib моделями SciLibMath v2 / SciLibModal. 1 миллион векторизованных утверждений 312-dim, готовый Qdrant payload + dense vectors.

1M+ векторизованных утверждений CC BY-NC 4.0
{# Декоративный фоновый знак — только короткий symbol (один глиф), длинные LaTeX-формулы из artifact.formula не используются: они теснили контент и ломали выравнивание. #}
minif2f-50k r1

MiniF2F Bench Logs

Полные логи прогонов 488 задач MiniF2F через четыре пайплайна подбора лемм. JSON-Lines, метрики pass@1, сравнение SciLib-GRC21 / LeanSearch / LeanFinder / LeanExplore.

488 задач · 50 752 прогонов с верификацией Lean REPL CC BY 4.0
{# Декоративный фоновый знак — только короткий symbol (один глиф), длинные LaTeX-формулы из artifact.formula не используются: они теснили контент и ломали выравнивание. #}
mathlib-rdf 2026-04

MathLib RDF · Knowledge Graph

Граф знаний над утверждениями Mathlib, материализованный из онтологии SciLib. Типизированные рёбра usesInType / usesInValue, доменная таксономия с провенансом. Первый шаг к семантическому описанию научного знания за пределами математики.

33.8 M триплетов · 213 000+ утверждений · 660+ подклассов CC BY 4.0