⊕ Датасет · slm-data-v1 · v1.0
SciLibMath dataset v1
Первая версия учебного корпуса (январь 2026): пары формулировок Mathlib для тренировки модели SciLibMath v1. Только английский текст, без Lean-кода и LaTeX.
SciLibMath dataset v1 — первый учебный корпус лаборатории. Содержит 120 000 пар англоязычных формулировок утверждений Mathlib, отобранных по эвристике текстового сходства и графовой близости. Использовался для тренировки SciLibMath v1.
Заменён на v2 (мультимодальный корпус); сохраняется в каталоге для воспроизводимости ранних экспериментов и сравнительных бейзлайнов. Доступ — информация по запросу.
Теги: dataset, embeddings, math, baseline, archive