MiniF2F · premise retrieval benchmark

488 MiniF2F tasks × 104 runs each = 50 752 Lean-REPL verified runs. SciLib-GRC21 vs LeanSearch / LeanFinder / LeanExplore.

MiniF2F — стандартный набор задач формальной математики (олимпиадные задачи IMO/AMC/AIME, базовые теоремы), переведённый сообществом в Lean4. Задачи короткие, тематически разнообразные, часто требуют нестандартного сочетания лемм — что делает MiniF2F хорошим тестом для систем подбора посылок.

Постановка

Все 488 задач прогнаны через четыре пайплайна (SciLib-GRC21, LeanSearch, LeanFinder, LeanExplore) при 104 различных конфигурациях (режимы поиска, top-k, профили признаков). Итого 50 752 запуска. Каждый прогон верифицируется через Lean REPL (Mathlib v4.28.0-rc1).

Стратификация задач (по pass@1 baseline без подсказок)

impossible (186, 38%): A0 = 0% — задачи, которые базовая Lean-модель не решает даже с идеальными подсказками.
hard (59, 12%): A0 = 1–25% — partial-capability tasks, критическая зона улучшения.
sweet (29, 6%): A0 = 25–75% — где подсказки чувствительны.
easy (214, 44%): A0 ≥ 75% — задачи решаются почти всегда.

Главный результат на hard-страте (59 задач)

A0 (без подсказок) — 28.8%.
B1 (только векторный поиск Qdrant) — 37.9%.
SciLib-GRC21 (граф + векторная аугментация) — 48.9% · +20.1 п.п. к baseline.

Сравнение со SOTA Lean-поисковиками (все 488 задач)

Система	Pass@1 (все)	Pass@1 (hard)	p-value
LeanSearch	47.9%	6.2%	0.032
LeanFinder	48.8%	7.3%	0.100
LeanExplore	47.0%	5.7%	0.001
SciLib-GRC21	50.0%	8.6%	baseline

Воспроизводимость

Конфигурации, версии моделей, сиды и срез Mathlib зафиксированы. Прогон занимает около 12 часов на узле 32 vCPU + RTX 3090. Подробности — в карточке датасета MiniF2F Runs; полные логи доступны по запросу.