MiniF2F Runs (50 752) · SciLib

⊕ Датасет · minif2f-50k · r1

MiniF2F Bench Logs

Полные логи прогонов 488 задач MiniF2F через четыре пайплайна подбора лемм. JSON-Lines, метрики pass@1, сравнение SciLib-GRC21 / LeanSearch / LeanFinder / LeanExplore.

Полные сырые логи бенчмарка подбора лемм на MiniF2F. Каждая запись — один прогон одной задачи через один из четырёх пайплайнов в одной из конфигураций (всего 104 конфигурации × 488 задач = 50 752 записи).

Состав записи: идентификатор задачи MiniF2F, Lean-цель, метод, конфигурация, top-k результатов, время выполнения, версия моделей, сид. Метрики pass@1 рассчитываются по эталонной разметке через Lean REPL.

Связан с экспериментом MiniF2F bench. Доступ — по запросу.

Теги: benchmark, lean, premise-selection, minif2f, logs

← К каталогу