⊕ Датасет · minif2f-50k · r1
MiniF2F Bench Logs
Полные логи прогонов 488 задач MiniF2F через четыре пайплайна подбора лемм. JSON-Lines, метрики pass@1, сравнение SciLib-GRC21 / LeanSearch / LeanFinder / LeanExplore.
Полные сырые логи бенчмарка подбора лемм на MiniF2F. Каждая запись — один прогон одной задачи через один из четырёх пайплайнов в одной из конфигураций (всего 104 конфигурации × 488 задач = 50 752 записи).
Состав записи: идентификатор задачи MiniF2F, Lean-цель, метод, конфигурация, top-k результатов, время выполнения, версия моделей, сид. Метрики pass@1 рассчитываются по эталонной разметке через Lean REPL.
Связан с экспериментом MiniF2F bench. Доступ — по запросу.
Теги: benchmark, lean, premise-selection, minif2f, logs