∇ Исследования
Simplex over pairs: geometry of multimodal mathematics
Why SciLibModal uses centroid geometry instead of the pairwise CLIP scheme.
Один и тот же математический объект существует в нескольких представлениях: формулировка на естественном языке, формула, фрагмент Lean4-кода, LaTeX-выражение, изображение из учебника. Задача семантического поиска — одинаково находить объект независимо от того, в какой форме его ищут.
Чем плоха попарная CLIP-схема
Стандартный путь — попарное контрастивное обучение (CLIP-семейство). При M модальностях стоимость лосса — O(M²); появляется проблема балансирования пар. На пяти модальностях это становится непрактично.
Симплекс и центроид
В SciLibModal каждый объект моделируется как симплекс в общем пространстве: вершины симплекса — модальности, центроид — агрегированное представление, инвариантное к выбору модальности. Лосс — композиция alignment (сжатие симплекса), contrastive (разнос центроидов) и регуляризации против коллапса. Стоимость — O(M).
Центроид симплекса и alignment-компонент функции потерь.
Результаты
На полном обучении (15 эпох, 117 ч) cross-modal recall@1 = 0.74. Внутри символьного кластера (EN ↔ RU ↔ Lean) — recall@1 = 0.80–0.93; внутри визуально-формального (LaTeX ↔ image) — recall@1 ≈ 0.90.
Подробности — в карточке модели и описании эксперимента.