Simplex over pairs: geometry of multimodal mathematics

Один и тот же математический объект существует в нескольких представлениях: формулировка на естественном языке, формула, фрагмент Lean4-кода, LaTeX-выражение, изображение из учебника. Задача семантического поиска — одинаково находить объект независимо от того, в какой форме его ищут.

Чем плоха попарная CLIP-схема

Стандартный путь — попарное контрастивное обучение (CLIP-семейство). При M модальностях стоимость лосса — O(M²); появляется проблема балансирования пар. На пяти модальностях это становится непрактично.

Симплекс и центроид

В SciLibModal каждый объект моделируется как симплекс в общем пространстве: вершины симплекса — модальности, центроид — агрегированное представление, инвариантное к выбору модальности. Лосс — композиция alignment (сжатие симплекса), contrastive (разнос центроидов) и регуляризации против коллапса. Стоимость — O(M).

$$ \mu = \frac{1}{M}\sum_{i=1}^{M} z_i \quad\text{и}\quad \mathcal{L}_{\text{align}} = \frac{1}{M}\sum_{i=1}^{M} \|z_i - \mu\|^2 $$

Центроид симплекса и alignment-компонент функции потерь.

Результаты

На полном обучении (15 эпох, 117 ч) cross-modal recall@1 = 0.74. Внутри символьного кластера (EN ↔ RU ↔ Lean) — recall@1 = 0.80–0.93; внутри визуально-формального (LaTeX ↔ image) — recall@1 ≈ 0.90.

Подробности — в карточке модели и описании эксперимента.