SciLibModal · обучение мультимодального энкодера

Геометрия симплекса в общем пространстве R^312, alignment + contrastive, регуляризация против коллапса. Cross-modal R@1 = 0.74 на пяти модальностях.

SciLibModal — мультимодальный энкодер для научных объектов с пятью модальностями (EN, RU, Lean4, LaTeX, изображение). Цель — общее семантическое пространство, в котором разные представления одного объекта лежат рядом, а разные объекты — далеко.

Геометрическая модель

Объект моделируется как симплекс в общем векторном пространстве R^D, где D = 312. Вершины симплекса — векторы модальностей; центроид — агрегированное представление, инвариантное к конкретной модальности:

μ = (1/M) · Σᵢ zᵢ

Функция потерь

Композиция трёх компонент:

Alignment — сжатие симплекса к центроиду: L_align = (1/M) · Σᵢ ‖zᵢ − μ‖². Чем меньше значение, тем компактнее симплекс и теснее модальности к центру.
Contrastive — разнесение центроидов разных объектов в общем пространстве. Используется модификация формулы Feng et al. (2014), в которой центроид играет роль универсального представления объекта.
Регуляризация против коллапса — предотвращает вырожденные конфигурации (все вершины на одной прямой), при которых L_align низкий, а объём симплекса остаётся ненулевым.

Важно: в отличие от попарной CLIP-схемы, лосс линеен по числу модальностей (O(M) вместо O(M²)), что критично при M ≥ 5.

Эксперимент EXP-012 (полное обучение, 15 эпох, ≈117 ч)

Run	Backbone	cm@1	cm@10
e8c (centroid)	ConvNeXt-Tiny + XLM-R base	0.7410	0.8894
e8c (centroid)	ResNet-18 + XLM-R base	0.7066	—
e1 (pairwise)	ConvNeXt-Tiny	0.7353	—
e1 (pairwise)	ResNet-18	0.7002	—

Кросс-модальная матрица recall@1 (e8c · ConvNeXt)

Query \ Target  EN     RU     Lean   LaTeX  IMG
EN              —      0.91   0.87   0.67   0.60
RU              0.93   —      0.82   0.69   0.61
Lean            0.85   0.80   —      0.72   0.66
LaTeX           0.67   0.67   0.73   —      0.90
IMG             0.64   0.59   0.66   0.90   —

Видны два кластера: символьный (EN ↔ RU ↔ Lean) с recall@1 = 0.80–0.93 и визуально-формальный (LaTeX ↔ IMG) с recall@1 ≈ 0.90. Кросс-кластерный разрыв — около 6 п.п. от пика.

Геометрическая стабильность

Centroid-based (e8c): D_intra ≪ 1, D_inter ≈ 0.9998, индекс коллапса ≈ 0.0002 — модальности схлопнуты к центроиду, объекты максимально разнесены.
Leave-one-out R@1 ≈ 0.999–1.0 — устойчивость к удалению любой модальности.

Доступ

Веса модели и обучающий корпус (sciLibRuModal v2) — по запросу через info@scilibai.ru. Базовая часть результатов и документация — на сайте.

Схема сборки репрезентации — Сборка репрезентации научного объекта из его модальностей. Иллюстрация из работы «Multi-Level Knowledge Graph for Formal Mathematics».