⊢ Эксперимент
SciLibModal · обучение мультимодального энкодера
Геометрия симплекса в общем пространстве R^312, alignment + contrastive, регуляризация против коллапса. Cross-modal R@1 = 0.74 на пяти модальностях.
SciLibModal — мультимодальный энкодер для научных объектов с пятью модальностями (EN, RU, Lean4, LaTeX, изображение). Цель — общее семантическое пространство, в котором разные представления одного объекта лежат рядом, а разные объекты — далеко.
Геометрическая модель
Объект моделируется как симплекс в общем векторном пространстве RD, где D = 312. Вершины симплекса — векторы модальностей; центроид — агрегированное представление, инвариантное к конкретной модальности:
μ = (1/M) · Σᵢ zᵢ
Функция потерь
Композиция трёх компонент:
- Alignment — сжатие симплекса к центроиду:
Lalign = (1/M) · Σᵢ ‖zᵢ − μ‖². Чем меньше значение, тем компактнее симплекс и теснее модальности к центру. - Contrastive — разнесение центроидов разных объектов в общем пространстве. Используется модификация формулы Feng et al. (2014), в которой центроид играет роль универсального представления объекта.
- Регуляризация против коллапса — предотвращает вырожденные конфигурации (все вершины на одной прямой), при которых Lalign низкий, а объём симплекса остаётся ненулевым.
Важно: в отличие от попарной CLIP-схемы, лосс линеен по числу модальностей (O(M) вместо O(M²)), что критично при M ≥ 5.
Эксперимент EXP-012 (полное обучение, 15 эпох, ≈117 ч)
| Run | Backbone | cm@1 | cm@10 |
|---|---|---|---|
| e8c (centroid) | ConvNeXt-Tiny + XLM-R base | 0.7410 | 0.8894 |
| e8c (centroid) | ResNet-18 + XLM-R base | 0.7066 | — |
| e1 (pairwise) | ConvNeXt-Tiny | 0.7353 | — |
| e1 (pairwise) | ResNet-18 | 0.7002 | — |
Кросс-модальная матрица recall@1 (e8c · ConvNeXt)
Query \ Target EN RU Lean LaTeX IMG EN — 0.91 0.87 0.67 0.60 RU 0.93 — 0.82 0.69 0.61 Lean 0.85 0.80 — 0.72 0.66 LaTeX 0.67 0.67 0.73 — 0.90 IMG 0.64 0.59 0.66 0.90 —
Видны два кластера: символьный (EN ↔ RU ↔ Lean) с recall@1 = 0.80–0.93 и визуально-формальный (LaTeX ↔ IMG) с recall@1 ≈ 0.90. Кросс-кластерный разрыв — около 6 п.п. от пика.
Геометрическая стабильность
- Centroid-based (e8c): Dintra ≪ 1, Dinter ≈ 0.9998, индекс коллапса ≈ 0.0002 — модальности схлопнуты к центроиду, объекты максимально разнесены.
- Leave-one-out R@1 ≈ 0.999–1.0 — устойчивость к удалению любой модальности.
Доступ
Веса модели и обучающий корпус (sciLibRuModal v2) — по запросу через info@scilibai.ru. Базовая часть результатов и документация — на сайте.

Метрики
{
"experiment": "EXP-012 full training",
"epochs": 15,
"duration_hours": 117.7,
"modalities": ["en", "ru", "lean", "latex", "img"],
"best_run": "e8c_low_va_cnxt",
"embedding_dim": 312,
"cross_modal_r_at_1": 0.7410,
"cross_modal_r_at_10": 0.8894,
"loss_components": ["alignment", "contrastive", "anti_collapse_regularization"]
}