SciLibModal · обучение мультимодального энкодера · SciLib

⊢ Эксперимент

SciLibModal · обучение мультимодального энкодера

Геометрия симплекса в общем пространстве R^312, alignment + contrastive, регуляризация против коллапса. Cross-modal R@1 = 0.74 на пяти модальностях.

SciLibModal — мультимодальный энкодер для научных объектов с пятью модальностями (EN, RU, Lean4, LaTeX, изображение). Цель — общее семантическое пространство, в котором разные представления одного объекта лежат рядом, а разные объекты — далеко.

Геометрическая модель

Объект моделируется как симплекс в общем векторном пространстве RD, где D = 312. Вершины симплекса — векторы модальностей; центроид — агрегированное представление, инвариантное к конкретной модальности:

μ = (1/M) · Σᵢ zᵢ

Функция потерь

Композиция трёх компонент:

  • Alignment — сжатие симплекса к центроиду: Lalign = (1/M) · Σᵢ ‖zᵢ − μ‖². Чем меньше значение, тем компактнее симплекс и теснее модальности к центру.
  • Contrastive — разнесение центроидов разных объектов в общем пространстве. Используется модификация формулы Feng et al. (2014), в которой центроид играет роль универсального представления объекта.
  • Регуляризация против коллапса — предотвращает вырожденные конфигурации (все вершины на одной прямой), при которых Lalign низкий, а объём симплекса остаётся ненулевым.

Важно: в отличие от попарной CLIP-схемы, лосс линеен по числу модальностей (O(M) вместо O(M²)), что критично при M ≥ 5.

Эксперимент EXP-012 (полное обучение, 15 эпох, ≈117 ч)

RunBackbonecm@1cm@10
e8c (centroid)ConvNeXt-Tiny + XLM-R base0.74100.8894
e8c (centroid)ResNet-18 + XLM-R base0.7066
e1 (pairwise)ConvNeXt-Tiny0.7353
e1 (pairwise)ResNet-180.7002

Кросс-модальная матрица recall@1 (e8c · ConvNeXt)

Query \ Target  EN     RU     Lean   LaTeX  IMG
EN              —      0.91   0.87   0.67   0.60
RU              0.93   —      0.82   0.69   0.61
Lean            0.85   0.80   —      0.72   0.66
LaTeX           0.67   0.67   0.73   —      0.90
IMG             0.64   0.59   0.66   0.90   —

Видны два кластера: символьный (EN ↔ RU ↔ Lean) с recall@1 = 0.80–0.93 и визуально-формальный (LaTeX ↔ IMG) с recall@1 ≈ 0.90. Кросс-кластерный разрыв — около 6 п.п. от пика.

Геометрическая стабильность

  • Centroid-based (e8c): Dintra ≪ 1, Dinter ≈ 0.9998, индекс коллапса ≈ 0.0002 — модальности схлопнуты к центроиду, объекты максимально разнесены.
  • Leave-one-out R@1 ≈ 0.999–1.0 — устойчивость к удалению любой модальности.

Доступ

Веса модели и обучающий корпус (sciLibRuModal v2) — по запросу через info@scilibai.ru. Базовая часть результатов и документация — на сайте.

Схема сборки репрезентации
Сборка репрезентации научного объекта из его модальностей. Иллюстрация из работы «Multi-Level Knowledge Graph for Formal Mathematics».

Метрики

{
  "experiment": "EXP-012 full training",
  "epochs": 15,
  "duration_hours": 117.7,
  "modalities": ["en", "ru", "lean", "latex", "img"],
  "best_run": "e8c_low_va_cnxt",
  "embedding_dim": 312,
  "cross_modal_r_at_1": 0.7410,
  "cross_modal_r_at_10": 0.8894,
  "loss_components": ["alignment", "contrastive", "anti_collapse_regularization"]
}

← К лаборатории