SciLibModal

Мультимодальный энкодер: научный объект моделируется как симплекс в общем пространстве R^312. Вершины — модальности (EN, RU, Lean4, LaTeX, изображение); центроид — агрегированное представление, инвариантное к выбору модальности.

SciLibModal — мультимодальный энкодер математических объектов. Принимает пять модальностей одного объекта и помещает их в общее семантическое пространство R^D, D = 312.

Идея: симплекс и центроид

Каждое представление объекта — вершина симплекса. Центроид симплекса — агрегированное представление объекта, инвариантное к конкретной модальности. Цель обучения — сжать симплекс одного объекта (модальности должны быть согласованными) и одновременно развести центроиды разных объектов в общем пространстве.

Функция потерь

Композиция трёх компонент:

Alignment: (1/M) · Σ ‖z_i − μ‖². Уменьшает геометрический объём симплекса.
Contrastive: разносит центроиды разных объектов (модификация формулы Feng et al. 2014, где центроид играет роль универсального представления объекта).
Регуляризация против коллапса: предотвращает вырожденные конфигурации, при которых вершины симплекса лежат на одной прямой.

Стоимость лосса — O(M), в отличие от попарной CLIP-схемы (O(M²)).

Метрики (EXP-012)

Cross-modal recall@1 = 0.7410, recall@10 = 0.8894 (e8c, ConvNeXt-Tiny + XLM-R base).
Символьный кластер (EN ↔ RU ↔ Lean) — recall@1 = 0.80–0.93.
Визуально-формальный (LaTeX ↔ image) — recall@1 ≈ 0.90.
Leave-one-out R@1 ≈ 0.999 — устойчивость к удалению модальности.

Использование

(1) Семантический поиск по Mathlib через коллекцию Qdrant scilib_mathlib_v1; (2) опциональная векторная аугментация SciLib-GRC21 (шаг 8 пайплайна); (3) детекция почти-дубликатов в формализованных корпусах.

Доступ

API доступен через MCP-tool semantic_search. Веса модели и обучающий корпус (sciLibRuModal v2) — по запросу через info@scilibai.ru.