∇ Модель · slm-modal · v2
SciLibModal
Мультимодальный энкодер: научный объект моделируется как симплекс в общем пространстве R^312. Вершины — модальности (EN, RU, Lean4, LaTeX, изображение); центроид — агрегированное представление, инвариантное к выбору модальности.
SciLibModal — мультимодальный энкодер математических объектов. Принимает пять модальностей одного объекта и помещает их в общее семантическое пространство RD, D = 312.
Идея: симплекс и центроид
Каждое представление объекта — вершина симплекса. Центроид симплекса — агрегированное представление объекта, инвариантное к конкретной модальности. Цель обучения — сжать симплекс одного объекта (модальности должны быть согласованными) и одновременно развести центроиды разных объектов в общем пространстве.
Функция потерь
Композиция трёх компонент:
- Alignment:
(1/M) · Σ ‖zi − μ‖². Уменьшает геометрический объём симплекса. - Contrastive: разносит центроиды разных объектов (модификация формулы Feng et al. 2014, где центроид играет роль универсального представления объекта).
- Регуляризация против коллапса: предотвращает вырожденные конфигурации, при которых вершины симплекса лежат на одной прямой.
Стоимость лосса — O(M), в отличие от попарной CLIP-схемы (O(M²)).
Метрики (EXP-012)
- Cross-modal recall@1 = 0.7410, recall@10 = 0.8894 (e8c, ConvNeXt-Tiny + XLM-R base).
- Символьный кластер (EN ↔ RU ↔ Lean) — recall@1 = 0.80–0.93.
- Визуально-формальный (LaTeX ↔ image) — recall@1 ≈ 0.90.
- Leave-one-out R@1 ≈ 0.999 — устойчивость к удалению модальности.
Использование
(1) Семантический поиск по Mathlib через коллекцию Qdrant scilib_mathlib_v1; (2) опциональная векторная аугментация SciLib-GRC21 (шаг 8 пайплайна); (3) детекция почти-дубликатов в формализованных корпусах.
Доступ
API доступен через MCP-tool semantic_search. Веса модели и обучающий корпус (sciLibRuModal v2) — по запросу через info@scilibai.ru.