Разделяя зрение и логику: новый подход к масштабированию мультимодальных моделей

Исследователи предлагают принципиально новый способ повышения эффективности и точности моделей, объединяющих зрение и язык, путем разделения процессов восприятия и рассуждения.







![В рамках исследования рассматривается физическая система, чье состояние определяется набором факторов [latex]\mathbf{c}[/latex], при этом применение элементарных действий [latex]a\_{i} \in \mathbb{A}[/latex] приводит к результатам [latex]y\_{i}(\mathbf{c})[/latex], зависящим лишь от части этих факторов, а разработанный подход, основанный на разделении общих факторов, гарантирует их выявление и позволяет эффективно моделировать взаимосвязи между действиями и исходами, как демонстрируется на примере анализа различных комбинаций действий [latex]P\_{\mathbb{A}}[/latex] и использования двух энкодеров [latex]E\_X[/latex] и [latex]E\_A[/latex] для вычисления скрытых параметров и последующего декодирования для получения выходных данных [latex]y\_A[/latex].](https://arxiv.org/html/2602.06741v1/x1.png)
