Самообучение стремится к нормальности: как InfoNCE формирует представления

Автор: Денис Аветисян

Новое исследование показывает, что контрастивное обучение с использованием функции потерь InfoNCE приводит к формированию представлений, близких к гауссовскому распределению в высоких измерениях.

В процессе обучения двуслойной MLP на наборе данных CIFAR-10 с использованием InfoNCE наблюдается увеличение гауссовости представления данных, что проявляется в снижении коэффициента вариации норм представлений (указано в уравнении <span class="katex-eq" data-katex-display="false">Eq.20</span>), уменьшении статистики асимметрии из не-гауссовых значений в нормальный диапазон и устойчивом росте доли координат, успешно проходящих тест DP на нормальность. — В процессе обучения двуслойной MLP на наборе данных CIFAR-10 с использованием InfoNCE наблюдается увеличение гауссовости представления данных, что проявляется в снижении коэффициента вариации норм представлений (указано в уравнении $Eq.20$ ), уменьшении статистики асимметрии из не-гауссовых значений в нормальный диапазон и устойчивом росте доли координат, успешно проходящих тест DP на нормальность.

Теоретический и эмпирический анализ демонстрирует, что InfoNCE индуцирует гауссовское распределение представлений, проливая свет на геометрию самообучения.

Контрастивное обучение стало краеугольным камнем современного представления обучения, однако теоретическое понимание структуры получаемых представлений остается неполным. В работе ‘InfoNCE Induces Gaussian Distribution’ показано, что функция потерь InfoNCE приводит к тому, что высокоразмерные представления, полученные в процессе контрастивного обучения, асимптотически приближаются к многомерному нормальному распределению. Это открытие, подкрепленное как теоретическим анализом, так и экспериментальными данными на синтетических и реальных наборах данных, позволяет по-новому взглянуть на геометрию самообучающихся моделей. Можно ли использовать эту гауссову структуру для разработки более эффективных алгоритмов контрастивного обучения и расширения области их применения?

Поиск Эффективных Представлений: Основа Самообучения

Самообучающееся обучение (self-supervised learning) стремительно завоевало признание как мощный подход к извлечению знаний из неразмеченных данных, однако создание действительно разделенных и информативных представлений остается сложной задачей. Несмотря на успехи в автоматическом изучении признаков, алгоритмы часто сталкиваются с трудностями в выявлении и отделении различных факторов изменчивости в данных. Это приводит к тому, что полученные представления могут быть избыточными, запутанными и неэффективными для решения конкретных задач. Современные исследования направлены на разработку методов, способных создавать более компактные и интерпретируемые представления, в которых каждый признак отражает отдельный аспект данных, что критически важно для повышения эффективности и обобщающей способности моделей машинного обучения.

Традиционные методы анализа данных зачастую оказываются неспособны выявить скрытые закономерности и взаимосвязи, присущие сложным наборам информации. Это связано с тем, что они полагаются на заранее заданные параметры и не учитывают многомерность и нелинейность реальных данных. Как следствие, полученные представления оказываются неполными или искаженными, что негативно сказывается на эффективности последующих задач, таких как классификация, прогнозирование или генерация новых данных. Неспособность адекватно отразить внутреннюю структуру данных приводит к снижению точности и обобщающей способности моделей, что особенно заметно при работе с зашумленными или неполными данными.

Контрастное обучение позволяет получить представления, близкие к гауссовому распределению.

Геометрические Принципы Пространства Вложений

Основная цель построения пространства вложений заключается в создании такой структуры, где близкие по характеристикам данные располагаются на небольшом расстоянии друг от друга, а различные — на большом. Максимизация как выравнивания (alignment), то есть соответствия структуры вложений исходным данным, так и однородности (uniformity), подразумевающей равномерное распределение данных в пространстве, позволяет эффективно решать задачи классификации, кластеризации и поиска. Достижение оптимального баланса между выравниванием и однородностью является ключевым фактором для повышения качества и эффективности работы с данными в пространстве вложений.

Центральная предельная теорема Максвелла-Пуанкаре для сферы ( $Maxwell-Poincaré\ Spherical\ CLT$ ) обеспечивает теоретическое обоснование возможности аппроксимации распределений на сфере гауссовскими представлениями при увеличении размерности пространства. Эта теорема устанавливает, что сумма большого числа независимых случайных векторов, равномерно распределенных на поверхности сферы, стремится к многомерному нормальному (гауссовскому) распределению. Применительно к задачам встраивания данных, это означает, что распределение точек в высокоразмерном пространстве, полученное в результате операций над данными на сфере, может быть эффективно представлено и анализировано с использованием инструментов, предназначенных для гауссовских распределений, что упрощает последующие вычисления и анализ.

Аппроксимация представлений данных гауссовским распределением значительно упрощает последующий анализ и обработку. Наша работа демонстрирует, что в пространствах высокой размерности распределения сходятся к гауссовским, что подтверждается теоретическими результатами. В частности, расстояние полной вариации (TVD) между исходным распределением и гауссовской аппроксимацией ограничено сверху как < $2(k+3)/(d-k-3)$ , где ‘k’ обозначает размерность представления, а ‘d’ — общую размерность пространства. Ограниченность TVD гарантирует, что ошибка, вносимая заменой исходного распределения на гауссовское, остается контролируемой и предсказуемой, что существенно облегчает разработку и оценку алгоритмов машинного обучения.

Эксперименты с синтетическими данными показали, что энкодер преобразует входные данные, распределенные по закону Лапласа, в приблизительно гауссовские представления, что подтверждается высокой корреляцией результатов при различных уровнях аугментации данных.

Оптимизация Контрастного Обучения с Учетом Геометрических Инсайтов

Предварительная обработка данных, такая как $Whitening$ (обесцвечивание), существенно повышает $Uniformity$ (однородность) представлений за счет декорреляции и масштабирования входных данных. Этот процесс удаляет линейные зависимости между признаками, что приводит к более независимым и информативным представлениям. Масштабирование к единичной дисперсии нормализует данные, предотвращая доминирование признаков с большими значениями и улучшая стабильность обучения. В результате, модели, обученные на предварительно обработанных данных, демонстрируют более согласованные и надежные представления, что положительно сказывается на их обобщающей способности и производительности.

Степень преобразования входных данных, количественно оцениваемая как «мягкость аугментации» (Augmentation Mildness), оказывает прямое влияние на силу корреляции между различными представлениями (views) одного и того же образца и, как следствие, на величину $HGR$ максимальной корреляции. Более мягкие аугментации, подразумевающие незначительные изменения входных данных, приводят к высокой корреляции между представлениями, поскольку они остаются близкими в пространстве признаков. Напротив, более сильные аугментации, вносящие существенные изменения, снижают корреляцию между представлениями. В результате, оптимальный уровень аугментации, максимизирующий $HGR$ корреляцию, зависит от специфики данных и архитектуры модели; слишком слабые аугментации могут привести к тривиальным представлениям, а слишком сильные — к потере информации и ухудшению обобщающей способности.

Методы, такие как DINO, CLIP и ResNet, успешно применяют $Contrastive Learning$ для достижения передовых результатов, используя принципы декореляции и масштабирования данных, а также контроль над степенью аугментации. Наблюдается стабильно высокая корреляция между входными и выходными вероятностями, что демонстрирует «перенос» распределения через энкодер. Анализ показывает, что коэффициент вариации (CV) уменьшается с увеличением размера пакета (batch size) и размерности представления, подтверждая концентрацию норм представлений. Это указывает на то, что при увеличении количества данных и сложности модели, представления становятся более согласованными и менее подвержены случайным отклонениям.

Отбеливание признаков незначительно, но последовательно улучшает равномерность нормализованных представлений CLIP (изображение, текст) и DINO, поскольку они уже близки к равномерному распределению.

За Пределами Евклидова Пространства: Сферические Данные и Представления

Распределение фон Мизеса-Фишера представляет собой естественный способ моделирования направленных данных и отражения угловой концентрации в представлениях, расширяя понятие гауссовости на сферу. В отличие от стандартного нормального распределения, применимого к плоским пространствам, данное распределение учитывает кривизну сферы и позволяет описывать вероятностное распределение векторов, направленных в различных точках на сфере. $VM(μ, κ)$ , где μ — среднее направление, а κ — параметр концентрации, определяет, насколько плотно векторы сгруппированы вокруг среднего направления. Высокое значение κ указывает на сильную концентрацию вокруг μ, в то время как низкое значение соответствует более равномерному распределению. Это особенно полезно в задачах, где важна ориентация данных, например, при анализе угловых параметров в робототехнике или при моделировании магнитных моментов в физике.

Явление концентрации на тонкой оболочке указывает на то, что высокоразмерные представления часто располагаются близко к поверхности сферы. Это означает, что векторы, описывающие данные в таком пространстве, имеют тенденцию к одинаковой длине, формируя узкое распределение величин. Подобное поведение наблюдается в различных областях, включая машинное обучение и анализ данных, и может быть связано с внутренними свойствами алгоритмов или структурой самих данных. Концентрация на оболочке упрощает анализ, позволяя применять методы, разработанные для сферических данных, и способствует более эффективному представлению информации в высокоразмерном пространстве. Это позволяет снизить вычислительную сложность и повысить точность моделей, работающих с такими представлениями.

Понимание этих сферических свойств имеет решающее значение для разработки более устойчивых и эффективных представлений данных, особенно в таких областях, как 3D-зрение и робототехника. Исследования показали, что координатные распределения часто демонстрируют гауссовость, что подтверждается статистическими тестами Андерсона-Дарлинга (AD) и Д’Агостино-Пирсона (DP), значения которых находятся в допустимых пределах. Такая гауссовость позволяет применять известные методы статистического анализа и машинного обучения, упрощая построение и оптимизацию моделей, работающих с трехмерными данными. Более того, учет сферической природы представлений может привести к снижению размерности и повышению вычислительной эффективности алгоритмов, что особенно важно для приложений реального времени и систем с ограниченными ресурсами.

Эксперименты с синтетическими данными демонстрируют, что увеличение размерности <span class="katex-eq" data-katex-display="false">d</span> и сложности сети <span class="katex-eq" data-katex-display="false">NN</span> приводит к концентрации нормы представления и сужению радиуса, подтверждаемому нормальными диагностическими показателями AD и DP, находящимися в пределах гауссова распределения. — Эксперименты с синтетическими данными демонстрируют, что увеличение размерности $d$ и сложности сети $NN$ приводит к концентрации нормы представления и сужению радиуса, подтверждаемому нормальными диагностическими показателями AD и DP, находящимися в пределах гауссова распределения.

Исследование демонстрирует, что контрастивное обучение с использованием InfoNCE приводит к формированию представлений, приближающихся к гауссовскому распределению в многомерном пространстве. Это подтверждает идею о том, что структура определяет поведение системы — в данном случае, структура целевой функции InfoNCE формирует распределение получаемых представлений. Бертранд Рассел однажды заметил: «Страх — это самый главный враг разума». Подобно тому, как страх искажает восприятие, несоответствие между структурой модели и структурой данных может приводить к неоптимальным представлениям и, как следствие, к снижению эффективности обучения. Анализ, представленный в работе, подчеркивает важность понимания геометрических свойств изучаемых данных и их влияния на конечный результат.

Куда двигаться дальше?

Утверждение о том, что обучение с помощью InfoNCE неизбежно ведёт к гауссовскому распределению представлений, звучит элегантно. Однако, подобно любой элегантной конструкции, оно заставляет задуматься: что именно мы оптимизируем? Действительно ли стремление к гауссовскому распределению — это необходимое условие для хороших представлений, или же это просто удобное свойство, возникшее как побочный эффект более фундаментальных принципов? Простота здесь — не в минимализме, а в чётком различении необходимого и случайного.

В дальнейшем необходимо исследовать, как различные архитектуры и предварительные обработки данных влияют на степень гауссовскости, и, что более важно, как это влияние коррелирует с реальной производительностью в задачах downstream. Сферическая центральная предельная теорема, лежащая в основе данного явления, предполагает однородность пространства признаков. Что происходит, когда это условие нарушается? Каковы пределы применимости данного результата к данным с высокой размерностью и сложной структурой?

Представляется важным отойти от узкого взгляда на гауссовское распределение как на самоцель. Более продуктивным подходом было бы рассматривать его как один из многих возможных «аттракторов» в пространстве представлений, формируемых самообучением. Истинное понимание геометрии самообучения требует изучения не только того, к чему сходятся представления, но и того, почему они сходятся именно к этому, а не к чему-либо другому.

Оригинал статьи: https://arxiv.org/pdf/2602.24012.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 16:01

🚀 Квантовые новости