Объемные формы и память машин: как генеративные модели учатся на 3D-данных

Исследование представляет собой разработанную систему оценки способности к запоминанию в задачах генерации трехмерных форм, позволяющую количественно оценить этот аспект в существующих методах и провести контролируемые эксперименты для изучения влияния данных и архитектуры модели на феномен запоминания.

Новое исследование посвящено анализу способности генеративных моделей запоминать обучающие данные и предлагает методы улучшения обобщающей способности без потери качества генерации 3D-форм.

Код под контролем: новые горизонты языковых моделей

Исследование представляет собой комплексный обзор тезисов, раскрывающий взаимосвязь ключевых аспектов и направлений работы.

Исследование демонстрирует значительный прогресс в использовании искусственного интеллекта для автоматизации и улучшения задач разработки программного обеспечения.

Один пример – ключ к интеллекту: как обучить ИИ рассуждать?

Оценка производительности комплексного обучения (MATH и LIMR) и различных выборок полиматематического обучения (Синтетические простые, естественные примеры пред-алгебры, [latex]\pi_{1}[/latex]) на базе Qwen2.5-7b-base демонстрирует, что применение жадного декодирования и скользящего усреднения с окном в 5 точек для AIME2024, AIME2025 и других эталонов позволяет выявить различия в эффективности различных подходов к обучению.

Новое исследование показывает, что для существенного улучшения способности больших языковых моделей к логическому мышлению достаточно всего одного, тщательно подобранного или сгенерированного примера.

Траектория Рассуждений: Новая Стратегия для Больших Языковых Моделей

Предложенный подход DiffCoT преодолевает проблему накопления ошибок, свойственную традиционным методам последовательного рассуждения [latex]CoT[/latex], за счет одновременного анализа как шумовых, так и временных измерений, что позволяет итеративно корректировать предыдущие ошибки и эффективно снижать предвзятость, возникающую при несоответствии между обучением и применением.

Исследователи предлагают инновационный подход к многоступенчатому логическому выводу, вдохновленный принципами диффузионных моделей, позволяющий языковым моделям самокорректироваться и повышать точность решения математических задач.

Разум машин: объединяя нейросети и символьные вычисления

Расширенная нейро-символическая архитектура обеспечивает одновременное обучение как нейронными сетями, так и символьными системами: прямой вывод ([latex]deduce()[/latex] методы нейронного и символьного модулей, соединённые через транслятор) формирует предсказания, в то время как нейронная индукция (обучение нейронного модуля посредством обратного распространения ошибки, основанного на абдуктивных сигналах от символьного модуля) и символическая индукция (добавление новых правил в политику символьного модуля через его метод [latex]induce()[/latex] во время эволюционных мутаций) обеспечивают адаптацию и обогащение знаний системы.

Новый подход позволяет обучать системы, способные к логическому мышлению и адаптации, без необходимости в заранее заданных знаниях или градиентной оптимизации.

Эксперты на пересменке: скрытая централизация в моделях Mixture-of-Experts

В моделях «смесь экспертов» эмпирические данные о маршрутизации выявили существование устойчивого комитета экспертов (таких как E4 и E5), который последовательно активируется при обработке разнообразных предметных областей (математика, юриспруденция, биология), демонстрируя наличие скрытого обобщенного ядра внутри маршрутизируемых экспертов, вопреки интуитивной стратегии «разделяй и властвуй», предполагающей разделение экспертов по предметным областям.

Новое исследование показывает, что в моделях Mixture-of-Experts формируется небольшая группа экспертов, обрабатывающая основную часть задач, независимо от входных данных.