Трансформеры: Предел вычислительной мощи?

Новое исследование показывает, что стандартные алгоритмы, вероятно, уже близки к оптимальным для вычислений в трансформерах, а значительное ускорение потребует принципиально новых подходов.

Речь без границ: FireRedASR2S – универсальная система распознавания

Система FireRedASR2S последовательно обрабатывает входной аудиосигнал посредством модулей FireRedVAD, FireRedLID, FireRedASR2 и FireRedPunc, формируя структурированный текст транскрипции, включающий пунктуацию, временные метки, оценки достоверности и языковые метки.

Новая разработка FireRedASR2S объединяет в себе все необходимые компоненты для обработки речи, от определения начала и конца фразы до распознавания языка и расстановки знаков препинания.

Головоломки пространства: как нейросети решают задачи на топологию

Коэффициенты корреляции Спирмена демонстрируют взаимосвязь между результатами модели на TopoBench, существующих головоломках (KORGym, Enigmata) и общих тестах на рассуждение (ARC-AGI-1/2, AIME 2025, AA Intelligence), указывая на то, что все головоломки коррелируют с существующими бенчмарками.

Новое исследование представляет TopoBench — сложный набор задач, позволяющий оценить способность больших языковых моделей к пространственному мышлению и решению топологических головоломок.

Распутывая Символы: Машинное Обучение для Упрощения Выражений

Архитектура сети политики для символического упрощения использует Transformer-энкодер для обработки векторных представлений каждого терма, дополненных обучаемым токеном [CLS], при этом пренебрегая позиционным кодированием в силу симметрии перестановок термов, а затем применяет пермутационно-эквивариантную голову политики для получения вероятностей действий, определяемых функцией softmax.

Новый подход позволяет нейронным сетям самостоятельно осваивать искусство упрощения сложных математических выражений, ориентируясь на примеры ‘перемешивания’ и восстановления порядка.

Генерирующие модели: новый подход с использованием тензорных сетей

Исследование демонстрирует, что предложенная модель UMPS способна генерировать результаты, сопоставимые с моделью MPS, обученной на значительно большем наборе данных ([latex]|\mathcal{T}|=300[/latex]) и с максимальным размером связей [latex]r_{\max}=400[/latex], при этом используя существенно меньшее количество слоев [latex]l_{\max}=4[/latex] вместо [latex]l_{\max}=25[/latex].

Исследователи предлагают эффективный метод генерации данных, основанный на унитарных матричных произведениях состояний и оптимизации на римановых многообразиях.

Тёмная сторона точности: как смещение среднего влияет на обучение больших языковых моделей

В ходе обучения модели Qwen3-0.6B наблюдается сопоставимая динамика потерь при использовании как формата BF16, так и комбинации FP4 с Averis, что указывает на эффективность предложенного подхода к снижению вычислительных затрат без существенной потери в производительности.

Новое исследование выявило, что систематическое смещение средних значений активаций может приводить к нестабильности при обучении больших языковых моделей с использованием низкобитной квантизации.