Сжатие без потерь: Новый подход к уменьшению размера больших языковых моделей
![Сравнительный анализ распределений выходных сигналов 20-го слоя модели Qwen3-30B-A3B демонстрирует различия в средних μ и дисперсиях [latex] \sigma^2 [/latex] между представлением с плавающей точкой (FP), прямым квантованием (Direct VQ) и разреженным квантованием с использованием Mixture-of-Experts (KBVQ-MoE), выявляя влияние методов квантования на статистические свойства внутренних представлений модели.](https://arxiv.org/html/2602.11184v1/img/fig-motivation_post_process.png)
Исследователи разработали метод, позволяющий значительно уменьшить размер моделей, состоящих из множества экспертов, практически не теряя при этом точности.
![Сравнительный анализ распределений выходных сигналов 20-го слоя модели Qwen3-30B-A3B демонстрирует различия в средних μ и дисперсиях [latex] \sigma^2 [/latex] между представлением с плавающей точкой (FP), прямым квантованием (Direct VQ) и разреженным квантованием с использованием Mixture-of-Experts (KBVQ-MoE), выявляя влияние методов квантования на статистические свойства внутренних представлений модели.](https://arxiv.org/html/2602.11184v1/img/fig-motivation_post_process.png)
Исследователи разработали метод, позволяющий значительно уменьшить размер моделей, состоящих из множества экспертов, практически не теряя при этом точности.
![Эффективность идентификации [latex]\tau\text{-лептонов}[/latex] в эксперименте, смоделированном для поиска распадов [latex]H \to \tau\tau[/latex] и сигналов новой физики [latex]Z'\to \tau\tau[/latex], демонстрирует зависимость от поперечного импульса [latex]p_T[/latex] и псевдо-быстроты η реконструированных кандидатов, при этом точность оценки ограничена статистикой доступных событий и шириной интервалов, а вклад неучтенных нейтрино влияет на наблюдаемую видимую энергию.](https://arxiv.org/html/2602.11359v1/x4.png)
В статье описывается усовершенствование системы высокоуровневых триггеров детектора CMS для более эффективной идентификации адронно распадающихся тау-лептонов.
Исследователи разработали способ выявлять принципиальные различия во внутреннем устройстве и поведении различных моделей искусственного интеллекта, даже если они построены на разных архитектурах.
![В исследовании равновесий сферического тороида показано, что при увеличении скорости вращения ([latex]Maxis = 1.0[/latex]) наблюдается резкое усиление чувствительности к изменению параметров, особенно к уменьшению отношения формы ([latex]AA[/latex]) в области тороидальных систем ([latex]A < 2.0[/latex]), что приводит к значительному увеличению шафтрановского сдвига ([latex]\Delta R/a[/latex]) и снижению запаса устойчивости, характеризуемого центральным коэффициентом безопасности ([latex]q_0[/latex]); при этом, зависимость от нормализованной бета-функции ([latex]\beta_N[/latex]) демонстрирует совместное влияние центростремительных и давлений, а также нелинейную зависимость, где сжатие потока и парамагнитные эффекты конкурируют при высоком давлении.](https://arxiv.org/html/2602.11422v1/figure10.png)
Исследование показывает, как быстрое вращение плазмы влияет на равновесие и стабильность токамаков сферического типа.
Новый алгоритм, основанный на GPU-ускорении и оптимизированной методологии QSGS, позволяет создавать высокоточные 3D-модели пористых сред в рекордно короткие сроки.
Новый алгоритм позволяет эффективно вычислять главные компоненты матрицы с гарантированной конфиденциальностью данных.
Квантовый Автоматизм: Взгляд изнутри Знаете, вот что забавно: мы строим машины, которые оперируют принципами неопределенности. И при этом хотим, чтобы эти машины работали предсказуемо. Парадокс, не правда ли? Представьте себе настройку музыкального инструмента. Каждый струна, каждый лад требует точной настройки. Квантовый компьютер – это оркестр, где каждая кубит – это струна. И если хотя бы … Читать далее
![Микромагнитный решатель MagneX использует многоскоростную интеграцию по времени (SUNDIALS) для эволюции уравнения Ландау-Лифшица-Гильберта [latex]\mathbf{M} \times \frac{d\mathbf{M}}{dt} = - \gamma \mathbf{H}_{\rm eff}[/latex], разделяя быстрые компоненты (обмен, анизотропия, DMI) и медленные (демагнетизация) по разным временным масштабам, а пространственная дискретизация и параллелизация осуществляются посредством фреймворка AMReX, при этом поле демагнетизации [latex]\mathbf{H}_{\rm demag}[/latex] вычисляется либо посредством спектральной свертки на основе БПФ, либо аппроксимируется нейронной сетью, обеспечивая эффективное, масштабируемое и расширяемое моделирование на современных многопроцессорных GPU-архитектурах.](https://arxiv.org/html/2602.12242v1/x1.png)
Представлен высокопроизводительный решатель для микромагнетики, позволяющий эффективно исследовать сложные магнитные явления.
Новое исследование показывает, как мощные языковые модели могут достичь высокой эффективности в формально верифицируемых языках, таких как Idris, благодаря адаптации на основе диагностики компилятора.
![В отличие от механизмов полного и линейного внимания, характеризующихся линейным ростом памяти и ограниченной вместимостью, RAM-Net отсоединяет объем памяти от размерности признаков посредством декодера адресов, преобразующего плотные векторы [latex]\mathbf{k}_{t}[/latex] и [latex]\mathbf{v}_{t}[/latex] в разреженные адреса [latex]\mathbf{w}_{t}[/latex] и [latex]\mathbf{r}_{t}[/latex], что обеспечивает масштабную емкость состояния и высокоточное извлечение информации при постоянном размере состояния памяти.](https://arxiv.org/html/2602.11958v1/new_intro_cmp.png)
Исследователи представили RAM-Net — архитектуру, позволяющую эффективно обрабатывать длинные последовательности данных, не увеличивая размер модели.