Внимание без излишеств: к упрощению архитектур больших языковых моделей

Новое исследование предлагает переосмысление механизма внимания, демонстрируя, что для достижения сопоставимой производительности достаточно упрощенной модели, отказавшись от части избыточности.
![Исследование структуры [latex]Nd_{1-x}Sr_xNiO_3[/latex] и электронной конфигурации никеля позволило разработать модель SIREN, состоящую из пяти скрытых слоёв, которая, используя параметры тёсных связей и вектор <b>k</b>, предсказывает спектральную интенсивность [latex]IML[/latex] с точностью, сравнимой с результатами, полученными традиционной моделью тёсных связей, что демонстрирует потенциал машинного обучения в материаловедении.](https://arxiv.org/html/2603.16725v1/x1.png)

![Метаповерхность, спроектированная обратным методом, интегрированная с квантовыми ямами GaN/ScAlN, генерирует запутанные фотоны посредством спонтанного параметрического рассеяния накачки на частоте [latex]\omega_p[/latex] в пару фотонов с более низкой частотой [latex]\omega_s[/latex] и [latex]\omega_i[/latex], при этом усиленное локальное поле в слое квантовых ям, обусловленное резонансным возбуждением метаповерхности, использует большую нелинейность межсубзонных переходов для эффективного преобразования частоты.](https://arxiv.org/html/2603.16699v1/x1.png)
![Для исследования материалов SrVO3 и SrMnO3 при [latex]\beta = 10[/latex] выполнены расчёты методом DFT+DMFT с использованием GGNet и CTHYB, демонстрирующие согласованность результатов, полученных с помощью различных решателей - GGNet (кресты), CTHYB (сплошная синяя линия) и комбинированного подхода NN+1×CTHYB (пунктир красного цвета) - в отношении зависимостей [latex]G(\tau)[/latex], [latex]Im\Sigma(i\omega)[/latex] и [latex]ImG(i\omega)[/latex], а также в оценке заполнения примесных уровней [latex]n(\mu)[/latex].](https://arxiv.org/html/2603.15741v1/x3.png)

