Эффективная память для больших языковых моделей: новый подход LOOKAT

Механизм внимания LOOKAT обходит стандартную процедуру деквантизации ключей перед вычислением, устраняя узкое место по пропускной способности и предлагая альтернативный подход к обработке информации.

Исследователи предлагают инновационный метод сжатия KV-кэша, позволяющий значительно уменьшить потребление памяти при работе с крупными нейронными сетями.

Искусство видеть: Новая стратегия для генерации изображений по тексту

В разработанном методе, вместо простого использования языковой модели как застывшего текстового энкодера, она обучается к размышлению и уточнению исходных запросов пользователя, ориентируясь на оценку качества полученных изображений, что позволяет добиться более осмысленного и точного результата.

Исследователи предлагают подход, позволяющий нейросетям ‘думать’ над запросом, прежде чем создавать изображение, значительно улучшая его качество и соответствие смыслу.

Нейросети нового поколения: когда меньше значит больше

Модель KAN демонстрирует способность к непрерывному обучению, успешно осваивая новые задачи при сохранении информации, полученной ранее, что подтверждает возможность построения интеллектуальных систем с расширяемыми знаниями.

Исследование показывает, что сети Kolmogorov-Arnold способны превосходить многослойные персептроны по точности и эффективности вычислений, открывая новые возможности для задач с ограниченными ресурсами.

Искусственный интеллект и кодер: меняется ли подход к разработке?

Повторное использование кода демонстрирует возможность снижения издержек разработки, однако со временем неизбежно приводит к накоплению технического долга, требующего постоянного внимания и рефакторинга.

Новое исследование на основе анализа логов IDE показывает, как использование инструментов на базе ИИ влияет на реальные рабочие процессы разработчиков.

Искусственный интеллект настраивает тонкие пленки: новый подход к оптимизации ALD-процессов

Искусственный интеллект, управляющий процессом атомно-слоевого осаждения, функционирует посредством итеративного цикла: логический модуль формирует запросы и обрабатывает ответы, полученные от модуля искусственного интеллекта, который, используя модель рассуждений, определяет оптимальную стратегию оптимизации и запрашивает проведение дополнительных экспериментов в симулированном реакторе, что позволяет непрерывно совершенствовать процесс.

Исследование демонстрирует, что агенты искусственного интеллекта, использующие языковые модели рассуждений, способны автономно оптимизировать процессы атомно-слоевого осаждения (ALD), достигая результатов, сопоставимых с опытом экспертов-технологов.

Обучение с подкреплением: как улучшить логическое мышление больших языковых моделей

Для оценки траекторий взаимодействия, алгоритм разделяет процесс рассуждения на промежуточные шаги и вычисляет награду, основанную на соотношении энтропий между текущей и эталонной политиками, а также на конечном результате, позволяя таким образом количественно оценить качество и эффективность каждого шага в процессе принятия решений.

Новый подход к обучению с подкреплением позволяет значительно повысить способность больших языковых моделей к логическому мышлению и расширить границы их возможностей.

Ускорение больших языковых моделей для периферийных устройств

Квантование моделей, оптимизированных алгоритмами Adam и Muon, демонстрирует снижение точности на восьми контрольных примерах, за исключением SIQA, где наблюдается её увеличение, что указывает на чувствительность к методу оптимизации при снижении вычислительной точности.

Новый подход позволяет эффективно сжимать и адаптировать крупные языковые модели для работы на устройствах с ограниченными ресурсами, сохраняя при этом высокую точность.

Математические экзамены: новый вызов для искусственного интеллекта

Сравнительный анализ производительности при отклонении запросов демонстрирует, что использование полностраничного ввода обеспечивает более надежные результаты по сравнению с режимом, ориентированным на отдельные вопросы.

Исследователи представили масштабный набор данных MathDoc для оценки способности моделей извлекать информацию из реальных экзаменационных работ по математике и распознавать неполные или нечеткие данные.