Эффективная память для больших языковых моделей: новый подход LOOKAT

Исследователи предлагают инновационный метод сжатия KV-кэша, позволяющий значительно уменьшить потребление памяти при работе с крупными нейронными сетями.

Исследователи предлагают инновационный метод сжатия KV-кэша, позволяющий значительно уменьшить потребление памяти при работе с крупными нейронными сетями.

Исследователи предлагают подход, позволяющий нейросетям ‘думать’ над запросом, прежде чем создавать изображение, значительно улучшая его качество и соответствие смыслу.

Исследование показывает, что сети Kolmogorov-Arnold способны превосходить многослойные персептроны по точности и эффективности вычислений, открывая новые возможности для задач с ограниченными ресурсами.

Новое исследование на основе анализа логов IDE показывает, как использование инструментов на базе ИИ влияет на реальные рабочие процессы разработчиков.
Представлен DanQing — крупнейший на сегодняшний день набор данных для обучения моделей, объединяющих зрение и язык, ориентированный на китайский язык.

Исследование демонстрирует, что агенты искусственного интеллекта, использующие языковые модели рассуждений, способны автономно оптимизировать процессы атомно-слоевого осаждения (ALD), достигая результатов, сопоставимых с опытом экспертов-технологов.

Новый подход к обучению с подкреплением позволяет значительно повысить способность больших языковых моделей к логическому мышлению и расширить границы их возможностей.

Новый подход позволяет эффективно сжимать и адаптировать крупные языковые модели для работы на устройствах с ограниченными ресурсами, сохраняя при этом высокую точность.

Исследователи представили масштабный набор данных MathDoc для оценки способности моделей извлекать информацию из реальных экзаменационных работ по математике и распознавать неполные или нечеткие данные.

Новая разработка позволяет предвидеть и блокировать опасные команды, которые могут выполнить языковые модели с доступом к инструментам.