Ускорение работы больших языковых моделей: новый подход к разреженности

Применение инновационной схемы с зигзагообразным расположением и сбалансированным ядром позволило добиться ускорения разреженного умножения матриц на векторы (GEMV) на 1,51–1,78 раза для моделей Llama-3-8B, Llama-2-13B и Llama-2-70B, преодолев значительное замедление, вызванное ветвлением в наивных реализациях, и обеспечив умеренное улучшение по сравнению с другими оптимизациями.

Исследование предлагает инновационный метод повышения эффективности вычислений в нейронных сетях за счет динамического использования разреженности данных.

SmaraQ: Hummingbirds and the Quantum Realm

SmaraQ: Hummingbirds and the Quantum Realm Знаете, в квантовой физике часто кажется, что мы пытаемся поймать свет в кулак. Чем больше мы узнаем, тем больше понимаем, насколько всё хитро закручено. Вот и немецкий проект SmaraQ пытается сделать то же самое – но с ионами и фотонами, упакованными на чип. Что это за зверь? Представьте себе, … Читать далее

Визуализация предпочтений: как изображения помогают ИИ понимать покупателей

Для прогнозирования следующей покупки мультимодальные большие языковые модели используют различные представления истории взаимодействия с пользователем – текстовые данные, графическое отображение в виде диаграммы рассеяния и блок-схемы, – что позволяет комплексно анализировать поведение и повышать точность предсказаний.

Исследование показывает, что представление истории покупок пользователя в виде визуальных данных повышает точность прогнозирования будущих приобретений.

Прогнозирование времени выполнения: новый подход к масштабируемому обучению

Прогнозирование времени выполнения задач глубоких нейронных сетей позволяет оптимизировать ресурсы и повысить эффективность вычислений, выявляя ключевые параметры, влияющие на производительность системы.

Разработка системы, предсказывающей время выполнения задач глубокого обучения в распределенных системах, для повышения эффективности и масштабируемости.