Внимание в сети: Новый подход к ускорению больших языковых моделей

Общая схема внимания на основе сетки позволяет модели фокусироваться на релевантных частях входных данных, эффективно улавливая взаимосвязи между элементами и обеспечивая более точное и контекстуально-обоснованное представление информации.

Исследователи предлагают Mesh-Attention — алгоритм распределенного внимания, оптимизирующий коммуникацию и повышающий эффективность обработки длинных последовательностей.

Преображение лиц: от тепла к реализму с помощью ИИ

Результаты, представленные на наборе данных SpeakingFaces, демонстрируют возможность качественной трансформации изображений лиц из тепловизионного диапазона в видимый, что позволяет осуществлять перевод между этими модальностями.

Новая модель искусственного интеллекта позволяет преобразовывать изображения лиц, полученные в тепловом спектре, в реалистичные видимые изображения, сохраняя при этом уникальные черты человека.

Нейросети и предрассудки: можно ли избавиться от смещения, не потеряв полезные знания?

Анализ совместного влияния различных методов удаления на предвзятость моделей в отношении профессий, связанных с образованием, и демографических предвзятостей, измеренную с помощью расхождения Кульбака-Лейблера [latex]KL[/latex], выявил, что наиболее благоприятным результатом является снижение обеих предвзятостей, в то время как наихудшим - их одновременное увеличение, при этом наблюдаются компромиссные сценарии, когда уменьшение одной предвзятости сопровождается усилением другой, что подтверждается анализом данных по различным профессиональным задачам, включая оценку влияния предвзятости в отношении образования, пола и расы.

Новое исследование показывает, что борьба со смещением в больших языковых моделях требует индивидуального подхода, поскольку универсальные методы могут ухудшить производительность.

Нейросети решают дифференциальные уравнения: новый подход к точному моделированию

В процессе оптимизации, снижение потерь на обучающей выборке из 1000 и 3000 образцов, а также на валидационной выборке из 500 образцов, отслеживалось для трех различных задач, при этом контрольные точки модели обновлялись при уменьшении потерь на валидационной выборке, а финальная модель определялась как контрольная точка с минимальными потерями на валидации.

Исследователи разработали метод обучения нейронных сетей для решения параметрических дифференциальных уравнений, обеспечивающий прямую связь между ошибкой модели и точностью решения.

Зрение сквозь сжатие: как нейросети понимают изображения с потерями

Потеря производительности VLM, вызванная сжатием изображений, успешно компенсируется предложенным методом, что подтверждается улучшением метрики BD, демонстрирующим эффективность подхода в сохранении качества визуальных представлений.

Новое исследование оценивает возможности современных моделей «зрение-язык» в обработке сжатых изображений и предлагает решение для повышения их эффективности.

Процессы под контролем: Анализ данных для эффективного бизнеса

В статье рассматривается, как анализ данных о бизнес-процессах позволяет не только оптимизировать их, но и учитывать человеческий фактор и создавать реальную ценность для организации.

Искусственный интеллект на страже лекарств: как нейросети оценивают безопасность назначений

Приложение для оценки врачом позволяет систематизировать сбор клинических данных, обеспечивая структурированный подход к диагностике и прогнозированию, что потенциально снижает вероятность ошибок и улучшает качество медицинской помощи.

Новое исследование показывает, что нейросети способны выявлять проблемы с безопасностью лекарств, но их ошибки часто связаны с нехваткой клинического контекста и понимания нюансов лечения.

Откуда взялась эта фраза? Анализ происхождения знаний в моделях ИИ

Анализ модели LIMO-v2 с использованием метода отслеживания происхождения рассуждений (Reasoning Distillation Provenance Tracing) показал, как вероятность выбора различных действий на этапах рассуждений меняется в зависимости от используемой

Новое исследование раскрывает, как отследить источник рассуждений в моделях, обученных с использованием дистилляции знаний, и понять, что является заимствованным, а что — собственным вкладом.