Когда Больше – Не Значит Лучше: Неожиданный Поворот в Мире Языковых Моделей

Ограничение длины ответов значительно улучшает производительность больших языковых моделей, сокращая разрыв между ними и более компактными системами на 67% (с 44.2% до 14.8%, [latex]t=7.80[/latex], [latex]p<0.0001[/latex]), и даже приводя к превосходству больших моделей в задачах, требующих краткости, таких как GSM8K и MMLU-STEM, что подтверждается снижением средней длины ответа с 197 токенов до 78 (сокращение на 60%) и устанавливает причинно-следственную связь между излишней многословностью и снижением эффективности.

Новое исследование показывает, что в определенных задачах меньшие языковые модели могут превосходить более крупные, демонстрируя феномен, когда увеличение масштаба приводит к снижению производительности.

Искусственный интеллект на службе химии: путь к устойчивым открытиям

Предлагается схема устойчивого исследования химического пространства для открытия новых технологических материалов и терапевтических средств, начинающаяся с чёткой постановки научной задачи, последующего использования существующих баз данных и повторного применения вычислительных рабочих процессов и универсальных моделей посредством совместных партнерств, что в конечном итоге может привести к созданию самообучающихся лабораторий, способных решать исходные вопросы в большем масштабе.

В статье представлен обзор текущих тенденций и перспектив применения искусственного интеллекта для эффективного и экологичного поиска новых материалов и химических соединений.

Слияние распределений: Новый подход к непрерывному обучению языковых моделей

Предлагаемый подход к непрерывному обучению позволяет сократить время, необходимое для адаптации модели к новым данным, с дней или недель до минут, за счет независимого обучения моделей для каждого набора данных и последующего объединения полученных распределений с оптимизированными весами, в то время как традиционный метод требует предварительного определения пропорций смешивания данных перед началом обучения [latex]\{w\_{i}\}[/latex] и [latex]\{\alpha\_{i}\}[/latex].

Исследователи предлагают метод, позволяющий более эффективно объединять данные для последовательного обучения, улучшая производительность и снижая вычислительные затраты.

Искусственный интеллект в роли астрофизика: эксперимент с задачами

Экспериментальная установка предполагает сбалансированную популяцию ИИ-астрофизиков, взаимодействующую с обширным набором астрофизических задач и предварительно вычисленной таблицей назначений, что позволяет оценить производительность в условиях самостоятельного решения и при четырех различных стилях помощи, а результаты, агрегированные в сопоставимые пары

Новое исследование показывает, что эффективность помощи искусственного интеллекта в астрофизике сильно зависит от конкретной задачи и выбранной стратегии.

Глубокое исследование глубин: от нейросетей к научным открытиям

Глубокие исследования неизбежно превращаются в технический долг, поскольку практическое применение всегда находит способы обойти элегантные теоретические построения.

В статье представлен всесторонний обзор новейших подходов к автоматизации научных исследований с использованием искусственного интеллекта, больших языковых моделей и агентных систем.

Умные Шлюзы для Больших Языковых Моделей: Оценка и Маршрутизация на Основе Схем

Система SEAR организована вокруг центрального шлюза, направляющего запросы к различным поставщикам больших языковых моделей, одновременно отбирающего трафик для оценки судейской системой SEAR и регистрируя оперативные метрики, при этом обязательные внешние ключи обозначаются сплошными стрелками, а необязательные - пунктирными, формируя комплексную архитектуру для оценки и мониторинга производительности.

Новая система SEAR позволяет оценивать качество ответов больших языковых моделей и направлять запросы к наиболее подходящей модели, обеспечивая оптимальное соотношение стоимости и производительности.

Визуальный код: Новая веха в понимании графиков нейросетями

Бенчмарк RealChart2Code определяет три ключевые задачи: воспроизведение диаграмм - фундаментальная задача преобразования диаграммы в код, воспроизведение диаграмм с использованием предоставленных данных - усложнение, требующее обработки исходных файлов, и доработка диаграмм - задача, вводящая интерактивность, где модель должна отлаживать и модифицировать код на основе обратной связи от пользователя.

Исследователи представили RealChart2Code — масштабный набор данных и методику оценки, позволяющие проверить способность искусственного интеллекта интерпретировать сложные визуализации.

Искусственный интеллект проектирует белки: новый горизонт биоинженерии

Архитектура обратного сворачивания ESM-IF преобразует трехмерную структуру белка в соответствующую аминокислотную последовательность посредством кодирования структуры, обрабатывающего векторные и скалярные признаки, за которым следует декодирование последовательности с использованием архитектуры, основанной на трансформерах.

Обзор посвящен стремительному развитию генеративных моделей искусственного интеллекта в области проектирования белков и их применения для создания новых биомолекул.