Оттачивая язык машин: новый подход к обучению языковых моделей

Оценка лингвистической компетенции моделей «язык-к-языку» на наборе данных BLiMP, обученных на отдельных массивах токенов в 25 миллиардов, демонстрирует различия в их способности к пониманию и генерации лингвистически сложных конструкций.

Исследователи предлагают инновационный метод предварительного обучения, позволяющий языковым моделям лучше понимать и воспроизводить сложные грамматические конструкции.

Проверка на прочность: Как оценить качество тестов для больших языковых моделей

Существующие бенчмарки для больших языковых моделей страдают от непоследовательности ранжирования, низкой дискриминационной способности и наличия тестов, нарушающих ожидаемую иерархию возможностей, однако предложенный фреймворк Benchmark2 решает эти проблемы посредством трёх метрик: согласованности ранжирования между бенчмарками (CBRC), оценки дискриминационной способности (DS) и отклонения в согласовании возможностей (CAD).

Новая работа представляет комплексный подход к оценке и улучшению критериев, по которым проверяются возможности современных искусственных интеллектов.

Квантовый свет: Когда лазер перестает быть экспериментом

Квантовый свет: Когда лазер перестает быть экспериментом Парадоксально, но часто самые сложные вещи оказываются самыми простыми в теории. А вот реализовать эту простоту… это уже искусство. Представьте себе оркестр. Каждый музыкант – это отдельный оптический компонент. А теперь представьте, что все они собраны в один, идеально настроенный модуль. Это и есть то, чем занимается Monarch … Читать далее

Симфония Рассуждений: Управление Разнородными Моделями для Решения Сложных Задач

Система Atlas демонстрирует наивысшую точность при решении многомодальных задач, превосходя все базовые модели, включая подход, не использующий инструменты вовсе.

Новая архитектура позволяет динамически комбинировать различные языковые модели и инструменты, значительно повышая эффективность в широком спектре когнитивных задач.

Квантовое машинное обучение: новый взгляд на динамику открытых квантовых систем

Наблюдения за предсказанной диссипативной динамикой демонстрируют, что как конволюционные рекуррентные нейронные сети (CVNN), так и рекуррентные нейронные сети (RVNN) эффективно сохраняют траектории в моделях SB (при [latex]\epsilon/\Delta = 0.0[/latex], [latex]\gamma/\Delta = 9.0[/latex], [latex]\lambda/\Delta = 6.0[/latex], [latex]\beta\Delta = 1.0[/latex]) и комплексах FMO (4 сайта при [latex]\gamma = 250~\mathrm{cm}^{-1}[/latex], [latex]\lambda = 70~\mathrm{cm}^{-1}[/latex], [latex]T = 130~\mathrm{K}[/latex]; 7 сайтов при [latex]\gamma = 350~\mathrm{cm}^{-1}[/latex], [latex]\lambda = 70~\mathrm{cm}^{-1}[/latex], [latex]T = 30~\mathrm{K}[/latex]; и 8 сайтов при [latex]\gamma = 400~\mathrm{cm}^{-1}[/latex], [latex]\lambda = 250~\mathrm{cm}^{-1}[/latex], [latex]T = 30~\mathrm{K}[/latex]) даже при анализе траекторий, не использованных в процессе обучения.

Исследование демонстрирует, что использование комплексных нейронных сетей значительно повышает точность прогнозирования эволюции квантовых систем, подверженных диссипации.

Искусственный интеллект на службе науки: новые подходы к безопасности и надежности

Процесс генерации отчетов в системе O-Researcher предполагает декомпозицию исходного запроса на несколько подзапросов, которые обрабатываются параллельно различными агентами с использованием интегрированного инструментария, после чего полученные отчеты по подзапросам агрегируются сводным агентом для формирования итогового отчета, при этом все трассировки и отчеты по подзапросам конкатенируются и используются в качестве данных для контролируемого обучения системы по данному запросу.

В статье представлен обзор современных методов выравнивания больших языковых моделей, направленных на повышение их безопасности и управляемости в процессе исследования.

Искусственный интеллект на службе эпидемиологии: новая оценка возможностей

Распределение тем в наборах данных EpiQAL-A и EpiQAL-B демонстрирует различия в преобладающих дискурсивных областях, что указывает на потенциальные смещения или специфические акценты в каждом из корпусов.

Исследователи представили комплексный тест для проверки способности больших языковых моделей отвечать на вопросы, связанные с эпидемиологией, и анализировать данные о здоровье населения.