Рассуждения на разных языках: насколько хорошо это удается большим моделям?

Агрегированное косинусное сходство между скрытыми состояниями языков в многоязычной модели AIME и английским языком (в качестве эталона), усредненное по этапам рассуждений и слоям, демонстрирует, что языки с богатыми ресурсами проявляют более высокую степень сходства с английским, что указывает на тенденцию к сходимости к англоцентричному латентному пути рассуждений.

Новое исследование показывает, что способность больших языковых моделей к логическому мышлению на разных языках неоднородна и сильно зависит от языковых ресурсов.

Визуальный разум: Как искусственный интеллект преобразует мир в формальную логику

Эффективность автоматической формализации, продемонстрированная пятью репрезентативными моделями в математической и физической областях, оценивалась по точности компиляции и подтверждалась экспертной оценкой, выявляя различия в производительности между различными подходами.

Новая система MMFormalizer позволяет переводить изображения и текст в математически проверяемые утверждения, открывая путь к более надежному и прозрачному искусственному интеллекту.

Роботы учатся в процессе: новая система для непрерывного совершенствования навыков

Роботизированная система непрерывно накапливает опыт, взаимодействуя с разнообразными задачами, передаёт данные на центральный сервер и асинхронно получает обновлённые стратегии управления, что позволяет моделям VLA повышать эффективность выполнения каждой задачи, не теряя обобщающей способности.

Исследователи представили масштабируемую систему, позволяющую роботам улучшать свои способности к зрению, языку и действиям непосредственно в реальном мире, используя данные, собранные от целого флота роботов.

Разумные машины: кто несет ответственность?

Статья исследует, как развитие искусственного интеллекта и, в особенности, сверхинтеллекта, ставит под вопрос традиционные представления о правосубъектности и ответственности.

Экономичные нейросети: как снизить энергопотребление больших языковых моделей

Количество выходных токенов, время отклика и энергопотребление демонстрируют взаимосвязь, указывающую на то, что увеличение объема генерируемого текста неизбежно приводит к увеличению времени обработки и, как следствие, к более высокому энергопотреблению.

Новое исследование анализирует существующие методы оптимизации, позволяющие уменьшить затраты энергии при использовании больших языковых моделей в промышленных приложениях.

Считаем как люди: как большие языковые модели осваивают счет

В предложенной архитектуре большие языковые модели преодолевают ограничения на подсчет, разделяя сложные задачи на более мелкие подзадачи, в которых информация о количестве накапливается последовательно и локализуется в определенных токенах, а затем передается через остаточные связи и механизмы внимания для агрегации промежуточных результатов и получения окончательного ответа, что позволяет эффективно обрабатывать задачи, требующие длительного подсчета.

Новое исследование показывает, что крупные языковые модели способны к сложному счету, разбивая задачу на более простые шаги, подобно человеческому мышлению.