Проверка на правдивость: новый стандарт оценки больших языковых моделей

Распределение категорий изображений и вопросов в мультимодальном бенчмарке FACTS демонстрирует разнообразие представленных данных и позволяет оценить сложность задач, решаемых системой при анализе мультимедийной информации.

Представлен комплексный набор тестов, позволяющий объективно оценить, насколько достоверную информацию генерируют современные языковые модели.

Наука из текста: извлечение знаний из научных публикаций

Система SciEx обрабатывает научные PDF-документы, извлекая текст, научные иллюстрации и изображения, структурируя данные в JSON и сохраняя их в контекстуализированной базе данных, после чего, на основе запроса исследователя или с использованием LLM, модуль REV итеративно извлекает, верифицирует и агрегирует информацию из нескольких источников, унифицируя терминологию и предоставляя структурированный JSON-ответ.

Новый подход позволяет автоматически извлекать структурированные данные из научных статей, преодолевая сложности работы с мультимодальными данными и сложными документами.

Проверка рассуждений: новый подход к оценке сложных логических цепочек

Различные парадигмы верификации демонстрируют, что простая констатация правильного ответа не гарантирует надёжности рассуждений, в то время как детальный анализ последовательности действий позволяет выявить скрытые логические зависимости и потенциальные ошибки, что особенно эффективно при использовании обобщённых обоснований.

В статье представлен инновационный метод верификации длинных цепочек рассуждений, использующий активное обучение и обучение с подкреплением для повышения точности и эффективности.

Математический интеллект: новый подход к сложным задачам

В предложенной архитектуре Intern-S1-MO, решение вопроса достигается посредством итеративного процесса, в котором агент рассуждения формулирует предположения, агент суммаризации компрессирует историю рассуждений в серию лемм, которые после проверки агентом верификации добавляются в память, а в финальной итерации решение дорабатывается на основе обратной связи от агента верификации до достижения валидации или исчерпания лимита итераций.

Исследователи представили систему, способную решать олимпиадные задачи по математике, преодолевая ограничения по длине контекста и демонстрируя впечатляющие результаты.

Искусственный интеллект и физика: неожиданное родство

Новое исследование устанавливает математическую связь между алгоритмами принятия решений в ИИ и фундаментальными принципами физики, открывая новые перспективы для понимания природы разума и агентности.

Роботы в виртуальной реальности: оценка стратегий управления с помощью видео

В ходе красной команды, предназначенной для выявления уязвимостей, обнаружены потенциально опасные поведенческие модели системы Gemini Robotics, успешно воспроизведенные как в симуляторе Veo(Robotics), так и в реальном мире, что подчеркивает необходимость тщательной проверки и доработки политик управления робототехническими системами.

Новое исследование демонстрирует, как видеомоделирование позволяет эффективно и масштабно оценивать поведение роботов в сложных сценариях.

Искусственный разум: когда разногласия делают нас сильнее

Изучение политических систем выявляет различия в идеологиях, определяющих конституционное правление между различными группами, и демонстрирует взаимосвязь между ценностями агентов и типами идеологических правил, формируя основу для понимания динамики власти и управления.

Новое исследование показывает, что сообщества искусственных агентов, придерживающихся разных ценностей, способны к более эффективному коллективному поведению и самоорганизации.