Самообучающиеся агенты: как повысить надёжность ИИ-исследователей

Результаты тестирования модели DeepVerifier-8B на наборе данных GAIA демонстрируют масштабируемость процесса верификации и превосходство над другими открытыми моделями после десяти итераций верификации и обратной связи, что подтверждается анализом производительности на выборке из 165 примеров.

Новая методика позволяет автоматически оценивать и улучшать работу ИИ-агентов, проводящих научные исследования, выявляя ошибки и адаптируясь в процессе работы.

Лица сквозь призму моделей: оценка возможностей искусственного интеллекта

Многомодальные большие языковые модели (MLLM) демонстрируют возможность гетерогенного распознавания лиц, открывая новые перспективы в задачах, требующих анализа визуальной информации и лингвистического контекста.

Новое исследование оценивает, насколько хорошо современные мультимодальные модели справляются с распознаванием лиц в условиях различных спектральных искажений.

Искусственный разум: Нет доказательств самосознания в современных языковых моделях

По мере увеличения размера модели наблюдается закономерность: для вопросов, касающихся людей, более крупные модели увереннее приписывают им сознание, в то время как для вопросов о больших языковых моделях и о самой модели Qwen демонстрирует возрастающую уверенность в отрицании сознания, тогда как модели Llama показывают первоначальный рост уверенности при увеличении размера с 3B до 8B, после чего стабилизируются, что указывает на различные подходы к определению сознания в зависимости от объекта оценки и архитектуры модели.

Новое исследование ставит под сомнение способность больших языковых моделей сообщать о собственном самосознании и правдивости их ответов.

Герои романа: вычислительный анализ значимости персонажей

Сеть персонажей романа «Гордость и предубеждение» демонстрирует три различных способа визуализации связей между героями, позволяя проанализировать структуру взаимоотношений и выявить ключевые узлы влияния.

Новое исследование предлагает подход к определению ключевых персонажей в художественной литературе, выходящий за рамки простого подсчета взаимодействий.

Память как ключ к пониманию данных: новый подход к Text-to-SQL

Архитектура AgentSM использует траектории, хранящиеся в структурированной семантической памяти, для обеспечения функционирования системы.

Исследователи предлагают инновационную систему, использующую структурированную семантическую память для повышения эффективности и точности преобразования естественного языка в SQL-запросы.

Визуальное мышление: как научить ИИ планировать действия

Оценка прогресса выполнения задачи достигается посредством комбинированного подхода, включающего эпизодический поиск релевантных этапов демонстрации и последующее ментальное моделирование перехода от найденной точки к текущему состоянию, что позволяет получить точную и интерпретируемую оценку завершенности, превосходящую прямое предсказание по точности калибровки.

Новое исследование демонстрирует, что современные модели обработки изображений и языка испытывают трудности с планированием последовательности действий, но их можно значительно улучшить, вдохновившись принципами работы человеческого мозга.

Искусственный интеллект и аутизм: скрытые предубеждения

Экспериментальная методология предполагает модификацию поведения агентов, отобранных из начальной группы в двадцать пять, с последующим изучением четырех конкретных случаев и анализом диалога от начала беседы до финальных вопросов интервью, позволяя выявить закономерности в формировании стратегий взаимодействия.

Новое исследование выявило, как большие языковые модели могут неосознанно транслировать стереотипы об аутизме, акцентируя зависимость от нейротипичных людей.