От одиночки к команде: как меняется наука и что это значит

В статье анализируется переход от индивидуальных научных исследований к масштабным командным проектам, и как это влияет на систему оценки и признания ученых.

Оттачивая мастерство: Как оценить способность языковых моделей к самосовершенствованию

Передовые языковые модели, такие как Claude-Sonnet-4, демонстрируют способность к самосовершенствованию на задачах вроде AIME-24, где они изначально показывают неплохие результаты, однако на насыщенных эталонах, вроде MATH-500, возможности для улучшения ограничены, а разработанный эталон RefineBench позволяет оценить истинный потенциал саморефлексии моделей, выявляя, что основная сложность при самокоррекции заключается в определении конкретных аспектов, требующих исправления, и предлагая систематический анализ этой способности посредством варьирования объема предоставляемых подсказок и обратной связи.

Новый бенчмарк RefineBench позволяет комплексно оценить, насколько хорошо большие языковые модели могут улучшать собственные ответы, опираясь на четкие критерии.

Иллюзии Разума: Как Мы Оцениваем Логику Искусственного Интеллекта

Новое исследование показывает, что наши оценки текстов, сгенерированных ИИ, сильно зависят от предвзятых представлений о его возможностях, даже когда речь идет об оценке логического мышления.

Разум и Действие: Новый Подход к Обучению Эмбиентных Агентов

Визуально-языковые модели демонстрируют развитые навыки рассуждения, однако испытывают трудности в выполнении действий, в то время как специализированные модели, ориентированные на действия, теряют общую способность к рассуждению; попытки восстановить навыки рассуждения посредством дополнительного обучения приводят к снижению эффективности выполнения действий, что указывает на проблему деградации навыков действия и ставит задачу создания модели, превосходной как в рассуждениях, так и в действиях.

Исследователи предлагают инновационную архитектуру DualVLA, направленную на повышение надежности и обобщающей способности роботов, способных понимать язык и выполнять действия в реальном мире.

Наука под кодом: Автоматизация анализа данных с помощью языковых моделей

Результаты анализа данных и визуализации, сгенерированные различными большими языковыми моделями - Devstral-24B, Magicoder-7B, Llama3-70B, Gemma3-27B и DeepSeek-R1-70B - демонстрируют влияние детализации запроса на качество полученных результатов.

Новое исследование демонстрирует, как современные языковые модели могут существенно упростить и ускорить процесс анализа научных данных, генерируя код для работы с ними.

Искусственный интеллект ставит диагноз: новая эра в стоматологии

Исследование представляет комплексный корпус данных, включающий восемь различных модальностей стоматологической визуализации, и демонстрирует эффективность предложенного подхода TRACE-CoT в повышении надёжности ответов больших мультимодальных моделей, что подтверждается структурой обучающего корпуса OralGPT-Omni и отражено в распределении различных модальностей визуализации.

Представлена модель OralGPT-Omni — многомодальный ИИ, способный анализировать рентгеновские снимки и проводить рассуждения, приближая будущее цифровой стоматологии.

Наука в эпоху больших моделей: новый виток развития

Наблюдается устойчивый рост вовлеченности научного сообщества в фундаментальные модели, причём наибольший интерес проявляется к их разработке и кастомизации, в то время как использование и цитирование, хотя и растут, остаются на втором плане, при этом наибольшее распространение наблюдается в областях, отличных от основных научных дисциплин.

В статье анализируется стремительный рост использования мощных моделей искусственного интеллекта в научных исследованиях и выявляются ключевые тенденции и проблемы, связанные с этой трансформацией.