Искусственный интеллект проверяет знания: новый подход к оценке компетенций

Представлен фреймворк BloomQA, позволяющий автоматически создавать качественные и валидные тесты для оценки возможностей языковых моделей в практических областях.

Представлен фреймворк BloomQA, позволяющий автоматически создавать качественные и валидные тесты для оценки возможностей языковых моделей в практических областях.

Новая методика позволяет значительно повысить способность больших языковых моделей к математическому рассуждению, используя адаптивное обучение и перефразировку вопросов.
Новая платформа, основанная на агентном искусственном интеллекте, позволяет автоматизировать управление инженерными системами зданий и существенно снизить расходы на энергию.
![Изучение потребления видеопамяти [latex]VRAM[/latex] для модели Qwen3-32B демонстрирует, что добавление скрытых состояний к кешу [latex]KV[/latex] значительно увеличивает использование памяти по сравнению с использованием только кеша [latex]KV[/latex], что указывает на компромисс между вычислительной эффективностью и потреблением ресурсов.](https://arxiv.org/html/2601.20326v1/x1.png)
Новое исследование показывает, что кэш KV, традиционно применяемый для ускорения генерации текста, может быть перепрофилирован для задач самооценки и адаптивного рассуждения, открывая новые возможности для эффективного использования ресурсов.
Квантовый Переворот: От Теории к Реальности Вот парадокс: мы говорим о революционных технологиях, которые большинство людей даже не могут представить. Как объяснить квантовый мир, не усугубив непонимание? Это как пытаться описать цвет кому-то, кто никогда не видел света. Представьте себе, что вы пытаетесь настроить радио. Классический компьютер – это как поиск нужной станции, перебирая их … Читать далее

Разработчики представили DeepSeek-OCR 2 — систему, способную глубже анализировать визуальную информацию в документах, используя принципы причинно-следственного анализа.

В статье рассматриваются новые угрозы, связанные с использованием дипфейков против систем управления, основанных на искусственном интеллекте, и предлагается комплексный подход к обеспечению их безопасности.

Исследователи представили комплексный инструмент для оценки способности систем находить ошибки в научных публикациях и повышать качество автоматической проверки.
![Модель демонстрирует способность к генерации разнообразных будущих траекторий развития событий, направляемых текстовыми подсказками, охватывая как глобальные изменения окружающей среды ([latex]например, «зима», «пиксель-арт»[/latex]), так и точечные локальные вмешательства ([latex]например, «фейерверки», «рыбы[/latex]), при этом сохраняя физическую и временную согласованность.](https://arxiv.org/html/2601.20540v1/x13.png)
Исследователи представили LingBot-World — платформу, расширяющую возможности генерации видео и симуляций, способную к долгосрочному планированию и управлению действиями.

Новая система позволяет преобразовывать научные концепции в полные статьи, значительно ускоряя процесс исследований и открытий.