Время покажет: Новый тест для интеллектуального поиска
Исследователи представили TEMPO — сложный набор данных, позволяющий оценить, насколько хорошо системы поиска справляются с задачами, требующими понимания времени и логических рассуждений.
Исследователи представили TEMPO — сложный набор данных, позволяющий оценить, насколько хорошо системы поиска справляются с задачами, требующими понимания времени и логических рассуждений.

Новая архитектура OpenDecoder позволяет учитывать качество извлеченных документов при генерации текста, делая ответы искусственного интеллекта более точными и устойчивыми к шуму.

В статье представлен обзор современных подходов к моделированию сложных систем, основанных на сочетании методов снижения размерности и доменного разложения для повышения эффективности вычислений.
![В рамках предложенной структуры EvoFSM, исследовательский процесс формализуется как динамический конечный автомат, инициализируемый предыдущим опытом, а затем прецизионно оптимизируется посредством атомарных операций, воздействующих как на операторы навыков [latex]\mathcal{O}\_{skill}[/latex], так и на операторы потока [latex]\mathcal{O}\_{flow}[/latex] на основе обратной связи от критика, при этом успешные и неудачные траектории дистиллируются в опыт, обеспечивая непрерывное обучение и ускорение при решении новых задач.](https://arxiv.org/html/2601.09465v1/x2.png)
Представлена система, позволяющая агентам на основе больших языковых моделей самостоятельно развиваться и оптимизировать свои навыки для проведения более эффективных и глубоких исследований.

Исследователи разработали инновационный метод моделирования свойств квантовых спиновых цепей при низких температурах, позволяющий получить более точные результаты, чем ранее.
Новый подход позволяет Kubernetes более эффективно управлять задачами, интерпретируя естественный язык в инструкциях по планированию.

Исследователи представляют AI-NativeBench — комплексную платформу для глубокого анализа работы систем, управляемых большими языковыми моделями.

Исследователи предлагают усовершенствованный алгоритм CMA-ES, динамически адаптирующий время измерения для повышения эффективности оптимизации робототехнических систем в зашумленных средах.

Исследователи представили комплексную методику оценки способности больших языковых моделей к научному мышлению, основанному на извлечении и применении знаний из памяти.

Новая система DeepResearchEval позволяет комплексно оценивать качество и достоверность отчетов, созданных интеллектуальными агентами, расширяя возможности автоматизированного анализа данных.