Автоматический Доказатель Теорем: Новый Подход

Предлагается агент для доказательства теорем, функционирующий посредством итеративного уточнения доказательств: агент-предлагатель генерирует код Lean, который проверяется компилятором, а затем оценивается агентом-рецензентом для предотвращения ошибок; в случае неудачи, обратная связь направляется в модуль памяти для последующего уточнения, при этом агент может использовать инструменты поиска в библиотеках или в сети ограниченное число раз перед представлением предложения.

Исследователи представили AxProverBase — систему, демонстрирующую впечатляющие результаты в автоматическом доказательстве теорем благодаря итеративному улучшению и использованию возможностей больших языковых моделей.

Редактируем по пикселям: новый тест для искусственного интеллекта

Исследователи представили DLEBench — комплексную методику оценки способности моделей редактирования изображений к точной правке небольших объектов.

Искусственный интеллект у бара: когда разумные агенты начинают спорить

Анализ поведения агентов, выполненный методом k-means с [latex]n=154[/latex] экземплярами и [latex]k=3[/latex] кластерами (коэффициент силуэта - 0.458), выявил три отчетливые стратегии: оппортунистическую (48.1%, характеризующуюся очень высокой частотой запросов и вкладом в перегрузку), агрессивную (27.3%, с частыми запросами и умеренной эффективностью) и консервативную (24.7%, демонстрирующую значительное ограничение ресурсов - до 73.5 раундов), при этом агенты, демонстрирующие поведение, близкое к базовому уровню, в исследуемых популяциях больших языковых моделей не обнаружены.

Новое исследование показывает, что взаимодействие нескольких ИИ-агентов при распределении ресурсов может привести к неожиданным последствиям, включая усиление проблем с перегрузкой и снижение эффективности.

Моделирование работы больших языковых моделей: новый инструмент для оптимизации инфраструктуры

LLMServingSim 2.0 представляет собой комплексную платформу, предназначенную для моделирования и оптимизации процессов обслуживания больших языковых моделей.

Исследователи представили LLMServingSim 2.0 — симулятор, позволяющий анализировать взаимодействие разнородного оборудования и распределенной архитектуры при обслуживании крупных языковых моделей.

Искусственный интеллект на службе масс-спектрометрии: новый инструмент для оценки алгоритмов

Разработана гибкая платформа FlexMS, предназначенная для систематической оценки производительности моделей предсказания масс-спектров, которая, используя в качестве входных данных молекулы и связанные метаданные, генерирует молекулярные представления посредством различных методов феатуризации и встраивания, а затем применяет многослойные персептроны (MLP) для предсказания спектров с заданным разрешением, позволяя тем самым оценивать влияние различных гиперпараметров и сравнивать результаты в различных сценариях посредством всесторонних метрик.

Представлен FlexMS — гибкий фреймворк, позволяющий комплексно оценивать точность и эффективность алгоритмов предсказания масс-спектров на основе методов глубокого обучения.

Разум и язык: как большие модели связывают логику с генерацией текста

Новое исследование выявляет ключевые компоненты в многоязычных моделях, отвечающие за соединение скрытого логического мышления с формированием связных предложений на целевом языке.