Автор: Денис Аветисян
Исследователи продемонстрировали систему, способную выполнять сложный анализ томографических снимков мозга без предварительного обучения.

Многоагентные системы на основе больших языковых моделей показали превосходство над одноагентными подходами в задачах 3D-сегментации и оркестрации рабочих процессов нейрорадиологической визуализации.
Несмотря на впечатляющие успехи в области визуальных вопросов и ответов, современные большие языковые модели (LLM) испытывают трудности при непосредственном анализе трехмерных медицинских изображений, таких как КТ или МРТ. В работе ‘Agentic Large Language Models for Training-Free Neuro-Radiological Image Analysis’ представлен новый подход, использующий агентный искусственный интеллект для оркестровки специализированных инструментов и выполнения автоматизированного анализа МРТ головного мозга без необходимости обучения или тонкой настройки. Показано, что многоагентные системы, обменивающиеся контекстом, превосходят одиночные модели в решении сложных радиологических задач, включая сегментацию патологий и оценку динамики изменений во времени. Открывает ли это путь к созданию универсальных систем радиологической диагностики, способных самостоятельно выполнять сложные клинические протоколы?
Нейрорадиология в поисках автоматизации: преодоление узких мест
Современные нейрорадиологические рабочие процессы испытывают значительные трудности из-за большого объема ручных, отнимающих много времени задач. Это создает узкие места в диагностическом процессе, замедляя скорость получения результатов и увеличивая общие затраты на здравоохранение. Врачи вынуждены тратить значительное время на монотонный просмотр изображений, поиск и измерение структур, что снижает их производительность и увеличивает риск ошибок, связанных с усталостью. Автоматизация этих рутинных операций позволит высвободить ценное время врачей для более сложных случаев, требующих клинического суждения, и повысить эффективность всей системы здравоохранения. Сокращение времени диагностики также способствует более своевременному началу лечения, что особенно важно при острых неврологических состояниях.
Объемы данных, получаемых при магнитно-резонансной томографии головного мозга, неуклонно растут, создавая серьезные трудности для современной нейрорадиологии. Ручная обработка и анализ такого количества изображений требует огромных временных затрат и ресурсов, что ограничивает пропускную способность диагностики и повышает её стоимость. В связи с этим, возникает острая необходимость во внедрении масштабируемых автоматизированных систем, способных эффективно извлекать клинически значимую информацию из данных МРТ. Эти системы должны не только ускорить процесс анализа, но и повысить его точность и надежность, позволяя врачам сосредоточиться на принятии клинических решений, а не на рутинной обработке изображений. Автоматизация позволит оперативно выявлять даже незначительные изменения в структуре мозга, что критически важно для ранней диагностики и эффективного лечения различных неврологических заболеваний.
Существующие методы анализа нейровизуализации часто оказываются недостаточно адаптивными к изменяющимся клиническим задачам и новым протоколам сканирования. Традиционные пайплайны, как правило, жестко запрограммированы под конкретные вопросы и параметры получения данных, что требует значительных усилий и времени для их перенастройки при появлении новых клинических потребностей или обновлении оборудования. Это ограничивает возможность быстрого внедрения инновационных методов анализа и замедляет процесс получения диагностически значимой информации. Необходимость в гибких, параметризуемых и легко адаптируемых системах обработки изображений становится все более очевидной, поскольку современные протоколы визуализации постоянно эволюционируют, а спектр решаемых клинических задач расширяется.
Агентный подход: оркестровка инструментов с помощью больших языковых моделей
Представляем Агентную систему искусственного интеллекта (AI), разработанную для оркестровки специализированных инструментов в нейрорадиологии. Данная система функционирует без необходимости обучения, используя большие языковые модели (LLM) для координации работы отдельных компонентов. В отличие от традиционных подходов, требующих обширных наборов данных для обучения, эта система полагается на возможности LLM в понимании языка и логическом выводе для динамического управления инструментами анализа изображений и формирования заключений. Архитектура системы позволяет интегрировать и использовать существующие инструменты без модификации, повышая эффективность и снижая затраты на разработку.
Архитектура, основанная на множестве агентов, предполагает декомпозицию сложной задачи на ряд более простых, каждая из которых решается отдельным агентом, представляющим конкретную аналитическую способность. Такой подход обеспечивает модульность системы, позволяя легко добавлять, удалять или обновлять отдельные компоненты без влияния на всю структуру. Масштабируемость достигается за счет возможности параллельного выполнения задач различными агентами и динамического распределения ресурсов в зависимости от сложности запроса. Каждый агент, будучи специализированным, может быть обучен и оптимизирован для конкретной подзадачи, повышая общую эффективность и точность анализа.
Архитектура Оркестратора функционирует как центральный планировщик, распределяющий задачи между специализированными агентами-экспертами в зависимости от поставленного клинического вопроса. Реализация осуществляется посредством методов «Агенты как Инструменты» (Agents-as-Tools), позволяющих Оркестратору напрямую использовать возможности других агентов, и механизмов передачи задач (Handoffs), обеспечивающих плавную коммуникацию и последовательное выполнение анализа. Экспериментальные данные демонстрируют, что многоагентные системы, особенно использующие передачу задач, стабильно превосходят по эффективности как одноагентные решения, так и архитектуры, основанные исключительно на Оркестраторе.

Валидация конвейера: от МРТ к клиническим выводам
Для анализа 3D-изображений мозга используется комплексный конвейер, включающий в себя специализированные инструменты. Регистрация изображений осуществляется с помощью ANTSPy, что обеспечивает точное выравнивание данных. Удаление черепа (skull stripping) выполняет SynthStrip, выделяя интересующую область мозга. Сегментация, то есть разделение изображения на анатомические регионы, обеспечивается BraTS Orchestrator, а количественная оценка характеристик из сегментированных областей — PyRadiomics. В совокупности, эти инструменты позволяют автоматизировать процесс анализа и извлечения данных из 3D-изображений мозга.
Для количественного анализа была использована система SynthSeg, предназначенная для сегментации 32 анатомических областей головного мозга. Данный процесс позволяет выделить и очертить различные структуры, такие как гиппокамп, амигдала, кору больших полушарий и другие, предоставляя детальную структурную информацию. Результаты сегментации служат основой для последующего анализа объема, формы и других характеристик каждой анатомической области, что необходимо для выявления потенциальных изменений, связанных с патологиями или развитием заболеваний.
Для объективной оценки точности и надежности разработанного конвейера анализа МРТ головного мозга использовался датасет Brain MRI VQA. Оценка производительности проводилась с использованием метрик Tool-Call Fidelity и Output Quality. В ходе тестирования, в задаче 1, агенту потребовалось в среднем 2 действия для выполнения, в то время как для подхода “agents-as-tools” и оркестраторной архитектуры — 3.45 и 4.9 действия соответственно. При использовании GPT-5.1 в задаче 3 был достигнут практически идеальный показатель Inclusion Rate.
Преодолевая валидацию: обобщаемость и перспективы развития
Исследование продемонстрировало широкую применимость разработанной платформы, успешно протестированной с использованием различных крупных языковых моделей, включая GPT-5.1, Gemini 3 Pro и Claude Sonnet 4.5. Данный факт подтверждает, что предложенный подход не ограничен конкретной архитектурой или возможностями отдельной модели, а представляет собой гибкую основу для интеграции передовых достижений в области искусственного интеллекта. Способность системы эффективно функционировать с различными моделями указывает на её потенциал для адаптации к будущим инновациям и расширению спектра решаемых клинических задач, что делает её перспективным инструментом для автоматизации и улучшения процессов в здравоохранении.
Предлагаемый агентный подход представляет собой гибкую и адаптируемую платформу, позволяющую интегрировать новые инструменты и реагировать на изменяющиеся клинические потребности, отказываясь от жестких, заранее заданных последовательностей действий. В отличие от традиционных систем, где каждый шаг процесса фиксирован, данная архитектура позволяет агентам динамически выбирать и использовать доступные ресурсы, оптимизируя рабочий процесс в соответствии с конкретной задачей и данными пациента. Это открывает возможности для постоянного улучшения и расширения функциональности системы без необходимости полной переработки кода, что особенно важно в быстро развивающейся области медицины, где постоянно появляются новые технологии и протоколы. Возможность беспрепятственной интеграции новых инструментов и адаптации к меняющимся требованиям делает данную платформу перспективной основой для создания интеллектуальных систем поддержки принятия решений в здравоохранении.
Дальнейшие исследования направлены на расширение возможностей данной системы для поддержки более сложных клинических процессов и индивидуализации диагностики и планирования лечения. Анализ показал, что для выполнения задачи 2 одному агенту в среднем требовалось 5,28 действий, в то время как для задачи 3 — уже 11,85. Применение подхода, основанного на взаимодействии агентов как инструментов и передаче задач, а также использование центрального координатора, неизменно требовало большего количества действий. Это указывает на потенциал оптимизации системы за счет более эффективного распределения задач и специализации агентов, что позволит повысить скорость и точность принятия клинических решений.
Данная работа демонстрирует, что без четкого определения задачи, даже самые сложные системы искусственного интеллекта, подобные агентным большим языковым моделям, склонны к неоптимальным решениям. Авторы подчеркивают важность многоагентных архитектур, работающих в общей контекстной среде, для достижения превосходных результатов в анализе нейрорадиологических изображений. Как отмечал Дэвид Марр: «Вычислительная теория должна быть сформулирована на достаточно общем уровне, чтобы охватить широкий спектр явлений». Этот принцип применим и здесь: система, способная к оркестровке рабочих процессов и ответам на вопросы о 3D-сегментации мозга, должна базироваться на строгой логике и четко определенных целях, а не просто «работать» на тестовых данных.
Что дальше?
Представленная работа, безусловно, демонстрирует элегантность подхода, использующего большие языковые модели для анализа нейрорадиологических изображений без необходимости обучения. Однако, истинная проверка любого алгоритма заключается не в его способности успешно справляться с тестовым набором данных, а в его предсказуемости и устойчивости к непредсказуемым вариациям. Вопрос о том, насколько надежно данная система справляется с изображениями, полученными на различных аппаратах, с различным качеством и артефактами, остается открытым. Необходимо исследовать границы применимости этого подхода, выявляя случаи, в которых он даёт сбой, и анализируя причины этих сбоев.
Интересно, что многоагентная архитектура показала превосходство над одноагентной. Это заставляет задуматься о природе интеллекта и о том, насколько эффективным может быть распределённое решение задач. Однако, следует помнить, что увеличение числа агентов не всегда приводит к улучшению результата; возникает проблема координации и согласованности действий. Ключевым направлением исследований представляется разработка эффективных механизмов взаимодействия между агентами, обеспечивающих оптимальное использование их коллективного интеллекта.
В конечном счёте, успех данного подхода зависит не только от совершенства алгоритмов, но и от способности интегрировать его в существующие клинические рабочие процессы. Необходимо учитывать факторы, такие как удобство использования, скорость обработки данных и, что самое главное, доверие врачей к результатам анализа. Иначе говоря, необходимо доказать, что данный подход не просто работает, а действительно полезен для улучшения качества медицинской диагностики.
Оригинал статьи: https://arxiv.org/pdf/2604.16729.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Язык тела под присмотром ИИ: архитектура и гарантии
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- Квантовый импульс для несбалансированных данных
- Разбираемся с разреженными автокодировщиками: Действительно ли они учатся?
- Согласие роя: когда разум распределён, а ошибки прощены.
- Очарование в огненном вихре: Динамика очарованных кварков в столкновениях тяжелых ионов
- Умная экономия: Как сжать ИИ без потери качества
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Видеовопросы и память: Искусственный интеллект на грани
- Редактирование изображений по запросу: новый уровень точности
2026-04-21 14:33