Большие языковые модели: недостаточно хороши для работы в больнице?

Автор: Денис Аветисян


Новое исследование показывает, что универсальные языковые модели уступают специализированным в прогнозировании ключевых показателей эффективности работы больниц.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Вероятности прямой видимости связаны с внутрибольничной смертностью, что указывает на то, что снижение вероятности прямой видимости коррелирует с увеличением риска летального исхода, демонстрируя потенциальную взаимосвязь между видимостью и исходами лечения пациентов.
Вероятности прямой видимости связаны с внутрибольничной смертностью, что указывает на то, что снижение вероятности прямой видимости коррелирует с увеличением риска летального исхода, демонстрируя потенциальную взаимосвязь между видимостью и исходами лечения пациентов.

Специализированные модели, обученные на клинических данных, демонстрируют значительно более высокую точность в прогнозировании повторных госпитализаций и продолжительности пребывания в стационаре.

Несмотря на впечатляющие успехи в области обработки естественного языка, универсальные языковые модели часто оказываются недостаточно эффективными для решения специализированных задач в здравоохранении. В работе ‘Generalist Foundation Models Are Not Clinical Enough for Hospital Operations’ представлено исследование, демонстрирующее, что модели, предварительно обученные на большом объеме клинических данных и тонко настроенные для конкретных задач, значительно превосходят универсальные модели в прогнозировании ключевых показателей работы больниц, таких как повторные госпитализации и продолжительность пребывания. Разработанный авторами бенчмарк ReMedE подтверждает, что целенаправленное обучение на данных из электронных медицинских карт существенно повышает точность прогнозов. Возможно ли создание действительно интеллектуальных систем поддержки принятия решений в здравоохранении без учета специфики клинической практики и дообучения на локальных данных?


Основа прогностической точности: Стратегия предварительного обучения Lang1

Эффективная работа больниц все больше зависит от надежных прогностических моделей, способных оптимизировать процессы и улучшать качество обслуживания. Однако, создание таких моделей требует огромных объемов данных для обучения. Недостаток размеченных медицинских данных часто становится серьезным препятствием, поскольку ручная разметка занимает много времени и требует значительных ресурсов. Поэтому, для достижения высокой точности и надежности, модели нуждаются в обучении на обширных и разнообразных наборах данных, охватывающих широкий спектр клинических сценариев и пациентов. Способность эффективно собирать, обрабатывать и использовать эти данные является ключевым фактором успеха в современной цифровой медицине и позволяет создавать инструменты, способные реально улучшить повседневную практику здравоохранения.

Для преодоления нехватки данных, необходимой для обучения эффективных прогностических моделей в здравоохранении, Lang1 использует уникальную стратегию, объединяющую два ключевых источника. Модель обучается как на неструктурированных клинических данных из коллекции NYU Notes++, включающей обширные записи о пациентах, так и на широком спектре общедоступных данных из SlimPajama. Такое сочетание позволяет Lang1 получить доступ к огромному объему информации, охватывающей как специфические медицинские знания, так и общие лингвистические закономерности, что значительно повышает ее способность к адаптации и решению различных задач в области здравоохранения. Этот подход обеспечивает более полное понимание языка и контекста, что критически важно для точного прогнозирования и принятия обоснованных клинических решений.

Комбинация двух источников данных — неструктурированных клинических текстов из NYU Notes++ и обширных данных из SlimPajama — в процессе обучения модели Lang1, в сочетании с предсказанием следующего токена, создает прочную основу для адаптации к различным задачам. Такой подход позволяет модели эффективно усваивать как специализированные медицинские знания, представленные в клинических записях, так и общие языковые закономерности, полученные из веб-данных. Это, в свою очередь, значительно повышает ее способность к обобщению и успешному применению в решении широкого спектра практических задач, связанных с обработкой медицинской информации и прогнозированием в сфере здравоохранения. Полученная модель демонстрирует улучшенную производительность при адаптации к новым задачам, требующим как лингвистического понимания, так и специфических медицинских знаний.

Для создания модели, способной к переносу знаний между задачами, мы использовали смешанный корпус данных из медицинских записей и веб-текстов, предварительное обучение с предсказанием следующего токена, инструктивную тонкую настройку в формате множественного выбора и провели серию экспериментов для определения оптимальных параметров обучения.
Для создания модели, способной к переносу знаний между задачами, мы использовали смешанный корпус данных из медицинских записей и веб-текстов, предварительное обучение с предсказанием следующего токена, инструктивную тонкую настройку в формате множественного выбора и провели серию экспериментов для определения оптимальных параметров обучения.

Адаптация к клиническим задачам: Тонкая настройка и эффективность

Для адаптации к специфическим задачам медицинских учреждений, языковая модель Lang1 подвергается тонкой настройке (finetuning) на различных задачах классификации. Этот процесс включает в себя обучение модели на специализированных наборах данных, включающих, например, классификацию медицинских записей, определение типа заболевания по симптомам или категоризацию результатов лабораторных исследований. В процессе тонкой настройки изменяются веса предварительно обученной модели Lang1, оптимизируя ее производительность для конкретных клинических сценариев и повышая точность классификации по сравнению с базовыми моделями, не подвергавшимися такой адаптации.

Метод LoRA (Low-Rank Adaptation) позволяет эффективно адаптировать языковую модель Lang1 к конкретным клиническим задачам при ограниченных вычислительных ресурсах. В отличие от полной переподготовки модели, LoRA замораживает предобученные веса и обучает лишь небольшое количество дополнительных параметров, что значительно снижает потребность в памяти и вычислительной мощности. Это обеспечивает быструю адаптацию и развертывание модели в клинической практике без необходимости проведения дорогостоящего и длительного процесса полной переподготовки, сохраняя при этом высокую производительность и точность.

Адаптация Lang1 к различным клиническим задачам подтверждается результатами тестирования на бенчмарке ReMedE. Применение метода тонкой настройки позволило добиться прироста показателя AUROC (Area Under the Receiver Operating Characteristic curve) до 23.66% по сравнению с базовыми моделями. Данный результат демонстрирует эффективность Lang1 в решении задач классификации в медицинской сфере и возможность его применения для анализа разнообразных клинических данных, превосходя по точности существующие аналоги.

Дообучение модели FinetuningLang1-1B позволяет эффективно переносить навыки между задачами ReMedE, что подтверждается высокой производительностью на различных подмножествах и всех пяти задачах.
Дообучение модели FinetuningLang1-1B позволяет эффективно переносить навыки между задачами ReMedE, что подтверждается высокой производительностью на различных подмножествах и всех пяти задачах.

Проверка производительности: ReMedE и за его пределами

Возможности Lang1 были продемонстрированы посредством оценки производительности на пяти ключевых клинических задачах в рамках бенчмарка ReMedE. Эти задачи включают в себя прогнозирование повторной госпитализации, прогнозирование смертности в стационаре, прогнозирование продолжительности пребывания в стационаре, прогнозирование отказа в страховом покрытии и расчет индекса сопутствующих заболеваний Чарльсона. Оценка производительности на этих задачах позволила установить базовый уровень для сравнения с другими моделями и подтвердить способность Lang1 решать широкий спектр клинических задач.

Модель Lang1-1B демонстрирует выдающиеся результаты в задачах прогнозирования повторной госпитализации и смертности в рамках бенчмарка ReMedE. На задаче прогнозирования повторной госпитализации модель достигла значения AUROC в 82.5%, а на задаче прогнозирования смертности — 94.2%. Данные показатели являются наивысшими, зафиксированными на данный момент в рамках ReMedE, что подтверждает высокую эффективность Lang1-1B в решении данных клинических задач.

Модель Lang1-1B демонстрирует значительное улучшение производительности в задаче предсказания повторных госпитализаций по сравнению с моделью Llama-3.2-1B. В частности, значение AUROC (Area Under the Receiver Operating Characteristic curve) для Lang1-1B в этой задаче составляет 82.5%, что на 9.6% выше, чем у Llama-3.2-1B. Это увеличение AUROC свидетельствует о более высокой способности Lang1-1B правильно классифицировать пациентов с риском повторной госпитализации, что может быть критически важно для улучшения качества медицинской помощи и снижения затрат на здравоохранение.

Для подтверждения обобщающей способности и надежности модели Lang1-1B была проведена внешняя валидация на публично доступной базе данных MIMIC-III. Использование независимого набора данных позволило оценить производительность модели в условиях, отличных от тех, в которых она обучалась и тестировалась в рамках ReMedE. Результаты валидации на MIMIC-III подтвердили стабильность и применимость модели к новым, ранее не встречавшимся данным, что является важным критерием для ее внедрения в клиническую практику. Данный этап валидации подчеркивает способность модели обобщать знания и обеспечивать надежные прогнозы в различных медицинских учреждениях и с разными популяциями пациентов.

Дообучение на полном наборе данных NYU обеспечивает наилучшую производительность модели Llama-3.2-1B, несмотря на то, что задача повторной госпитализации NYU не является типичной для набора данных MIMIC.
Дообучение на полном наборе данных NYU обеспечивает наилучшую производительность модели Llama-3.2-1B, несмотря на то, что задача повторной госпитализации NYU не является типичной для набора данных MIMIC.

Решение реальных проблем: Временной сдвиг и надежность

В здравоохранении существенной проблемой является так называемый «сдвиг во времени» — постепенное изменение характеристик пациентов и клинической практики, которое может приводить к снижению точности работы моделей машинного обучения. Это происходит из-за того, что модели, обученные на данных прошлых периодов, могут оказаться неэффективными при анализе новых данных, отражающих текущие тенденции и особенности популяции. Например, изменения в протоколах диагностики или лечения, а также изменение демографического состава пациентов, могут существенно повлиять на результаты, предоставляемые моделью. Поэтому постоянный мониторинг и адаптация моделей к меняющимся условиям является критически важной задачей для обеспечения надежности и эффективности систем поддержки принятия решений в медицине.

Активно исследуется устойчивость модели Lang1 к изменениям, происходящим в реальной клинической практике и составах пациентов. Ученые стремятся обеспечить стабильную точность прогнозов Lang1 даже при смещении временных характеристик данных — когда популяция пациентов или протоколы лечения меняются со временем. Данное направление исследований включает в себя разработку и внедрение адаптивных алгоритмов, позволяющих модели автоматически корректироваться к новым условиям и поддерживать высокую производительность. Особое внимание уделяется способности Lang1 сохранять свою эффективность при появлении новых типов данных или изменений в способах их сбора, что критически важно для долгосрочной применимости и надежности системы в динамичной медицинской среде.

Для оценки и повышения надёжности вероятностных оценок, выдаваемых моделью Lang1, применяются методы калибровки. Эти техники позволяют установить соответствие между предсказанной моделью уверенностью и фактической точностью прогнозов. Неоткалиброванная модель может, например, выдавать высокую вероятность для неверных ответов, что подрывает доверие к её предсказаниям. Калибровка же обеспечивает, что предсказанная вероятность отражает истинную частоту правильных ответов, повышая уверенность пользователей в надёжности системы и позволяя более обоснованно полагаться на её выводы в клинической практике. Таким образом, калибровка является ключевым этапом в обеспечении надёжности и практической применимости Lang1.

Результаты моделирования показывают снижение производительности при проверке во времени и различную степень ухудшения при временном сдвиге данных.
Результаты моделирования показывают снижение производительности при проверке во времени и различную степень ухудшения при временном сдвиге данных.

Исследование, представленное в статье, подчеркивает важность специализированных моделей в предсказании ключевых показателей работы больницы. Общий подход, хоть и привлекателен своей универсальностью, зачастую уступает в точности решениям, адаптированным под конкретную задачу. Это напоминает слова Дональда Дэвиса: «Простота — высшая форма утонченности». В контексте машинного обучения, стремление к элегантности алгоритма, его математической чистоте и доказуемости, проявляется в создании специализированных моделей, чья эффективность подтверждается на конкретных данных, а не полагается на общую «работоспособность». Подобный подход позволяет добиться более надежных и предсказуемых результатов в критически важных областях, таких как прогнозирование повторной госпитализации и продолжительности пребывания в больнице.

Что дальше?

Представленные результаты, хотя и ожидаемы для тех, кто знаком с принципами построения корректных моделей, подчеркивают фундаментальную истину: универсальность — иллюзия. Стремление к созданию единой модели, решающей все задачи, подобно поиску вечного двигателя — заманчиво, но обречено на неудачу. Успех специализированных моделей, обученных на клинических данных, демонстрирует, что глубина понимания предметной области превосходит широту охвата. Недостаточно просто «понимать» язык; необходимо понимать контекст, а контекст в медицине, как известно, требует точности.

Однако, стоит признать, что данное исследование лишь указывает направление дальнейших поисков. Проблема заключается не только в выборе архитектуры модели, но и в создании адекватных, непредвзятых наборов данных. Искусственное увеличение датасетов, как правило, лишь маскирует существующие недостатки, а не решает их. Необходимо разрабатывать методы, позволяющие оценивать достоверность и репрезентативность данных, а также выявлять и устранять систематические ошибки.

В перспективе, следует ожидать появления моделей, сочетающих в себе преимущества как специализированных, так и универсальных подходов. Возможно, это будут гибридные системы, использующие универсальные модели для извлечения общих знаний и специализированные модели для решения конкретных задач. Но в любом случае, отправной точкой должен быть не поиск компромисса, а стремление к математической чистоте и логической завершённости. Иначе, все усилия будут тщетны.


Оригинал статьи: https://arxiv.org/pdf/2511.13703.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-24 01:03