Искусственный интеллект в оценке здоровья: Скрытая предвзятость?

Автор: Денис Аветисян

Новое исследование показывает, что системы искусственного интеллекта, используемые для анализа медицинских тестов, склонны избегать крайних оценок, что может повлиять на точность диагностики.

Исследование различных подходов к оценке изображений теста на рисование часов показало, что, несмотря на более высокую абсолютную погрешность, мультимодальные языковые модели, такие как GPT-5, демонстрируют сопоставимую точность в пределах одного балла с моделями глубокого обучения, прошедшими тонкую настройку, что указывает на их способность генерировать близкие к истинным значениям оценки, даже если точная калибровка оставляет желать лучшего, и подчеркивает важность оценки моделей не только по абсолютной ошибке, но и по степени близости предсказаний к эталонным значениям.

Анализ работы больших языковых моделей в качестве экспертов при оценке клинических тестов выявил эффект центральной тенденции в оценке результатов, например, теста рисования часов.

Несмотря на растущий интерес к автоматизации клинических оценок с помощью больших языковых моделей (LLM), их склонность к систематическим ошибкам остается малоизученной. В работе ‘Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring’ исследуется поведение мультимодальных LLM при оценке тестов, таких как проба на рисование часов, и выявлен выраженный эффект центральной тенденции — систематическое избегание крайних значений шкалы. Это приводит к занижению оценок в нижней части шкалы и переоценке в верхней, что особенно критично для ранней диагностики когнитивных нарушений. Возможно ли разработать методы калибровки LLM, позволяющие минимизировать данную предвзятость и обеспечить надежность автоматизированных клинических оценок?

Вызов автоматизированной когнитивной оценки

Тест рисования часов (ТРЧ) является важным инструментом в нейропсихологической диагностике, позволяющим оценить когнитивные функции, такие как планирование, зрительно-пространственное восприятие и исполнительные навыки. Однако, традиционная методика оценки результатов ТРЧ требует значительных временных затрат от квалифицированного специалиста и подвержена влиянию субъективных факторов. Различные исследователи могут по-разному интерпретировать отдельные элементы рисунка, что приводит к несоответствиям в оценках и снижает надежность диагностики. Вследствие этого, потребность в объективной и стандартизированной системе оценки ТРЧ, минимизирующей влияние человеческого фактора, остается актуальной задачей современной нейропсихологии.

Традиционные методы автоматизированной оценки, такие как сверточные нейронные сети, зачастую оказываются неспособны уловить тонкости рассуждений, проявляющиеся в рисунке пациента. Хотя эти сети успешно распознают отдельные элементы и формы, им сложно интерпретировать последовательность действий, стратегию построения рисунка и ошибки, которые могут указывать на когнитивные нарушения. В отличие от человека, способного оценить не только внешний вид рисунка, но и процесс его создания, нейронные сети склонны к поверхностному анализу, что снижает точность диагностики и ограничивает их применение в качестве полноценной замены квалифицированному нейропсихологу. Таким образом, для достижения надежной и объективной автоматизированной оценки требуется разработка алгоритмов, способных моделировать когнитивные процессы, лежащие в основе выполнения задания.

Необходимость разработки надежной, объективной и масштабируемой системы оценки результатов теста «Рисунок часов» имеет решающее значение для повышения эффективности диагностики когнитивных нарушений. Традиционная ручная оценка подвержена субъективности и требует значительных временных затрат, что затрудняет проведение массовых скринингов и оперативное принятие клинических решений. Автоматизация процесса, основанная на четких алгоритмах и стандартизированных критериях, позволит не только повысить точность и воспроизводимость результатов, но и значительно ускорить процесс диагностики, особенно в условиях ограниченных ресурсов и растущей потребности в нейропсихологической оценке. Это, в свою очередь, может способствовать более раннему выявлению когнитивных нарушений, своевременному назначению терапии и улучшению качества жизни пациентов.

Анализ матриц ошибок показывает, что GPT-5 демонстрирует систематическое сжатие конечных точек, концентрируя ошибки вне диагонали в ячейках <span class="katex-eq" data-katex-display="false"> (0 \to 1) </span> и <span class="katex-eq" data-katex-display="false"> (5 \to 4) </span>, в то время как ViT-Ordinal показывает ошибки, сосредоточенные ближе к центру матрицы. — Анализ матриц ошибок показывает, что GPT-5 демонстрирует систематическое сжатие конечных точек, концентрируя ошибки вне диагонали в ячейках $(0 \to 1)$ и $(5 \to 4)$ , в то время как ViT-Ordinal показывает ошибки, сосредоточенные ближе к центру матрицы.

Использование силы мультимодальных LLM

Мультимодальные большие языковые модели (LLM) представляют собой новый подход к оценке теста «Рисунок часов» (CDT), имитируя целостный подход, используемый клиницистами. Традиционно, оценка CDT основывается на визуальном анализе рисунка с учетом таких параметров, как наличие всех цифр, правильность их последовательности, правильность изображения стрелок и замкнутость контура часов. Мультимодальные LLM способны одновременно обрабатывать как визуальную информацию (изображение рисунка), так и текстовые инструкции, позволяя им оценивать рисунок на соответствие этим клиническим критериям без непосредственного участия человека. Это достигается за счет интеграции возможностей компьютерного зрения и обработки естественного языка, что позволяет модели анализировать как геометрические аспекты рисунка, так и семантическую интерпретацию его элементов.

Современные большие языковые модели (LLM), такие как GPT-5, Gemini-2.5-Pro и Claude-4-Sonnet, демонстрируют способность к оценке рисунков на основе заранее определенных клинических критериев. Обучение моделей происходит посредством предоставления им наборов данных, включающих рисунки и соответствующие экспертные оценки, что позволяет им выявлять закономерности и корреляции между визуальными характеристиками рисунков и клиническими диагнозами. В процессе обучения модели адаптируют свои параметры для прогнозирования клинической оценки на основе анализа визуального контента рисунка, имитируя процесс анализа, выполняемый квалифицированным специалистом. При этом модели способны учитывать различные аспекты рисунка, такие как форма, размер, расположение элементов и их взаимосвязь, что позволяет им предоставлять более объективную и систематизированную оценку.

Эффективное внедрение мультимодальных LLM в оценку CDT требует разработки тщательно продуманных стратегий промптинга. Подходы zero-shot learning позволяют модели оценивать рисунки без предварительного обучения на примерах, опираясь исключительно на общее понимание клинических критериев, заданных в промпте. Более того, использование few-shot learning, включающее предоставление модели нескольких примеров рисунков с соответствующими оценками в промпте, значительно повышает точность и согласованность оценок. Важно отметить, что структура и содержание промпта, включая формулировку запроса и примеры, оказывают решающее влияние на результаты, требуя итеративного тестирования и оптимизации для достижения максимальной производительности модели.

Анализ матриц ошибок показывает, что все три языковые модели склонны к концентрации неправильных предсказаний в соседних категориях (<span class="katex-eq" data-katex-display="false">0 \to 1</span> и <span class="katex-eq" data-katex-display="false">5 \to 4</span>), причём эта тенденция наиболее выражена для Gemini 2.5 Pro, предсказывающего максимальный балл лишь в 3% случаев. — Анализ матриц ошибок показывает, что все три языковые модели склонны к концентрации неправильных предсказаний в соседних категориях ( $0 \to 1$ и $5 \to 4$ ), причём эта тенденция наиболее выражена для Gemini 2.5 Pro, предсказывающего максимальный балл лишь в 3% случаев.

Оценка производительности и выявление смещения

Для строгой оценки производительности разработанных систем оценки на основе больших языковых моделей (LLM) был использован Национальный опрос по вопросам здоровья и старения (NHATS) — крупное национальное лонгитюдное исследование. Данный набор данных обеспечивает обширную и репрезентативную выборку, необходимую для проведения надежного анализа и выявления потенциальных смещений в работе LLM-систем. Использование NHATS позволило провести объективную оценку точности и стабильности результатов, полученных с помощью LLM, в сравнении с существующими контролируемыми моделями.

Анализ данных, полученных в результате оценки, выявил систематический эффект центральной тенденции у LLM-моделей при оценке по шкале. Этот эффект проявляется в сжатии распределения оценок к середине шкалы, что приводит к высокой степени согласованности в пределах одного балла — 92%. Данный показатель сопоставим с результатами, достигнутыми лучшими моделями, обученными с учителем (ViT-Ordinal), что свидетельствует о конкурентоспособности LLM-моделей в плане общей согласованности оценок, несмотря на другие выявленные отклонения.

Несмотря на сопоставимую степень согласованности с лучшими контролируемыми моделями, LLM-системы показали среднюю абсолютную ошибку (MAE) в 0.67. Для сравнения, лучшая контролируемая модель (ViT-Ordinal) достигла MAE в 0.52. Это указывает на то, что, хотя LLM способны достаточно точно ранжировать ответы, абсолютные значения оценок, выдаваемые этими системами, имеют большую дисперсию по сравнению с результатами ViT-Ordinal, что свидетельствует о некоторой неточности в калибровке оценок LLM.

Предвзятость моделей, обусловленная особенностями процесса оценки и калибровкой, проявляется в низкой точности при оценке в 55 баллов — всего 22%. Это указывает на значимую тенденцию к занижению высоких оценок. Необходим тщательный анализ и разработка стратегий смягчения данной предвзятости, поскольку она может существенно влиять на интерпретацию результатов и справедливость оценки. Данный эффект требует особого внимания при использовании моделей для принятия решений, связанных с оценкой способностей или производительности.

Обученные с учителем модели демонстрируют высокую калибровку оценок, группируясь вокруг главной диагонали, в то время как оценки, выданные большими языковыми моделями, показывают менее выраженную зависимость и более размытое распределение.

Влияние на клиническую практику и будущие направления

Выявление систематической погрешности в оценках, выдаваемых большими языковыми моделями (LLM) при анализе когнитивных тестов, подчеркивает критическую важность непрерывного мониторинга и совершенствования подобных инструментов в клинической практике. Игнорирование этой тенденции к смещению результатов может привести к неверной диагностике и, как следствие, к неоптимальным схемам лечения. Поэтому необходим постоянный контроль за работой LLM, включающий регулярную проверку точности оценок на разнообразных группах пациентов и внесение корректировок в алгоритмы для минимизации предвзятости. Такой подход позволит максимально использовать потенциал автоматизированного анализа когнитивных функций, одновременно обеспечивая надежность и справедливость получаемых результатов для каждого пациента.

Несмотря на выявленные сложности и необходимость дальнейшей калибровки, автоматизированная оценка результатов когнитивного теста Clock Drawing Test (CDT) обладает значительным потенциалом для повышения эффективности диагностики и снижения затрат в здравоохранении. Автоматизация процесса позволяет сократить время, необходимое для анализа результатов, и уменьшить зависимость от субъективной оценки специалистов. Это особенно важно в условиях нехватки квалифицированного персонала и растущей нагрузки на систему здравоохранения. Внедрение подобных инструментов может способствовать более ранней диагностике когнитивных нарушений, что, в свою очередь, открывает возможности для своевременного вмешательства и улучшения качества жизни пациентов. Более того, снижение затрат на диагностику позволит расширить доступ к ней для большего числа людей, нуждающихся в ней.

Несмотря на то, что применение метода обучения с небольшим количеством примеров (few-shot prompting) позволило снизить среднюю абсолютную ошибку (MAE) на 17%, наблюдается устойчивый эффект центральной тенденции в оценках. Это означает, что языковая модель склонна смещать оценки в сторону среднего значения, недооценивая как выраженные когнитивные нарушения, так и незначительные отклонения. Данный эффект указывает на необходимость дальнейшей калибровки модели, направленной на повышение точности и чувствительности оценки когнитивных функций, чтобы избежать ложноотрицательных и ложноположительных результатов при диагностике.

Перспективные исследования должны быть направлены на разработку методов калибровки больших языковых моделей (LLM), чтобы повысить точность оценки когнитивных нарушений. Особое внимание следует уделить смягчению систематических искажений, которые могут приводить к занижению или переоценке степени когнитивных изменений у пациентов. Необходимо расширить возможности LLM в распознавании всего спектра когнитивных нарушений, включая как легкие, так и тяжелые формы, а также различные типы нарушений, чтобы обеспечить более дифференцированную и надежную диагностику. Дальнейшие усилия должны быть сосредоточены на создании алгоритмов, способных адаптироваться к индивидуальным особенностям пациентов и учитывать факторы, влияющие на когнитивные функции, такие как возраст, образование и сопутствующие заболевания. Это позволит существенно повысить клиническую ценность автоматизированных систем оценки когнитивных способностей и обеспечить более эффективную помощь пациентам.

Анализ матриц ошибок показывает, что использование подсказок few-shot значительно улучшает точность GPT-5 (<span class="katex-eq" data-katex-display="false">22\to 52</span>), однако сохраняется общая структура, характерная для всех моделей, в то время как деклинический запрос приводит к резкому снижению точности до нуля. — Анализ матриц ошибок показывает, что использование подсказок few-shot значительно улучшает точность GPT-5 ( $22\to 52$ ), однако сохраняется общая структура, характерная для всех моделей, в то время как деклинический запрос приводит к резкому снижению точности до нуля.

Исследование демонстрирует, что даже сложные системы, такие как большие языковые модели, подвержены систематическим искажениям при оценке клинических данных. Наблюдаемый эффект центральной тенденции — избегание крайних значений — указывает на необходимость тщательной калибровки и валидации подобных систем перед их применением в диагностике. Это напоминает о важности гармоничного сочетания точности и нюансов в любой оценке. Как однажды заметил Дэвид Марр: «Интеллект — это не волшебство, а умение извлекать из хаоса полезные закономерности». Подобно тому, как мозг структурирует информацию, так и искусственный интеллект должен стремиться к объективности, избегая упрощенных оценок и учитывая всю сложность клинических данных.

Куда Далее?

Представленная работа, выявив склонность больших языковых моделей к избеганию крайних значений при оценке клинических тестов, обнажает не элегантную, а скорее прагматичную проблему. Использование моделей в качестве судей — заманчивая перспектива, но эта склонность к центральной тенденции требует не просто калибровки, а глубокого переосмысления метрик оценки. Простая корректировка баллов — это лишь косметический ремонт, а не фундаментальная реконструкция.

Будущие исследования должны сосредоточиться не только на смягчении этого эффекта, но и на понимании его природы. Является ли это артефактом обучающих данных, или же это отражение внутренней логики модели, стремящейся к некоей «безопасности» в оценках? Поиск способов заставить модель осмеливаться на крайние, но обоснованные оценки, — вот где кроется истинный вызов.

В конечном счете, вопрос не в том, можем ли мы научить модель оценивать, а в том, как мы определяем “хорошую” оценку. Простота и удобство не должны затмевать потребность в точности и дифференцированности. Красота, в данном контексте, не в гладкости кривых, а в их способности отражать сложную реальность клинической картины.

Оригинал статьи: https://arxiv.org/pdf/2605.16386.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-19 21:29

🚀 Квантовые новости