Личность в диагнозе: о подводных камнях медицинских языковых моделей

Исследование показывает, что использование «личностей» в медицинских языковых моделях может улучшить результаты в одних сценариях, но и привести к непредсказуемым последствиям в других.
![Наблюдения производительности одноузловых вычислений оператора Вильсона-Дирака для решетки [latex]64 \times 16^3[/latex] на вычислительных системах JUWELS, Ookami и HAICGU позволяют оценить сравнительную эффективность различных архитектур при решении задач квантовой хромодинамики.](https://arxiv.org/html/2601.05816v1/figs/comparison.png)

![Исследование траекторий диалогового процесса для задачи контроля формальности речи демонстрирует, что модели SmolLM3-3B, Qwen3-4B и Gemma3-4B, при использовании 5-шаговой подсказки, показывают различную степень управляемости, при этом Qwen3-4B и Gemma3-4B проявляют наибольшую способность к контролю формальности ([latex]\delta = 0.05[/latex]) и соответствие запросам пользователя ([latex]cvg = 1.0[/latex], медианное [latex]MAE = 0.09[/latex]), в то время как абсолютная управляемость не достигнута ни одной из моделей в условиях нулевой подсказки.](https://arxiv.org/html/2601.05637v1/x2.png)




