Искусственный интеллект на службе науки: Автоматизация оценки заявок на исследования

Автор: Денис Аветисян


Новое исследование показывает, как современные системы искусственного интеллекта могут эффективно оценивать научные проекты, приближаясь по точности к экспертам-людям.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В рамках исследования сравниваются два подхода к отбору предложений: индивидуальная оценка (IS), агрегирующая независимые оценки рецензентов для ранжирования, и попарное сравнение (PP), определяющее ранжирование на основе результатов сравнения всех пар предложений, при этом подход PP характеризуется квадратичным ростом нагрузки, но потенциально может быть обработан с использованием больших языковых моделей.
В рамках исследования сравниваются два подхода к отбору предложений: индивидуальная оценка (IS), агрегирующая независимые оценки рецензентов для ранжирования, и попарное сравнение (PP), определяющее ранжирование на основе результатов сравнения всех пар предложений, при этом подход PP характеризуется квадратичным ростом нагрузки, но потенциально может быть обработан с использованием больших языковых моделей.

Оценка эффективности больших языковых моделей в ранжировании научных предложений с использованием модели Брэдли-Терри и анализа сходства.

Оценка научных предложений для крупных исследовательских установок часто сопряжена с субъективностью и высокой трудоемкостью. В работе «LLMs Can Assist with Proposal Selection at Large User Facilities» исследуется возможность использования больших языковых моделей (LLM) для повышения эффективности и объективности отбора предложений. Показано, что LLM способны ранжировать научные предложения с сопоставимой точностью с экспертами-людьми, значительно снижая затраты и позволяя проводить количественную оценку схожести предложений. Открывает ли это путь к автоматизации и оптимизации процесса рецензирования в науке, и какие еще возможности для анализа данных можно реализовать с помощью LLM?


Загруженность экспертов: узкое место в выделении времени на установку

Источником спалляции нейтронов ежегодно поступает огромное количество заявок на проведение экспериментов, значительно превышающее возможности традиционной экспертизы, осуществляемой специалистами. Этот поток предложений создает серьезную нагрузку на систему оценки, требуя все больше времени и ресурсов для обеспечения тщательного анализа каждого проекта. В результате, возникают задержки в принятии решений и, как следствие, затрудняется эффективное использование уникального оборудования и времени, доступного для исследований. Подобная ситуация подчеркивает необходимость внедрения автоматизированных или полуавтоматизированных систем, способных обрабатывать большие объемы информации и оптимизировать процесс распределения времени на установке для обеспечения максимальной научной отдачи.

В настоящее время оценка предложений на использование источников нейтронов, таких как Spallation Neutron Source, осуществляется преимущественно посредством индивидуальной экспертизы. Этот подход, несмотря на свою устоявшуюся практику, характеризуется значительными временными и финансовыми затратами. Каждый эксперт тратит время на детальное изучение каждого предложения, что в условиях высокой конкуренции и большого числа заявок существенно замедляет процесс выделения времени на эксперименты. Более того, субъективность оценки, присущая человеческому фактору, неизбежно приводит к предвзятости, когда личные предпочтения или научные взгляды эксперта влияют на итоговую оценку, потенциально приводя к недооценке перспективных исследований и неоптимальному распределению ресурсов. Использование только индивидуальных оценок, без эффективных механизмов согласования между экспертами, усугубляет проблему, создавая риск несправедливого отбора и снижая общую эффективность процесса.

Недостаточная согласованность оценок предложений между рецензентами вызывает серьезные опасения относительно справедливости и эффективности распределения нейтронного времени. Исследования показывают, что разные эксперты могут существенно различаться в оценке одного и того же научного проекта, что приводит к субъективным решениям и потенциально блокирует финансирование действительно перспективных исследований. Эта непоследовательность не только ставит под сомнение объективность процесса, но и препятствует оптимальному использованию дорогостоящего оборудования, поскольку приоритет может отдаваться проектам, получившим высокие оценки от одних рецензентов, но игнорироваться другими. Повышение согласованности оценок является ключевой задачей для обеспечения прозрачности и максимизации научной отдачи от инвестиций в источники нейтронов.

Анализ предложений по использованию установок EQ-SANS, CNCS и POWGEN за последние годы показывает, что количество одобренных и опубликованных заявок коррелирует с развитием базы данных и оценкой предложений, по состоянию на 10 ноября 2025 года.
Анализ предложений по использованию установок EQ-SANS, CNCS и POWGEN за последние годы показывает, что количество одобренных и опубликованных заявок коррелирует с развитием базы данных и оценкой предложений, по состоянию на 10 ноября 2025 года.

Языковые модели на службе оценки предложений: новый подход

Предлагаемая система использует большие языковые модели (LLM) для автоматизированной оценки предложений, основанной на ключевых критериях: научной ценности, реализуемости и потенциальном влиянии. Оценка производится путем анализа текстового содержания предложений и сопоставления их с заданными параметрами каждого критерия. Система позволяет стандартизировать процесс оценки, снизить субъективность и повысить эффективность отбора наиболее перспективных исследовательских проектов. В рамках системы предполагается использование различных LLM, адаптированных для конкретных предметных областей, для повышения точности и релевантности оценки.

Для преобразования предложений в векторные представления используется метод LLM Embedding с применением модели $Qwen3-embedding-8b$. Данный процесс включает в себя кодирование текста предложений в числовые векторы, отражающие семантическое значение и взаимосвязи между словами. Модель $Qwen3-embedding-8b$ генерирует векторы фиксированной размерности, позволяя сравнивать предложения по степени их семантической близости. Полученные векторные представления служат основой для автоматизированного анализа и оценки предложений, учитывая контекст и значение содержащейся в них информации.

Автоматизированное сравнение предложений, основанное на векторных представлениях, позволяет эффективно выявлять наиболее перспективные направления исследований. Сравнительный анализ осуществляется путем вычисления метрик сходства между векторными эмбеддингами предложений, что позволяет ранжировать их по степени соответствия заданным критериям и приоритетам. Данный подход позволяет существенно сократить время, необходимое для оценки большого количества предложений, и повысить объективность процесса отбора, выявляя те, которые демонстрируют наибольшую научную ценность и потенциальное влияние, а также обладают высокой степенью реализуемости. Выявленные наиболее перспективные предложения могут быть далее рассмотрены экспертами для принятия окончательного решения о финансировании или реализации.

Оценка общей стоимости ранжирования предложений показывает, что использование парных предпочтений (PP) для LLM и как PP, так и индивидуальной оценки (IS) для людей позволяет снизить затраты по мере увеличения числа ранжируемых предложений.
Оценка общей стоимости ранжирования предложений показывает, что использование парных предпочтений (PP) для LLM и как PP, так и индивидуальной оценки (IS) для людей позволяет снизить затраты по мере увеличения числа ранжируемых предложений.

Парные предпочтения и автоматизированное ранжирование: взгляд на детали

Вместо оценки каждого предложения по отдельности, используется подход парных предпочтений. Суть заключается в том, что LLM последовательно предоставляются пары предложений, и модель должна вынести решение о том, какое из двух предпочтительнее. Этот метод позволяет избежать субъективности, связанной с абсолютной оценкой каждого варианта, и позволяет более точно определить относительный порядок предложений, основываясь на последовательных сравнениях. Каждое сравнение представляет собой бинарный выбор, что упрощает задачу для LLM и повышает надежность получаемых результатов.

В качестве движущей силы процесса принятия решений используется модель $Gemini-2.5-flash$, к которой осуществляется доступ через платформу $OpenRouter$. Эта модель обеспечивает оценку предложений посредством попарного сравнения, предоставляя основу для последующего ранжирования. $Gemini-2.5-flash$ была выбрана благодаря своей эффективности и способности к последовательной оценке альтернатив, что критически важно для обеспечения надежности и воспроизводимости результатов. Использование $OpenRouter$ обеспечивает удобный и масштабируемый доступ к данной модели, позволяя интегрировать её в автоматизированный процесс ранжирования.

Модель Брэдли-Терри — это статистический метод, используемый для оценки относительной привлекательности элементов на основе парных сравнений. В данном контексте, результаты каждого парного сравнения, выполненного большой языковой моделью, используются для оценки “силы” каждого предложения. Модель предполагает, что вероятность выбора одного предложения над другим зависит от разницы в их “силах”. На основе этих вероятностей, модель Брэдли-Терри итеративно оценивает “силу” каждого предложения, пока не будет получена согласованная шкала, позволяющая ранжировать все предложения по степени предпочтения. Фактически, модель преобразует матрицу парных сравнений в упорядоченный список, отражающий относительную привлекательность каждого предложения, основанную на данных, полученных от LLM.

Ранжирование предложений с использованием парных предпочтений (PP) позволяет оценить их качество, как показано на примере результатов для EQ-SANS 20B, где оценка основана на подсчете побед и поражений с использованием модели Брэдли-Терри (BT).
Ранжирование предложений с использованием парных предпочтений (PP) позволяет оценить их качество, как показано на примере результатов для EQ-SANS 20B, где оценка основана на подсчете побед и поражений с использованием модели Брэдли-Терри (BT).

Анализ затрат и выгод: перспективы внедрения и последствия

Тщательный экономический анализ показал, что использование больших языковых моделей (LLM) для предварительного отбора предложений может значительно снизить нагрузку на экспертов-людей. Автоматизация начального этапа оценки, традиционно требующего значительных временных затрат со стороны квалифицированных специалистов, позволяет перераспределить ресурсы на более сложные задачи, требующие критического мышления и экспертной оценки. Внедрение LLM не только оптимизирует процесс отбора, но и потенциально увеличивает количество рассматриваемых предложений без увеличения штата экспертов, что особенно актуально для крупных научно-исследовательских установок, таких как источник нейтронов на ускорителях, где ежегодно поступают сотни заявок на проведение экспериментов.

Исследования показали, что использование языковых моделей (LLM) для предварительной оценки предложений демонстрирует сопоставимую эффективность с оценкой, выполняемой экспертами-людьми. При этом, стоимость применения LLM-подхода оказывается значительно ниже — от 1 к 346 до 1 к 823 от стоимости оценки, осуществляемой человеком. Такое существенное снижение затрат открывает возможности для оптимизации рабочих процессов и более эффективного распределения ресурсов в научных учреждениях, позволяя обрабатывать большее количество заявок при сохранении высокого уровня качества отбора наиболее перспективных проектов.

Анализ корреляции между ранжированием предложений, выполненным языковой моделью, и оценками экспертов показал значительное совпадение. Коэффициент корреляции Спирмена, $ρ$, варьируется от 0.2 до 0.8, что свидетельствует о хорошем согласии между автоматизированным и человеческим анализом. Более высокие значения корреляции указывают на тесное соответствие в порядке приоритетности предложений, в то время как даже более низкие значения в пределах данного диапазона подтверждают способность модели выявлять наиболее перспективные проекты. Такое совпадение позволяет предположить, что предложенный подход может эффективно использоваться для предварительного отбора, снижая нагрузку на экспертов и оптимизируя распределение ресурсов в научных учреждениях.

Использование алгоритмов для предварительной оценки научных предложений позволяет существенно повысить эффективность работы крупных исследовательских установок, таких как источник нейтронов с ускорителем (Spallation Neutron Source). Приоритизируя наиболее перспективные проекты, система направляет ограниченные ресурсы — время работы установки, экспертные оценки — на исследования с наибольшей вероятностью получения значимых результатов. Такой подход не только оптимизирует использование дорогостоящего оборудования, но и способствует ускорению темпов научных открытий, позволяя ученым сосредоточиться на наиболее важных задачах и максимизировать научную отдачу от инвестиций в инфраструктуру.

Анализ сложности алгоритма, применяемого для оценки схожести научных предложений, выявил существенное преимущество предложенного подхода перед ручным анализом. В то время как человеческая оценка требует сравнения каждого предложения со всеми остальными, что приводит к квадратичной сложности — $O(n^2)$ — разработанный алгоритм обеспечивает линейную сложность — $O(n)$. Это означает, что время обработки увеличивается пропорционально количеству предложений, а не квадратично, что делает его значительно более эффективным при работе с большими объемами данных. Такая оптимизация позволяет существенно сократить время, необходимое для предварительного отбора наиболее перспективных проектов, и тем самым повысить общую производительность научных установок, таких как источник нейтронов на ускорителях.

Предложенный подход, основанный на использовании больших языковых моделей для предварительной оценки предложений, демонстрирует значительный потенциал для широкого спектра научных учреждений и организаций, финансирующих исследования. Оптимизация распределения ресурсов становится возможной благодаря автоматизированной сортировке и приоритизации заявок, что позволяет сконцентрировать усилия экспертов на наиболее перспективных проектах. Внедрение данной системы в работу крупных установок, таких как источники нейтронов, или фондов, выдающих гранты, способно существенно ускорить темпы научных открытий, повысив эффективность использования ограниченных ресурсов и обеспечив поддержку действительно инновационных исследований. Универсальность метода позволяет адаптировать его к различным областям науки и форматам предложений, открывая новые возможности для повышения прозрачности и объективности процесса отбора.

Анализ корреляции между ранжированием, выполненным человеком, и ранжированием, выполненным языковой моделью, показывает высокую степень согласованности в циклах EQ-SANS, CNCS и POWGEN, что подтверждается корреляцией Спирмена и стабильностью результатов при исключении выбросов.
Анализ корреляции между ранжированием, выполненным человеком, и ранжированием, выполненным языковой моделью, показывает высокую степень согласованности в циклах EQ-SANS, CNCS и POWGEN, что подтверждается корреляцией Спирмена и стабильностью результатов при исключении выбросов.

Статья предлагает взглянуть на оценку научных предложений под новым углом, используя большие языковые модели. Нельзя сказать, чтобы это было неожиданно — всё новое, как правило, является переосмыслением старого. Однако, идея автоматизации процесса, особенно с учётом возможности анализа схожести предложений, вызывает снисходительный интерес. Вспоминается, как раньше эксперты часами просматривали заявки, выискивая дубликаты вручную. Теперь же, алгоритм способен выполнить эту работу за считанные секунды. Как метко заметил Г.Х. Харди: «Математика — это искусство делать очевидные вещи сложным образом». В данном случае, сложность оценки научных работ перекладывается на плечи машины, что, в конечном счёте, выглядит вполне логичным шагом. И пусть «продукшен» всегда найдёт способ сломать элегантную теорию, но оптимизация процесса — это всегда хорошо.

Что дальше?

Попытка автоматизировать отбор предложений для крупных научных установок — это, конечно, заманчиво. Но не стоит обольщаться. Модель Брэдли-Терри, при всех её достоинствах, лишь формализует субъективность. Заменив человека на алгоритм, нельзя избавиться от предвзятости — можно лишь скрыть её под маской «нейтральности». И да, экономия на оплате труда рецензентов выглядит привлекательно, но не стоит забывать, что багтрекер — это, по сути, дневник боли, и боль эта никуда не денется. Она просто станет менее заметной, пока не вырвется наружу в виде непредсказуемых ошибок.

Автоматизированный анализ схожести предложений — полезная функция, безусловно. Но она лишь усугубляет проблему «эффекта пузыря», когда исследователи видят лишь то, что хотят видеть. Не стоит думать, что «красивая» модель — это «правильная» модель. Продакшен всегда найдёт способ сломать элегантную теорию. Более того, возникает вопрос: если мы можем автоматически определять схожесть предложений, то зачем вообще тратить время на их рассмотрение? Может, проще просто рандомизировать выборку?

Вместо того чтобы стремиться к полной автоматизации, стоит сосредоточиться на создании инструментов, которые помогут рецензентам работать эффективнее. А ещё нужно помнить, что у нас не DevOps-культура, у нас культ DevOops. Иначе все эти «инновации» превратятся в дорогостоящий и бесполезный техдолг. Мы не деплоим — мы отпускаем.


Оригинал статьи: https://arxiv.org/pdf/2512.10895.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-14 19:24