Автор: Денис Аветисян
Исследователи представляют масштабный набор данных, призванный улучшить способность ИИ рассуждать и синтезировать знания из научных публикаций.

Представлен WildSci — датасет из 56 тысяч вопросов, автоматически сгенерированных из рецензируемой научной литературы для обучения моделей с подкреплением.
Несмотря на значительный прогресс в области языковых моделей, их способность к логическому мышлению в сложных научных областях, таких как медицина и материаловедение, остается ограниченной из-за недостатка размеченных данных. В работе ‘WildSci: Advancing Scientific Reasoning from In-the-Wild Literature’ представлен новый датасет WildSci, состоящий из 56 тысяч вопросов по девяти научным дисциплинам, автоматически сгенерированных на основе рецензируемой литературы. Этот подход позволяет обучать модели с помощью обучения с подкреплением, повышая их эффективность в решении научных задач. Сможет ли WildSci стать основой для создания искусственного интеллекта, способного к настоящему научному познанию и открытиям?
Проблемы существующих научных бенчмарков
Существующие научные бенчмарки зачастую оказываются недостаточно глубокими и всесторонними для адекватной оценки способностей к научному мышлению. Вместо проверки понимания принципов и умения применять их в новых ситуациях, они склонны оценивать лишь способность к запоминанию фактов и воспроизведению информации. Такой подход не позволяет выявить истинный потенциал моделей искусственного интеллекта в решении сложных научных задач, ограничиваясь проверкой поверхностного знания. Модели, успешно справляющиеся с тестами, основанными на заучивании, могут потерпеть неудачу при столкновении с задачами, требующими логического анализа, построения гипотез и интерпретации данных, что подчеркивает необходимость разработки более сложных и требовательных бенчмарков, ориентированных на проверку глубины понимания, а не объема памяти.
Существующие наборы данных для оценки моделей искусственного интеллекта часто страдают от выраженной доменной специфичности, что существенно ограничивает их применимость к различным научным дисциплинам. Например, модель, обученная на данных из области молекулярной биологии, может демонстрировать неудовлетворительные результаты при решении задач в области астрофизики или геологии. Эта проблема возникает из-за того, что данные часто отражают узкоспециализированные термины, методы и контекст, не позволяя моделям обобщать знания и применять их к новым, незнакомым областям науки. В результате, оценки, полученные на этих наборах данных, могут быть вводящими в заблуждение, поскольку они не отражают истинную способность модели к научному мышлению и решению задач в широком контексте.
Существует острая необходимость в создании эталонного набора данных, способного оценивать возможности моделей в решении сложных, верифицируемых задач, основанных на подлинной научной литературе. Современные бенчмарки часто ограничиваются поверхностным анализом и распознаванием закономерностей, не требуя от моделей глубокого понимания научных принципов и способности к логическим выводам. Новый эталон должен представлять собой не просто набор вопросов с ответами, а сложный комплекс задач, требующих от модели извлечения информации из научных текстов, построения гипотез, анализа данных и проверки результатов на соответствие существующим научным знаниям. Такой подход позволит более точно оценить истинный потенциал моделей искусственного интеллекта в области науки и выявить их слабые места, способствуя развитию более интеллектуальных и надежных систем.

WildSci: Создание набора данных для научных открытий
Набор данных WildSci создан на основе автоматизированного конвейера, который генерирует 56 000 научных вопросов непосредственно из рецензируемых публикаций. Этот процесс обеспечивает подлинность и релевантность контента, поскольку вопросы формируются на основе фактических научных исследований, а не конструируются вручную или из общих источников знаний. Автоматизация позволяет обрабатывать значительный объем научной литературы, обеспечивая масштабность набора данных, и гарантирует, что вопросы отражают текущее состояние научных знаний, представленных в публикациях.
Набор данных WildSci использует вопросы с множественным выбором ответов (MCQ) и синтетические метки для обеспечения чётких сигналов обучения с подкреплением. Применение MCQ позволяет структурировать знания в формате, подходящем для автоматизированной оценки и обучения моделей. Синтетические метки, генерируемые автоматически на основе анализа научных статей, обеспечивают масштабную разметку данных, необходимую для обучения моделей без ручного вмешательства. Такой подход позволяет использовать алгоритмы обучения с подкреплением для развития навыков научного рассуждения и извлечения знаний из текстовых данных, предоставляя чёткие и однозначные сигналы вознаграждения для оптимизации моделей.
Набор данных WildSci включает вопросы, специфичные для различных научных областей, что способствует развитию надежных рассуждений и повышению обобщающей способности моделей. Обучение на подмножестве ‘All Aligned’ позволило модели Qwen2.5-1.5B-Instruct достичь точности в 80.48% при решении задач в данной области, начиная с исходного уровня 46.7%. Данный подход позволяет модели эффективно работать с научными текстами из различных дисциплин и демонстрирует значительное улучшение производительности за счет фокусировки на предметной области.

Обеспечение качества: Автоматизированный конвейер синтеза данных
В конвейере WildSci реализован надежный механизм контроля качества, основанный на голосовании ансамбля моделей больших языковых моделей (LLM) с открытым исходным кодом. Этот процесс предполагает, что несколько LLM независимо генерируют ответы или оценки, после чего выбирается наиболее согласованный результат. Использование ансамбля позволяет снизить влияние ошибок, свойственных отдельным моделям, и повысить общую надежность и точность синтезированных данных. Голосование осуществляется по различным параметрам, включая релевантность, ясность и возможность ответа на вопрос, что обеспечивает фильтрацию и уточнение результатов перед включением их в конечный набор данных.
Процесс фильтрации и уточнения генерируемых вопросов в WildSci направлен на обеспечение их четкости, возможности получения ответа и соответствия исходному материалу. Это достигается за счет многоступенчатой проверки, исключающей вопросы, которые являются двусмысленными, не имеют четкой формулировки или не могут быть отвечены на основе предоставленного контекста. В результате, формируется набор вопросов, которые максимально точно отражают содержание исходного материала и подходят для автоматизированной оценки и анализа.
Автоматизированный характер конвейера WildSci обеспечивает эффективное масштабирование и непрерывное улучшение набора данных. Подмножество ‘All Aligned’ демонстрирует высокую степень согласованности с моделями Gemini, достигая 95.0% и 96.0% согласия с моделями Flash и Pro соответственно. Это указывает на надежность и точность генерируемых данных, позволяя автоматизировать процесс создания больших, качественных наборов данных для обучения и оценки моделей искусственного интеллекта.

За пределами бенчмарков: Оценка и расширение возможностей рассуждений
Проект WildSci представляет собой расширение существующих отраслевых бенчмарков, таких как GPQA, SuperGPQA и MMLU-Pro, с целью обеспечения более всесторонней оценки способностей моделей к научному рассуждению. В отличие от традиционных подходов, фокусирующихся на ограниченном наборе задач, WildSci стремится охватить более широкий спектр научных дисциплин и типов вопросов, включая задачи, требующие не только извлечения информации, но и анализа, синтеза и экстраполяции знаний. Это позволяет более точно оценить, насколько хорошо модели способны применять научные принципы для решения новых и сложных проблем, выходящих за рамки простого воспроизведения заученных фактов. Такой подход открывает возможности для выявления слабых мест в текущих моделях и разработки более эффективных стратегий обучения, направленных на улучшение их способности к истинному научному мышлению.
Наблюдения показали, что современные модели машинного обучения демонстрируют явление, получившее название «пост-насыщенная обобщающая способность». Это означает, что даже после достижения пиковых показателей производительности на валидационных данных, модели продолжают улучшать свои результаты на задачах, относящихся к другим, ранее не встречавшимся областям знаний. Данный феномен указывает на то, что процесс обучения не ограничивается просто запоминанием информации, а способствует формированию более глубокого и гибкого понимания принципов, позволяющего успешно применять полученные знания в новых, незнакомых ситуациях. Иными словами, улучшение производительности не прекращается с достижением максимума на известных данных, а продолжается при столкновении с новыми, отличающимися задачами, что свидетельствует о потенциале моделей к настоящему обобщению знаний.
Для визуализации структуры вопросов и выявления областей, требующих доработки в наборах данных, применялись методы снижения размерности, в частности UMAP. Этот подход позволил более эффективно анализировать распределение вопросов и оптимизировать процесс обучения моделей. В результате, модель Qwen2.5-1.5B-Instruct, обученная на подмножестве ‘All Aligned’, продемонстрировала среднее увеличение точности на 7.26% при тестировании на наборах GPQA-Aug, SuperGPQA и MMLU-Pro, что свидетельствует о значительном улучшении способности к решению сложных научных задач благодаря применению указанных методов анализа данных и оптимизации процесса обучения.

RLVR: Параллель для обучения агентов научного мышления
Разработанная платформа WildSci специально ориентирована на обучение с подкреплением с верифицируемыми наградами (RLVR), что позволяет создавать агентов, способных к сложным научным рассуждениям. В отличие от традиционных подходов, WildSci акцентирует внимание на поощрении не только правильных ответов, но и логически обоснованных шагов, ведущих к решению. Это достигается благодаря структуре данных, позволяющей четко определить и оценить процесс рассуждений агента, а не только конечный результат. Таким образом, WildSci представляет собой инновационную среду для развития искусственного интеллекта, способного самостоятельно генерировать гипотезы, анализировать данные и открывать новые знания в различных областях науки.
Структура набора данных WildSci позволяет создавать функции вознаграждения, стимулирующие не только правильные ответы, но и логически обоснованный процесс их получения. В отличие от традиционных подходов, где вознаграждение выдается исключительно за конечный результат, здесь учитывается последовательность шагов, приводящих к решению. Это достигается за счет детальной разметки, позволяющей оценивать каждый этап рассуждений и назначать соответствующее вознаграждение. Такой механизм поощрения способствует обучению агентов, способных не просто угадывать правильные ответы, но и демонстрировать ясное и последовательное мышление, необходимое для проведения научных исследований и анализа данных. В результате, искусственный интеллект получает возможность не только решать задачи, но и объяснять ход своих мыслей, что повышает доверие к его результатам и открывает новые возможности для совместной работы с учеными.
Разрабатываемый подход открывает новые возможности для создания систем искусственного интеллекта, способных оказывать поддержку ученым в генерации гипотез, анализе данных и осуществлении научных открытий. Особенно перспективным представляется подмножество ‘All Aligned’, включающее 40,8% вопросов, требующих уровня экспертизы, сопоставимого с обучением в бакалавриате или магистратуре. Это указывает на потенциал системы не просто решать элементарные задачи, но и справляться со сложными научными проблемами, требующими глубокого понимания предметной области и критического мышления, что делает её ценным инструментом для продвижения научных исследований и автоматизации трудоемких процессов анализа.
Представленная работа демонстрирует стремление к созданию не просто набора данных, но полноценной экосистемы для развития научного мышления. WildSci, с её 56 тысячами вопросов, рожденных из академической литературы, — это попытка вырастить, а не построить, основу для обучения моделей. В этом контексте особенно примечательна мысль Эдсгера Дейкстры: «Программирование — это не столько техника, сколько искусство». Подобно тому, как архитектор предвидит будущие поломки в своей конструкции, создатели WildSci осознают, что сложность неизбежна. Искусственный интеллект, обученный на этом массиве данных, должен не просто отвечать на вопросы, но и демонстрировать гибкость, ведь, как известно, всё оптимизированное однажды теряет свою адаптивность. Идеальная архитектура, в данном случае, — это, конечно, миф, но миф, необходимый для поддержания здравомыслия в процессе разработки.
Что же дальше?
Представленный набор данных, WildSci, подобен семени, брошенному в плодородную почву. Он обещает вырастить системы, способные к более глубокому научному рассуждению, но не стоит заблуждаться, полагая, будто можно предсказать форму будущего дерева. Каждая зависимость, встроенная в алгоритмы, — это обещание, данное прошлому, а прошлое редко бывает пророком будущего. Очевидно, что простого увеличения масштаба данных недостаточно. Настоящий прогресс потребует отхода от линейных представлений о знаниях и признания их цикличности.
Всё, что построено, когда-нибудь начнёт само себя чинить — и это относится не только к ошибкам в коде, но и к фундаментальным предположениям, лежащим в основе научных моделей. Системы, способные к самокоррекции и адаптации к новым данным, — это не вопрос инженерного мастерства, а скорее вопрос времени. Контроль над этими системами — иллюзия, требующая соглашения об уровне обслуживания (SLA), и даже тогда, гарантий нет.
Следующий шаг, вероятно, лежит в области не просто обучения машин, а создания экосистем, в которых знания эволюционируют и мутируют, подобно живым организмам. Это потребует отхода от жестких архитектур и принятия непредсказуемости, свойственной настоящему научному исследованию. Попытки построить «идеальный» алгоритм обречены на провал. Следует стремиться к созданию систем, которые учатся у своих ошибок и адаптируются к меняющимся обстоятельствам, подобно природе.
Оригинал статьи: https://arxiv.org/pdf/2601.05567.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Насколько важна полнота при оценке поиска?
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Оптический Искусственный Интеллект: Новый Взгляд на Энергоэффективность
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
2026-01-12 16:58