Наука из первых рук: новый вызов для искусственного интеллекта

Автор: Денис Аветисян


Исследователи представляют масштабный набор данных, призванный улучшить способность ИИ рассуждать и синтезировать знания из научных публикаций.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Распределение вопросов по поддоменам в WildSci демонстрирует неоднородность тематического охвата, указывая на потенциальную предвзятость или пробелы в знаниях, отраженные в структуре данных.
Распределение вопросов по поддоменам в WildSci демонстрирует неоднородность тематического охвата, указывая на потенциальную предвзятость или пробелы в знаниях, отраженные в структуре данных.

Представлен WildSci — датасет из 56 тысяч вопросов, автоматически сгенерированных из рецензируемой научной литературы для обучения моделей с подкреплением.

Несмотря на значительный прогресс в области языковых моделей, их способность к логическому мышлению в сложных научных областях, таких как медицина и материаловедение, остается ограниченной из-за недостатка размеченных данных. В работе ‘WildSci: Advancing Scientific Reasoning from In-the-Wild Literature’ представлен новый датасет WildSci, состоящий из 56 тысяч вопросов по девяти научным дисциплинам, автоматически сгенерированных на основе рецензируемой литературы. Этот подход позволяет обучать модели с помощью обучения с подкреплением, повышая их эффективность в решении научных задач. Сможет ли WildSci стать основой для создания искусственного интеллекта, способного к настоящему научному познанию и открытиям?


Проблемы существующих научных бенчмарков

Существующие научные бенчмарки зачастую оказываются недостаточно глубокими и всесторонними для адекватной оценки способностей к научному мышлению. Вместо проверки понимания принципов и умения применять их в новых ситуациях, они склонны оценивать лишь способность к запоминанию фактов и воспроизведению информации. Такой подход не позволяет выявить истинный потенциал моделей искусственного интеллекта в решении сложных научных задач, ограничиваясь проверкой поверхностного знания. Модели, успешно справляющиеся с тестами, основанными на заучивании, могут потерпеть неудачу при столкновении с задачами, требующими логического анализа, построения гипотез и интерпретации данных, что подчеркивает необходимость разработки более сложных и требовательных бенчмарков, ориентированных на проверку глубины понимания, а не объема памяти.

Существующие наборы данных для оценки моделей искусственного интеллекта часто страдают от выраженной доменной специфичности, что существенно ограничивает их применимость к различным научным дисциплинам. Например, модель, обученная на данных из области молекулярной биологии, может демонстрировать неудовлетворительные результаты при решении задач в области астрофизики или геологии. Эта проблема возникает из-за того, что данные часто отражают узкоспециализированные термины, методы и контекст, не позволяя моделям обобщать знания и применять их к новым, незнакомым областям науки. В результате, оценки, полученные на этих наборах данных, могут быть вводящими в заблуждение, поскольку они не отражают истинную способность модели к научному мышлению и решению задач в широком контексте.

Существует острая необходимость в создании эталонного набора данных, способного оценивать возможности моделей в решении сложных, верифицируемых задач, основанных на подлинной научной литературе. Современные бенчмарки часто ограничиваются поверхностным анализом и распознаванием закономерностей, не требуя от моделей глубокого понимания научных принципов и способности к логическим выводам. Новый эталон должен представлять собой не просто набор вопросов с ответами, а сложный комплекс задач, требующих от модели извлечения информации из научных текстов, построения гипотез, анализа данных и проверки результатов на соответствие существующим научным знаниям. Такой подход позволит более точно оценить истинный потенциал моделей искусственного интеллекта в области науки и выявить их слабые места, способствуя развитию более интеллектуальных и надежных систем.

Обучение на MMLU-Pro демонстрирует устойчивое повышение точности в областях с высокой представленностью WildSci (химия, физика, инженерия), в то время как в областях с низкой представленностью (юриспруденция, история, философия) наблюдается более изменчивая производительность, что подтверждается средними значениями по трем запускам и отображено через стандартное отклонение.
Обучение на MMLU-Pro демонстрирует устойчивое повышение точности в областях с высокой представленностью WildSci (химия, физика, инженерия), в то время как в областях с низкой представленностью (юриспруденция, история, философия) наблюдается более изменчивая производительность, что подтверждается средними значениями по трем запускам и отображено через стандартное отклонение.

WildSci: Создание набора данных для научных открытий

Набор данных WildSci создан на основе автоматизированного конвейера, который генерирует 56 000 научных вопросов непосредственно из рецензируемых публикаций. Этот процесс обеспечивает подлинность и релевантность контента, поскольку вопросы формируются на основе фактических научных исследований, а не конструируются вручную или из общих источников знаний. Автоматизация позволяет обрабатывать значительный объем научной литературы, обеспечивая масштабность набора данных, и гарантирует, что вопросы отражают текущее состояние научных знаний, представленных в публикациях.

Набор данных WildSci использует вопросы с множественным выбором ответов (MCQ) и синтетические метки для обеспечения чётких сигналов обучения с подкреплением. Применение MCQ позволяет структурировать знания в формате, подходящем для автоматизированной оценки и обучения моделей. Синтетические метки, генерируемые автоматически на основе анализа научных статей, обеспечивают масштабную разметку данных, необходимую для обучения моделей без ручного вмешательства. Такой подход позволяет использовать алгоритмы обучения с подкреплением для развития навыков научного рассуждения и извлечения знаний из текстовых данных, предоставляя чёткие и однозначные сигналы вознаграждения для оптимизации моделей.

Набор данных WildSci включает вопросы, специфичные для различных научных областей, что способствует развитию надежных рассуждений и повышению обобщающей способности моделей. Обучение на подмножестве ‘All Aligned’ позволило модели Qwen2.5-1.5B-Instruct достичь точности в 80.48% при решении задач в данной области, начиная с исходного уровня 46.7%. Данный подход позволяет модели эффективно работать с научными текстами из различных дисциплин и демонстрирует значительное улучшение производительности за счет фокусировки на предметной области.

Обучение 3B модели на WildSci All Aligned демонстрирует устойчивую обобщающую способность на тестовых данных даже после переобучения на валидационном наборе.
Обучение 3B модели на WildSci All Aligned демонстрирует устойчивую обобщающую способность на тестовых данных даже после переобучения на валидационном наборе.

Обеспечение качества: Автоматизированный конвейер синтеза данных

В конвейере WildSci реализован надежный механизм контроля качества, основанный на голосовании ансамбля моделей больших языковых моделей (LLM) с открытым исходным кодом. Этот процесс предполагает, что несколько LLM независимо генерируют ответы или оценки, после чего выбирается наиболее согласованный результат. Использование ансамбля позволяет снизить влияние ошибок, свойственных отдельным моделям, и повысить общую надежность и точность синтезированных данных. Голосование осуществляется по различным параметрам, включая релевантность, ясность и возможность ответа на вопрос, что обеспечивает фильтрацию и уточнение результатов перед включением их в конечный набор данных.

Процесс фильтрации и уточнения генерируемых вопросов в WildSci направлен на обеспечение их четкости, возможности получения ответа и соответствия исходному материалу. Это достигается за счет многоступенчатой проверки, исключающей вопросы, которые являются двусмысленными, не имеют четкой формулировки или не могут быть отвечены на основе предоставленного контекста. В результате, формируется набор вопросов, которые максимально точно отражают содержание исходного материала и подходят для автоматизированной оценки и анализа.

Автоматизированный характер конвейера WildSci обеспечивает эффективное масштабирование и непрерывное улучшение набора данных. Подмножество ‘All Aligned’ демонстрирует высокую степень согласованности с моделями Gemini, достигая 95.0% и 96.0% согласия с моделями Flash и Pro соответственно. Это указывает на надежность и точность генерируемых данных, позволяя автоматизировать процесс создания больших, качественных наборов данных для обучения и оценки моделей искусственного интеллекта.

Процесс создания данных включает в себя фильтрацию на основе эвристических правил и последующую доработку, расширяющую варианты ответов и перефразирующую вопросы для повышения разнообразия.
Процесс создания данных включает в себя фильтрацию на основе эвристических правил и последующую доработку, расширяющую варианты ответов и перефразирующую вопросы для повышения разнообразия.

За пределами бенчмарков: Оценка и расширение возможностей рассуждений

Проект WildSci представляет собой расширение существующих отраслевых бенчмарков, таких как GPQA, SuperGPQA и MMLU-Pro, с целью обеспечения более всесторонней оценки способностей моделей к научному рассуждению. В отличие от традиционных подходов, фокусирующихся на ограниченном наборе задач, WildSci стремится охватить более широкий спектр научных дисциплин и типов вопросов, включая задачи, требующие не только извлечения информации, но и анализа, синтеза и экстраполяции знаний. Это позволяет более точно оценить, насколько хорошо модели способны применять научные принципы для решения новых и сложных проблем, выходящих за рамки простого воспроизведения заученных фактов. Такой подход открывает возможности для выявления слабых мест в текущих моделях и разработки более эффективных стратегий обучения, направленных на улучшение их способности к истинному научному мышлению.

Наблюдения показали, что современные модели машинного обучения демонстрируют явление, получившее название «пост-насыщенная обобщающая способность». Это означает, что даже после достижения пиковых показателей производительности на валидационных данных, модели продолжают улучшать свои результаты на задачах, относящихся к другим, ранее не встречавшимся областям знаний. Данный феномен указывает на то, что процесс обучения не ограничивается просто запоминанием информации, а способствует формированию более глубокого и гибкого понимания принципов, позволяющего успешно применять полученные знания в новых, незнакомых ситуациях. Иными словами, улучшение производительности не прекращается с достижением максимума на известных данных, а продолжается при столкновении с новыми, отличающимися задачами, что свидетельствует о потенциале моделей к настоящему обобщению знаний.

Для визуализации структуры вопросов и выявления областей, требующих доработки в наборах данных, применялись методы снижения размерности, в частности UMAP. Этот подход позволил более эффективно анализировать распределение вопросов и оптимизировать процесс обучения моделей. В результате, модель Qwen2.5-1.5B-Instruct, обученная на подмножестве ‘All Aligned’, продемонстрировала среднее увеличение точности на 7.26% при тестировании на наборах GPQA-Aug, SuperGPQA и MMLU-Pro, что свидетельствует о значительном улучшении способности к решению сложных научных задач благодаря применению указанных методов анализа данных и оптимизации процесса обучения.

Наблюдается тенденция к улучшению производительности как на валидационном, так и на OOD наборах данных.
Наблюдается тенденция к улучшению производительности как на валидационном, так и на OOD наборах данных.

RLVR: Параллель для обучения агентов научного мышления

Разработанная платформа WildSci специально ориентирована на обучение с подкреплением с верифицируемыми наградами (RLVR), что позволяет создавать агентов, способных к сложным научным рассуждениям. В отличие от традиционных подходов, WildSci акцентирует внимание на поощрении не только правильных ответов, но и логически обоснованных шагов, ведущих к решению. Это достигается благодаря структуре данных, позволяющей четко определить и оценить процесс рассуждений агента, а не только конечный результат. Таким образом, WildSci представляет собой инновационную среду для развития искусственного интеллекта, способного самостоятельно генерировать гипотезы, анализировать данные и открывать новые знания в различных областях науки.

Структура набора данных WildSci позволяет создавать функции вознаграждения, стимулирующие не только правильные ответы, но и логически обоснованный процесс их получения. В отличие от традиционных подходов, где вознаграждение выдается исключительно за конечный результат, здесь учитывается последовательность шагов, приводящих к решению. Это достигается за счет детальной разметки, позволяющей оценивать каждый этап рассуждений и назначать соответствующее вознаграждение. Такой механизм поощрения способствует обучению агентов, способных не просто угадывать правильные ответы, но и демонстрировать ясное и последовательное мышление, необходимое для проведения научных исследований и анализа данных. В результате, искусственный интеллект получает возможность не только решать задачи, но и объяснять ход своих мыслей, что повышает доверие к его результатам и открывает новые возможности для совместной работы с учеными.

Разрабатываемый подход открывает новые возможности для создания систем искусственного интеллекта, способных оказывать поддержку ученым в генерации гипотез, анализе данных и осуществлении научных открытий. Особенно перспективным представляется подмножество ‘All Aligned’, включающее 40,8% вопросов, требующих уровня экспертизы, сопоставимого с обучением в бакалавриате или магистратуре. Это указывает на потенциал системы не просто решать элементарные задачи, но и справляться со сложными научными проблемами, требующими глубокого понимания предметной области и критического мышления, что делает её ценным инструментом для продвижения научных исследований и автоматизации трудоемких процессов анализа.

Представленная работа демонстрирует стремление к созданию не просто набора данных, но полноценной экосистемы для развития научного мышления. WildSci, с её 56 тысячами вопросов, рожденных из академической литературы, — это попытка вырастить, а не построить, основу для обучения моделей. В этом контексте особенно примечательна мысль Эдсгера Дейкстры: «Программирование — это не столько техника, сколько искусство». Подобно тому, как архитектор предвидит будущие поломки в своей конструкции, создатели WildSci осознают, что сложность неизбежна. Искусственный интеллект, обученный на этом массиве данных, должен не просто отвечать на вопросы, но и демонстрировать гибкость, ведь, как известно, всё оптимизированное однажды теряет свою адаптивность. Идеальная архитектура, в данном случае, — это, конечно, миф, но миф, необходимый для поддержания здравомыслия в процессе разработки.

Что же дальше?

Представленный набор данных, WildSci, подобен семени, брошенному в плодородную почву. Он обещает вырастить системы, способные к более глубокому научному рассуждению, но не стоит заблуждаться, полагая, будто можно предсказать форму будущего дерева. Каждая зависимость, встроенная в алгоритмы, — это обещание, данное прошлому, а прошлое редко бывает пророком будущего. Очевидно, что простого увеличения масштаба данных недостаточно. Настоящий прогресс потребует отхода от линейных представлений о знаниях и признания их цикличности.

Всё, что построено, когда-нибудь начнёт само себя чинить — и это относится не только к ошибкам в коде, но и к фундаментальным предположениям, лежащим в основе научных моделей. Системы, способные к самокоррекции и адаптации к новым данным, — это не вопрос инженерного мастерства, а скорее вопрос времени. Контроль над этими системами — иллюзия, требующая соглашения об уровне обслуживания (SLA), и даже тогда, гарантий нет.

Следующий шаг, вероятно, лежит в области не просто обучения машин, а создания экосистем, в которых знания эволюционируют и мутируют, подобно живым организмам. Это потребует отхода от жестких архитектур и принятия непредсказуемости, свойственной настоящему научному исследованию. Попытки построить «идеальный» алгоритм обречены на провал. Следует стремиться к созданию систем, которые учатся у своих ошибок и адаптируются к меняющимся обстоятельствам, подобно природе.


Оригинал статьи: https://arxiv.org/pdf/2601.05567.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 16:58