За гранью ImageNet: Новый горизонт для машинного обучения в экологии

Автор: Денис Аветисян


Исследователи представляют BioBench — комплексный набор данных, призванный оценить эффективность алгоритмов машинного обучения в реальных экологических задачах и выявить несоответствие между результатами на ImageNet и практической применимостью.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Большинство новых моделей демонстрируют стагнацию в улучшении показателей на BioBench, что указывает на необходимость переосмысления подходов к разработке и оценке биомедицинских систем искусственного интеллекта.
Большинство новых моделей демонстрируют стагнацию в улучшении показателей на BioBench, что указывает на необходимость переосмысления подходов к разработке и оценке биомедицинских систем искусственного интеллекта.

Представленный BioBench демонстрирует, что производительность на ImageNet является плохим предиктором успеха в задачах экологического машинного обучения, подчеркивая необходимость доменно-специфической оценки и решения проблем смещения распределений.

Несмотря на широкое распространение, точность линейной пробы ImageNet как показателя качества визуальных представлений все чаще не коррелирует с производительностью моделей в задачах, связанных с анализом научной визуальной информации. В данной работе, ‘BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks’, представлен BioBench — новый открытый бенчмарк для задач компьютерного зрения в экологии, объединяющий 9 прикладных задач, охватывающих 4 таксономических царства и 6 модальностей получения изображений. Полученные результаты демонстрируют, что BioBench предоставляет более информативный сигнал для оценки моделей компьютерного зрения в экологических приложениях, чем традиционные бенчмарки, и предлагает шаблон для создания надежных бенчмарков в любой научной области. Сможем ли мы, используя доменно-специфичные бенчмарки, значительно ускорить развитие искусственного интеллекта для решения сложных научных задач?


За гранью ImageNet: Необходимость экологичных эталонов компьютерного зрения

Современные эталоны компьютерного зрения, такие как ImageNet-1K, оказываются недостаточными для оценки эффективности систем при решении задач в реальных экологических условиях. Исследования показывают, что высокая производительность на ImageNet-1K не гарантирует надежной обобщающей способности при анализе данных, полученных в полевых условиях или при мониторинге дикой природы. Эта несоответствие возникает из-за значительных различий в распределении данных: ImageNet-1K фокусируется на хорошо структурированных изображениях распространенных объектов, в то время как экологические данные характеризуются длинными хвостами распределений, большим количеством редких видов и значительными изменениями в условиях освещения и перспективы. В результате, модели, обученные на ImageNet-1K, часто демонстрируют неудовлетворительные результаты при работе с реальными экологическими данными, что подрывает доверие к автоматизированным системам анализа и мониторинга.

Существующие универсальные эталоны оценки компьютерного зрения, такие как VTAB и Taskonomy, демонстрируют ограниченную эффективность при работе с экологическими данными. Эти эталоны, разработанные для широкого спектра задач, не учитывают специфические особенности природных изображений — их сложность, разнообразие и неравномерное распределение классов. В результате, модели, успешно прошедшие тестирование на VTAB или Taskonomy, могут показывать значительно худшие результаты при анализе реальных экологических изображений, например, при мониторинге популяций животных или оценке состояния растительности. Отсутствие акцента на уникальных характеристиках экологических данных снижает применимость этих универсальных эталонов и подчеркивает необходимость создания специализированных инструментов оценки, способных адекватно отражать сложность и динамику природных систем.

Исследования показывают, что существующие наборы данных для оценки компьютерного зрения, такие как ImageNet-1K, демонстрируют низкую корреляцию с производительностью систем в реальных экологических задачах — всего 34% объясняется вариативностью этих наборов данных. Это обусловлено спецификой экологических данных, характеризующихся неравномерным распределением классов — так называемым “длинным хвостом”, где редкие виды и явления значительно преобладают над распространенными. Кроме того, наблюдается существенный сдвиг домена, когда условия съемки и характеристики изображений в лабораторных условиях резко отличаются от реальных полевых данных. В связи с этим, для адекватной оценки и развития систем компьютерного зрения, предназначенных для анализа экологической информации, необходим специализированный эталонный набор данных, учитывающий особенности распределения классов и доменные различия, позволяющий достоверно оценивать способность моделей к обобщению и адаптации к реальным условиям.

Изображения из BioBench демонстрируют значительно отличающиеся распределения данных по сравнению с общепринятыми наборами данных компьютерного зрения, такими как ImageNet-1K, MSCOCO и ADE20K.
Изображения из BioBench демонстрируют значительно отличающиеся распределения данных по сравнению с общепринятыми наборами данных компьютерного зрения, такими как ImageNet-1K, MSCOCO и ADE20K.

BioBench: Новый эталон для экологичного компьютерного зрения

BioBench — это новый комплексный эталон, разработанный специально для оценки моделей компьютерного зрения в задачах, связанных с экологическим видением. В отличие от существующих эталонов, ориентированных на общие задачи компьютерного зрения, BioBench направлен на специфические проблемы, возникающие при анализе изображений, полученных в естественной среде, таких как идентификация видов растений и животных, мониторинг биоразнообразия и оценка состояния экосистем. Эталон позволяет проводить объективную оценку эффективности алгоритмов в решении реальных экологических задач и способствует развитию более точных и надежных систем анализа изображений для использования в природоохранной деятельности и научных исследованиях.

В состав BioBench входят такие наборы данных, как iNaturalist, Pl@ntNet и WILDS, что обеспечивает разнообразие экологических сценариев для оценки моделей компьютерного зрения. iNaturalist содержит изображения, собранные гражданами-учеными, охватывающие широкий спектр видов и местообитаний. Pl@ntNet специализируется на идентификации растений по изображениям листьев, цветков и других частей. WILDS представляет собой набор данных для обучения в условиях смещения доменов, включающий различные экологические области. Общее количество изображений в BioBench составляет 3.1 миллиона, что позволяет проводить статистически значимые оценки производительности моделей.

Конструкция BioBench специально разработана для решения проблем, связанных с несбалансированностью классов (long-tailed distributions) и смещением домена (domain shift), типичных для экологических данных. Несбалансированность классов проявляется в том, что некоторые виды растений или животных представлены в данных значительно чаще, чем другие, что затрудняет обучение моделей для идентификации редких видов. Смещение домена возникает из-за различий в условиях съемки (освещение, угол обзора, качество изображения) между различными наборами данных и реальными экологическими условиями. BioBench использует стратегии, такие как взвешивание классов и адаптация к домену, для повышения надежности и обобщающей способности моделей компьютерного зрения в сложных экологических сценариях.

Оценка качества представлений с помощью BioBench

В BioBench в качестве основной метрики оценки используется Macro-F1, что обеспечивает равный вес для каждого вида, независимо от количества доступных обучающих примеров. В отличие от обычной точности (accuracy) или взвешенной точности (weighted accuracy), Macro-F1 вычисляет F1-меру для каждого класса (вида) отдельно, а затем усредняет эти значения. Такой подход предотвращает смещение в оценке, которое может возникнуть, если доминирующие виды с большим количеством примеров оказывают непропорционально большое влияние на общую метрику. Это особенно важно для оценки моделей, предназначенных для работы с несбалансированными наборами данных, характерными для биоразнообразия, где некоторые виды представлены значительно реже других. Использование Macro-F1 позволяет более справедливо оценить способность модели обобщать знания на все виды, включая те, для которых доступно ограниченное количество данных.

Модели, предварительно обученные с использованием подхода Image-Text Pre-training, например, CLIP, демонстрируют перспективные результаты на BioBench. Это указывает на эффективность данного подхода к обучению, позволяющего получать полезные представления изображений, применимые к задачам биологической классификации. Высокие показатели на BioBench подтверждают, что совместное обучение на изображениях и текстовых описаниях способствует формированию обобщенных признаков, которые могут быть успешно использованы для анализа биологических изображений, даже при ограниченном количестве обучающих данных для конкретных видов.

Анализ с использованием линейного зонда позволяет оценить качество изученных представлений, полученных в результате предварительного обучения, и сравнить различные стратегии и архитектуры предварительного обучения. Корреляция рангов Спирмена между результатами на ImageNet-1K и BioBench составляет всего 0.55, что указывает на ограниченную переносимость знаний, полученных на ImageNet-1K, в домен биологических изображений и необходимость специализированного предварительного обучения или тонкой настройки для достижения высокой производительности на BioBench. Данный показатель демонстрирует, что успешность на ImageNet-1K не всегда гарантирует аналогичные результаты при решении задач, связанных с биологическими изображениями.

SigLIP: Передовые результаты и направления развития

В настоящее время модель SigLIP демонстрирует передовые результаты на наборе данных BioBench, что подтверждает перспективность использования современных архитектур для задач экологического зрения. Данное достижение указывает на способность SigLIP эффективно анализировать и интерпретировать изображения, связанные с биологическим разнообразием и природными ландшафтами. Успех модели заключается в ее способности извлекать сложные признаки из изображений, что позволяет ей превосходить другие системы в задачах, требующих глубокого понимания экологического контекста. Это открывает новые возможности для автоматизированного мониторинга экосистем, идентификации видов и решения других важных задач в области охраны окружающей среды и биологических исследований.

Исследование коэффициента ранговой корреляции Спирмена подтверждает, что бенчмарк BioBench является более надежным индикатором производительности моделей в задачах, связанных с экологией, чем общепринятый ImageNet-1K, демонстрируя корреляцию в $0.55$. Примечательно, что для моделей, достигших точности более $75\%$ на ImageNet-1K, эта корреляция снижается до $0.42$. Это указывает на то, что высокие результаты на ImageNet-1K не гарантируют аналогичного успеха в специализированных экологических задачах, подчеркивая необходимость разработки и использования бенчмарков, адаптированных к конкретным областям применения, для более точной оценки реальной производительности моделей.

Исследования показали, что модели, демонстрирующие наилучшие результаты на общепринятом наборе данных ImageNet, примерно в тридцати процентах случаев уступают по производительности на BioBench — специализированном наборе данных для оценки экологического зрения. Данный факт подчеркивает ограниченность использования универсальных бенчмарков для оценки эффективности моделей в узкоспециализированных областях, таких как экология и биология. Успех BioBench в выявлении сильных и слабых сторон моделей в контексте экологических задач подтверждает необходимость разработки и использования специализированных наборов данных, учитывающих уникальные сложности и особенности различных предметных областей, что позволит более точно оценивать и улучшать производительность моделей в конкретных приложениях.

В очередной раз наблюдается закономерность: блестящая теория, великолепно работающая на тщательно отобранных данных, разбивается о суровую реальность. BioBench наглядно демонстрирует, что ImageNet, этот «золотой стандарт», оказывается бесполезен применительно к экологическим задачам. Это как построить идеальный двигатель для гонок, а потом попытаться применить его к трактору. Как метко заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть полезен людям, а не просто впечатлять». Иначе получается очередная красивая обёртка, внутри которой — пустота. Расхождения в распределении данных — это, конечно, проблема, но куда важнее — признать, что «cloud-native» решения не панацея, а всего лишь способ усложнить и подорожать уже существующие проблемы. Остаётся надеяться, что в следующий раз перед созданием очередного «революционного» бенчмарка, разработчики задумаются о том, где он будет реально применяться.

Куда же дальше?

Представленная работа, как и следовало ожидать, лишь констатирует очевидное: архитектура, великолепно работающая на искусственно сгенерированных наборах данных, неизбежно спотыкается о реальность. BioBench, выявляя расхождение между успехом на ImageNet и эффективностью в задачах экологического зрения, не столько предлагает решение, сколько диагностирует неизбежный техдолг. Оптимизация под один домен рано или поздно потребует переоптимизации, а иногда и полной переработки, когда встретится новая, неожиданная дистрибуция данных.

Акцент на проблеме “длинного хвоста” и смещения распределений — это не прорыв, а закономерность. Любая модель, претендующая на универсальность, обречена на компромиссы. Интереснее наблюдать, как будет развиваться инструментарий для оценки этих компромиссов — какие метрики, помимо привычной точности, станут отражать реальную пригодность модели к конкретной задаче. В конечном итоге, мы не создаём искусственный интеллект — мы реанимируем надежду на автоматизацию, и каждый новый бенчмарк — это лишь очередная попытка продлить её срок.

Вполне вероятно, что будущее за специализированными, узкопрофильными моделями, обученными на тщательно отобранных, релевантных данных. Универсальность — иллюзия, а адаптация — необходимость. И пусть каждый новый, казалось бы, революционный алгоритм рано или поздно станет очередным пунктом в списке обязательных к рефакторингу, — таков закон природы, и сопротивляться ему бесполезно.


Оригинал статьи: https://arxiv.org/pdf/2511.16315.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-21 19:30