Автор: Денис Аветисян
Исследователи представляют DiningBench — комплексный набор данных, призванный проверить, насколько хорошо современные системы компьютерного зрения и обработки естественного языка понимают мир еды.

DiningBench — это иерархический мульти-визуальный бенчмарк для оценки моделей, способных распознавать продукты питания, оценивать их питательную ценность и отвечать на вопросы о еде.
Несмотря на значительный прогресс в области мультимодальных моделей «зрение-язык», их применение к сложным задачам анализа пищевых продуктов остается ограниченным из-за недостатка специализированных бенчмарков. В данной работе представлен ‘DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain’ — иерархический, многовидовый набор данных, предназначенный для оценки возможностей моделей в задачах классификации блюд, оценки их питательной ценности и визуального ответа на вопросы. Этот набор данных, включающий 3021 уникальное блюдо и содержащий в среднем 5.27 изображений для каждого, выявляет существенные недостатки современных моделей в задачах точной визуальной дискриминации и оценки питательных веществ. Сможет ли DiningBench стать катализатором для разработки нового поколения интеллектуальных систем, способных к глубокому пониманию пищевых продуктов?
Понимание пищи: вызовы для современных моделей
Современные модели, объединяющие компьютерное зрение и обработку естественного языка, испытывают трудности с тонким пониманием изображений пищи, что существенно ограничивает их применение в сфере здоровья и питания. Несмотря на впечатляющий прогресс в распознавании объектов, эти модели часто не способны уловить нюансы, такие как степень прожарки мяса, размер порции или наличие скрытых ингредиентов, что критически важно для точной оценки калорийности и питательной ценности блюда. В результате, возможности автоматизированного анализа диеты и персонализированных рекомендаций по питанию остаются ограниченными, поскольку существующие системы склонны к ошибкам и не учитывают сложность реальных пищевых привычек. Проблема усугубляется разнообразием кулинарных традиций и способов приготовления пищи, что требует от моделей способности к обобщению и адаптации к новым визуальным данным.
Существующие оценочные наборы данных, предназначенные для проверки возможностей мультимодальных моделей в области анализа пищевых продуктов, зачастую оказываются недостаточно сложными для выявления истинного уровня понимания. Они, как правило, концентрируются на базовом распознавании объектов, игнорируя тонкие визуальные различия, критически важные для определения диетического состава и пищевой ценности. Например, отличить слегка поджаренный тост от пережженного, или определить степень зрелости фрукта, требуются способности к более глубокому анализу и рассуждениям, которые не тестируются в текущих бенчмарках. В результате, модели могут демонстрировать высокие показатели на простых задачах, но терпят неудачу при столкновении со сложными, реалистичными изображениями, содержащими неоднозначные визуальные сигналы и требующими учета контекста и пищевых свойств.
Точный анализ пищевых продуктов требует распознавания тонких визуальных подсказок и их сопоставления с информацией о питательной ценности — задача, требующая развитого логического мышления. Недостаточно просто идентифицировать продукт; необходимо оценить степень его приготовления, размер порции, наличие добавок и даже текстуру, чтобы сделать обоснованные выводы о его калорийности и содержании питательных веществ. Этот процесс выходит за рамки простого распознавания объектов и требует от системы способности к дедукции и обобщению, подобно тому, как это делает человек, оценивая блюдо. Успешное решение этой задачи открывает широкие возможности для автоматизации диетологического контроля, персонализированного питания и разработки интеллектуальных систем поддержки здоровья.

DiningBench: комплексная платформа для оценки моделей
DiningBench представляет собой иерархический бенчмарк, разработанный для всесторонней оценки визуально-языковых моделей (VLM) по трем ключевым направлениям: мелкозернистой классификации блюд, оценке их пищевой ценности и ответам на вопросы по изображениям. Бенчмарк предназначен для строгого тестирования способности моделей понимать и интерпретировать визуальную информацию о еде, выходя за рамки простой идентификации блюд. Оценка проводится по иерархической структуре, что позволяет оценить производительность моделей на различных уровнях детализации и сложности задач. Такой подход позволяет получить более полное представление о возможностях VLM в области анализа изображений еды и понимания связанных с ними данных.
Набор данных DiningBench состоит из 3021 различных блюд, представленных общим количеством в 15 928 изображений. Этот объем данных обеспечивает значительный ресурс для обучения и оценки визуальных языковых моделей (VLM), позволяя проводить более надежные и всесторонние тесты в различных задачах, связанных с анализом изображений пищи.
Ключевой особенностью DiningBench является использование многовидовых изображений, обеспечивающих более надежную и реалистичную оценку моделей. В среднем, на каждое блюдо приходится 5.27 изображений, снятых с разных ракурсов и в различных условиях освещения. Такой подход позволяет протестировать способность моделей к обобщению и устойчивости к вариациям в визуальном представлении, что значительно повышает достоверность оценки их производительности по сравнению с использованием односторонних изображений.
Набор данных DiningBench сформирован с особым вниманием к качеству изображений. Для обеспечения достоверности и надежности оценки моделей визуального понимания, применялись методы оценки качества изображений (Image Quality Assessment) и сопоставления с эталонными снимками (Reference Matching). Эти процессы позволили исключить нечеткие, размытые или некорректно представленные изображения, гарантируя, что оценка моделей производится на основе высококачественного визуального материала. Такой подход критически важен для точной оценки возможностей моделей в задачах распознавания блюд и ответа на вопросы о них.
DiningBench включает в себя задачи Визуального Ответ-Вопроса (VQA), позволяющие оценить способность моделей не только идентифицировать блюда, но и понимать сложные визуальные детали и контекст, связанные с пищей. В рамках VQA модели должны отвечать на вопросы, требующие анализа изображений блюд и понимания их состава, способа приготовления или пищевой ценности. Это выходит за рамки простой классификации изображений и предполагает более глубокое семантическое понимание визуальной информации, что позволяет оценить способность модели к рассуждению и обобщению знаний о пищевых продуктах.

Обеспечение точности и достоверности оценок
Оценка пищевой ценности в DiningBench первоначально осуществляется с использованием LLM-основанной оценки, которая позволяет количественно определить содержание питательных веществ на изображениях. Этот подход предполагает использование больших языковых моделей для анализа визуальных данных и определения компонентов блюда, после чего на основе этих данных рассчитываются приблизительные значения калорий, белков, жиров и углеводов. Полученные оценки служат отправной точкой для дальнейшей валидации и повышения точности, что позволяет оценить возможности моделей в решении сложных задач, связанных с анализом изображений и пониманием содержания пищи.
Для обеспечения достоверности оценки пищевой ценности, полученной с помощью моделей, результаты сопоставляются с данными из исчерпывающей базы данных USDA FoodData Central. Этот процесс верификации позволяет оценить точность предсказаний моделей и выявить потенциальные расхождения между предполагаемым и фактическим содержанием питательных веществ в изображении блюда. Использование USDA FoodData Central в качестве эталонного источника обеспечивает объективную и стандартизированную оценку производительности моделей в задаче оценки пищевой ценности.
В DiningBench, задача мелкозернистой классификации включает в себя специально разработанные сценарии с «трудными негативами» (Hard Negatives). Это означает, что в наборе данных присутствуют изображения, визуально очень похожие на целевые классы, но относящиеся к другим категориям блюд. Наличие таких изображений требует от моделей повышенной способности к визуальному различению и точной классификации, что значительно усложняет задачу и позволяет более объективно оценить их производительность в сценариях, приближенных к реальным условиям.
При использовании модели Gemini-3-Pro-Preview для оценки пищевой ценности изображений, средняя абсолютная процентная ошибка (MAPE) составила 24.45%. Данный показатель демонстрирует способность DiningBench оценивать сложные задачи, требующие рассуждений, в частности, количественное определение питательных веществ по визуальным данным. Полученная точность позволяет использовать benchmark для сравнительной оценки различных LLM в задачах анализа пищевых изображений и определения их калорийности и содержания макро— и микроэлементов.
При оценке точности моделей в рамках DiningBench, модель GPT-4o продемонстрировала точность ответов на вопросы (VQA) на уровне 80.60%. Параллельно, модель Gemini-3-Flash-Preview достигла точности классификации изображений на уровне 81.83%. Эти показатели отражают эффективность моделей в задачах визуального понимания и категоризации, являясь ключевыми метриками для оценки производительности в контексте анализа пищевых продуктов и определения их характеристик.

Расширение горизонтов: к всеобъемлющему искусственному интеллекту в питании
DiningBench предоставляет уникальную платформу для исследований в области междоменного поиска, позволяя моделям устанавливать связь между визуальной информацией и внешними источниками знаний. В основе подхода лежит способность системы идентифицировать блюдо на изображении и, используя полученные данные, находить соответствующую информацию о его составе, калорийности и пищевой ценности в различных базах данных и онлайн-ресурсах. Это выходит за рамки простого распознавания объектов; речь идет о понимании контекста и установлении семантических связей между визуальным представлением и структурированной информацией. Такой подход позволяет создавать более интеллектуальные системы, способные не только «видеть», но и «понимать» содержание изображений, открывая новые возможности для разработки персонализированных диетических рекомендаций и автоматизированного анализа питания.
Архитектура DiningBench предусматривает возможность условной генерации изображений, что открывает новые перспективы для расширения обучающих выборок и повышения точности моделей. Этот подход позволяет создавать синтетические данные, имитирующие разнообразие реальных пищевых композиций и условий освещения, что особенно ценно в ситуациях, когда сбор и аннотация реальных изображений затруднены или требуют значительных ресурсов. Использование сгенерированных данных позволяет не только увеличить объем обучающей выборки, но и целенаправленно корректировать дисбаланс в данных, усиливая способность моделей распознавать редкие или сложные пищевые блюда. В конечном итоге, возможность генерации синтетических данных значительно ускоряет процесс обучения и позволяет создавать более устойчивые и эффективные системы искусственного интеллекта для анализа пищевых изображений.
Разработанные для DiningBench методы и датасет, включающие в себя модели Gemini-3-Pro-Preview и Qwen-2.5-VL, обладают значительным потенциалом для применения в различных областях, выходящих за рамки анализа пищевых продуктов. Успешное решение задачи понимания визуальной информации и сопоставления её с внешними знаниями демонстрирует универсальность предложенного подхода. Этот фреймворк может быть адаптирован для задач, связанных с медицинской диагностикой по изображениям, автоматическим анализом сцен в системах видеонаблюдения, или даже для создания интеллектуальных систем помощи в ритейле, где требуется распознавание товаров и предоставление соответствующей информации. Гибкость и масштабируемость разработанных инструментов открывают широкие перспективы для создания более совершенных и адаптируемых систем искусственного интеллекта, способных эффективно работать с комплексными визуальными данными в самых разнообразных контекстах.
В конечном счете, разработка DiningBench вносит значительный вклад в создание более надежных и интеллектуальных систем искусственного интеллекта, способных понимать и интерпретировать сложную визуальную информацию из реального мира. Этот комплексный подход, объединяющий визуальный анализ и доступ к внешним знаниям, позволяет моделям не просто распознавать объекты на изображениях, но и делать обоснованные выводы об их контексте и значениях. Созданный набор данных и методология, протестированные с использованием передовых моделей, таких как Gemini-3-Pro-Preview и Qwen-2.5-VL, демонстрируют потенциал для расширения возможностей ИИ за пределы анализа пищевых продуктов, открывая перспективы для применения в различных областях, требующих глубокого понимания визуальных сцен и информации.

Представленный набор данных DiningBench демонстрирует стремление к созданию более совершенных моделей восприятия и рассуждения в области питания. Он выходит за рамки простой классификации блюд, углубляясь в нюансы оценки питательной ценности и ответов на визуальные вопросы. Этот подход отражает убеждение, что истинная элегантность в машинном обучении заключается не в сложности алгоритмов, а в ясности и точности получаемых результатов. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть полезен, и он должен быть человечным». В данном контексте, DiningBench служит инструментом для создания ИИ, способного не только распознавать еду, но и понимать её влияние на здоровье человека, что соответствует принципам гармонии между формой и функцией.
Куда Далее?
Представленный набор данных DiningBench, несомненно, является шагом вперед в оценке возможностей моделей «зрение-язык» в области понимания пищи. Однако, кажущаяся сложность задачи лишь подчеркивает глубинную проблему: настоящая «интеллектуальность» модели проявляется не в способности классифицировать изображение, а в понимании контекста и последствий. Подобно элегантной архитектуре, которая незаметна, пока не разрушается, истинная оценка системы должна проводиться в условиях реальной неопределенности.
Очевидным направлением для дальнейших исследований представляется расширение набора данных за счет включения не только визуальной информации, но и данных о процессе приготовления пищи, культурных особенностях потребления и индивидуальных потребностях организма. Игнорирование этих аспектов — это все равно что строить мост, не учитывая рельеф местности. Последовательность в детализации и систематизации этих данных — это проявление эмпатии к будущим пользователям, которые будут полагаться на эти системы.
В конечном счете, задача не в создании все более сложных алгоритмов, а в разработке систем, которые способны не просто «видеть» еду, но и «понимать» ее роль в жизни человека. До тех пор, пока мы не достигнем этой цели, все наши усилия останутся лишь изящной, но бесполезной демонстрацией технического мастерства.
Оригинал статьи: https://arxiv.org/pdf/2604.10425.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Музыка, созданная ИИ: кто мы есть, когда слушаем?
- Искусственный взгляд: Как нейросети учатся видеть, как люди
- Искусственный интеллект в науке: новый взгляд на авторов и рецензентов
- Ускорение нейросетей: новый подход для процессоров AMD
- Ускорение обучения языковых моделей: новый подход к передаче знаний
- Магнитные туннельные переходы: новый путь к квантовым вычислениям?
- Пространственно-временные зависимости в видео: как явные свидетельства улучшают понимание.
- Понять Мысли Ученика: Как Искусственный Интеллект Расшифровывает Решения по Математике?
- Искусственный интеллект и математика: разум на перепутье
- Сквозь хаос к кубиту: Управление спином в квантовых точках
2026-04-14 14:05