Автор: Денис Аветисян
Новое исследование выявляет, что современные модели, связывающие изображения и текст, часто полагаются на запоминание популярных достопримечательностей, а не на понимание архитектурных стилей и особенностей.

Представлен масштабный набор данных YearGuessr и методика оценки, демонстрирующие предвзятость в моделях компьютерного зрения и обработки естественного языка при определении возраста зданий.
Несмотря на впечатляющие успехи современных мультимодальных моделей в области компьютерного зрения и обработки естественного языка, их способность к истинному пониманию архитектурных особенностей зданий остаётся под вопросом. В работе ‘Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models’ представлен масштабный датасет YearGuessr и методика оценки, выявившие значительную зависимость моделей от запоминания популярных достопримечательностей, а не от обобщённого понимания. Полученные результаты демонстрируют, что точность предсказания года постройки здания существенно снижается для менее известных объектов, указывая на существенный перекос в процессе обучения. Способны ли vision-language модели преодолеть эту предвзятость и достичь подлинного понимания архитектурного стиля и эпохи?
Понимание архитектурного времени: вызовы и возможности
Точное определение возраста здания имеет первостепенное значение для сохранения исторического наследия и эффективного городского планирования, однако существующие методы часто сталкиваются с проблемами неполноты документации или субъективности оценок. Исторические архивы нередко содержат фрагментарные сведения, а визуальный анализ, полагающийся на опыт экспертов, может приводить к расхождениям в интерпретации архитектурных особенностей. Эта неопределенность особенно актуальна для зданий, подвергшихся многочисленным реконструкциям и перестройкам, где первоначальный облик может быть существенно изменен. В результате, ошибки в датировке строений не только искажают историческую картину, но и препятствуют принятию обоснованных решений в области реставрации и сохранения культурного достояния.
Традиционные методы датировки архитектурных сооружений сталкиваются с серьезными трудностями из-за невероятного разнообразия стилей и постоянного влияния реставрационных работ. Каждый регион, а порой и город, демонстрирует уникальные архитектурные решения, что затрудняет применение универсальных критериев датировки. Более того, многочисленные перестройки, замены элементов и адаптации зданий к новым потребностям стирают исторические следы, искажая первоначальный облик и вводя исследователей в заблуждение. Субъективная оценка, неизбежно присутствующая в визуальном анализе, также вносит значительную погрешность, поскольку интерпретация архитектурных деталей может варьироваться в зависимости от опыта и взглядов специалиста. В результате, существующие подходы часто приводят к неточностям и предвзятости, подрывая достоверность исторической информации и затрудняя эффективное планирование реставрационных работ.
В настоящее время существует острая необходимость в создании надежной и масштабируемой системы автоматического определения возраста зданий, использующей огромный объем доступных визуальных данных. Современные методы датировки часто опираются на неполные архивные записи или субъективные оценки экспертов, что приводит к неточностям и искажениям. Автоматизированный подход, основанный на анализе изображений фасадов, архитектурных деталей и строительных материалов, позволяет преодолеть эти ограничения. Такая система, используя алгоритмы машинного обучения и компьютерного зрения, способна идентифицировать характерные черты различных эпох и стилей, а также учитывать влияние последующих реконструкций и изменений. Это не только повысит точность датировки, но и значительно ускорит процесс, открывая новые возможности для исторической реконструкции, градостроительного планирования и сохранения культурного наследия.

YearCLIP: Модель для оценки возраста зданий на основе визуального анализа
YearCLIP — это модель, основанная на архитектуре CLIP, разработанная для оценки возраста зданий по изображениям. Особенностью модели является интеграция как визуальных признаков, извлекаемых из изображений, так и географической информации о местоположении здания. Такой подход позволяет учитывать как архитектурные особенности, отражающие эпоху строительства, так и региональные факторы, влияющие на возраст и стиль зданий.
Модель YearCLIP использует нуль-свертку (zero-convolution) для эффективного объединения визуальных (image) и географических (location) эмбеддингов. В отличие от стандартных сверточных операций, нуль-свертка позволяет модели динамически взвешивать вклад каждого признака из обоих источников, не вводя дополнительных обучаемых параметров. Это достигается путем умножения эмбеддингов на веса, равные единице или нулю, определяемые на основе входных данных.
Модель YearCLIP использует ординальную регрессию для оценки возраста зданий, рассматривая возраст не как непрерывную величину, а как упорядоченную категорию. В отличие от традиционной регрессии, которая предсказывает точное числовое значение, ординальная регрессия моделирует вероятность принадлежности здания к определенному возрастному диапазону.
Модель YearCLIP использует географические координаты (GPS-приоры) для улучшения оценки возраста зданий, особенно в случаях, когда здания имеют схожую архитектуру в разных регионах. Включение данных о местоположении позволяет модели учитывать региональные особенности и исторические периоды строительства, характерные для конкретной местности.

YearGuessr: Набор данных для валидации и обучения модели
Модель YearCLIP обучалась и оценивалась на наборе данных YearGuessr, представляющем собой крупномасштабную коллекцию из 55 546 изображений зданий, охватывающую период более тысячелетия — с 1001 по 2024 год нашей эры. Этот набор данных содержит изображения архитектурных сооружений, датированных различными эпохами, что позволяет оценивать способность модели к определению возраста зданий на основе визуальных признаков.
Широкое географическое покрытие набора данных YearGuessr, отраженное в распределении изображений зданий по континентам, является ключевым фактором, обеспечивающим обобщающую способность модели. Набор данных включает в себя изображения зданий со всех континентов, что позволяет модели обучаться на разнообразных архитектурных стилях и строительных традициях, характерных для различных регионов мира.
Для оценки производительности модели используется средняя абсолютная ошибка (MAE) и точность определения интервала. Набор данных YearGuessr позволил достичь модели Gemini1.5-Pro значения MAE, равного 33.08.
Использование запросов, стимулирующих логические рассуждения, значительно повышает способность модели YearCLIP предоставлять объяснения к своим предсказаниям о возрасте зданий.

Преодоление предвзятости и обеспечение надежности модели
Исследование выявило потенциальную предвзятость моделей в оценке возраста зданий, связанную с их популярностью. Было установлено, что модели демонстрируют более высокую точность при анализе широко известных сооружений, что может быть обусловлено не истинным пониманием архитектурных особенностей, а запоминанием информации, доступной, например, из количества просмотров статей в Википедии.
Исследование выявило, что, несмотря на наличие некоторой предвзятости, модель YearCLIP демонстрирует большую устойчивость к искажениям, чем альтернативные системы, такие как Gemini-2.0. В частности, Gemini-2.0 показала увеличение точности определения временного интервала на 34.18
В архитектуре модели YearCLIP для кодирования географических координат используется метод случайных преобразований Фурье (RFF). Этот подход позволяет отображать координаты в более высокоразмерное пространство, что существенно расширяет возможности модели по обобщению информации о местоположении.
Крайне важно устранить существующие смещения, чтобы модель обеспечивала справедливую и достоверную оценку возраста зданий, независимо от их известности. Игнорирование этой проблемы может привести к систематическим ошибкам.

Исследование, представленное в данной работе, подчеркивает важность анализа закономерностей, а не просто запоминания фактов. Подобно тому, как архитектор изучает структуру здания, чтобы понять его возраст, модели машинного зрения должны выходить за рамки поверхностного распознавания достопримечательностей. Как однажды заметил Дэвид Марр: «Представление должно быть функциональным, а не просто описательным». Эта мысль особенно актуальна для оценки архитектурных особенностей, поскольку истинное понимание требует способности к абстракции и обобщению, а не просто к запоминанию визуальных сигналов, связанных с популярными объектами. Работа над YearGuessr демонстрирует, что модели часто полагаются на запоминание, а не на подлинное понимание архитектурного стиля и контекста.
Что дальше?
Представленная работа, демонстрируя успехи моделей «зрение-язык» в оценке возраста зданий, парадоксальным образом обнажает их склонность к запоминанию, а не к истинному пониманию архитектурных закономерностей. Успех, основанный на распознавании популярных достопримечательностей, заставляет задуматься: не является ли «интеллект» этих систем лишь изощренной формой статистического соответствия, а не способностью к абстрактному мышлению? Визуальная интерпретация, как показывает опыт, требует терпения: быстрые выводы могут скрывать структурные ошибки.
Перспективы дальнейших исследований лежат в плоскости создания более сложных и нюансированных наборов данных, способных выявлять истинное понимание архитектурных стилей и материалов. Необходимо углубить анализ систематических ошибок, чтобы понять, какие аспекты архитектуры модели упускают из виду. Интересным направлением представляется разработка методов, позволяющих «отделить» способность к запоминанию от способности к обобщению.
Понимание системы — это исследование её закономерностей. Задача, стоящая перед исследователями, заключается не только в повышении точности моделей, но и в разработке метрик, способных оценивать глубину их понимания. Будущее исследований в этой области, вероятно, потребует междисциплинарного подхода, объединяющего знания в области компьютерного зрения, машинного обучения и архитектуроведения.
Оригинал статьи: https://arxiv.org/pdf/2512.21337.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Квантовые Иллюзии и Практический Реализм
- Укрощение квантовой неопределенности: новый подход к моделированию
- Фотонные квантовые вычисления: на пути к практической реализации
- Квантовая оптимизация без ограничений: Новый подход к масштабируемым алгоритмам
- Квантовый сенсор: Оптимизация для быстрых и точных измерений
- Насколько важна полнота при оценке поиска?
- Квантовые ядра в работе: новый взгляд на классификацию данных
- Квантовые Загадки: Размышления о Современной Физике
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
2025-12-26 04:07