Архитектурная эрудиция под вопросом: как нейросети «угадывают» возраст зданий

Автор: Денис Аветисян


Новое исследование выявляет, что современные модели, связывающие изображения и текст, часто полагаются на запоминание популярных достопримечательностей, а не на понимание архитектурных стилей и особенностей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Архитектура YearCLIP извлекает признаки фасада изображения размером 224×224 с помощью энкодера <span class="katex-eq" data-katex-display="false"> f_{v}(CLIP) </span>, объединяя их с GPS-вложением, полученным из энкодера местоположения <span class="katex-eq" data-katex-display="false"> f_{l}(RFF + MLP) </span> посредством обучаемой нулевой свертки, в то время как параллельные текстовые ветви кодируют семь классов грубого стиля и набор рассуждений, описывающих крыши, стены и высоту, все эти замороженные энкодеры питают обучаемый регрессор <span class="katex-eq" data-katex-display="false"> g(⋅) </span>, выполняющий грубую к тонкой ординальную регрессию для определения года постройки (в данном случае 1687) и выбора наиболее подходящих стилей и токенов рассуждений, генерируя понятное обоснование.
Архитектура YearCLIP извлекает признаки фасада изображения размером 224×224 с помощью энкодера f_{v}(CLIP) , объединяя их с GPS-вложением, полученным из энкодера местоположения f_{l}(RFF + MLP) посредством обучаемой нулевой свертки, в то время как параллельные текстовые ветви кодируют семь классов грубого стиля и набор рассуждений, описывающих крыши, стены и высоту, все эти замороженные энкодеры питают обучаемый регрессор g(⋅) , выполняющий грубую к тонкой ординальную регрессию для определения года постройки (в данном случае 1687) и выбора наиболее подходящих стилей и токенов рассуждений, генерируя понятное обоснование.

Представлен масштабный набор данных YearGuessr и методика оценки, демонстрирующие предвзятость в моделях компьютерного зрения и обработки естественного языка при определении возраста зданий.

Несмотря на впечатляющие успехи современных мультимодальных моделей в области компьютерного зрения и обработки естественного языка, их способность к истинному пониманию архитектурных особенностей зданий остаётся под вопросом. В работе ‘Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models’ представлен масштабный датасет YearGuessr и методика оценки, выявившие значительную зависимость моделей от запоминания популярных достопримечательностей, а не от обобщённого понимания. Полученные результаты демонстрируют, что точность предсказания года постройки здания существенно снижается для менее известных объектов, указывая на существенный перекос в процессе обучения. Способны ли vision-language модели преодолеть эту предвзятость и достичь подлинного понимания архитектурного стиля и эпохи?


Понимание архитектурного времени: вызовы и возможности

Точное определение возраста здания имеет первостепенное значение для сохранения исторического наследия и эффективного городского планирования, однако существующие методы часто сталкиваются с проблемами неполноты документации или субъективности оценок. Исторические архивы нередко содержат фрагментарные сведения, а визуальный анализ, полагающийся на опыт экспертов, может приводить к расхождениям в интерпретации архитектурных особенностей. Эта неопределенность особенно актуальна для зданий, подвергшихся многочисленным реконструкциям и перестройкам, где первоначальный облик может быть существенно изменен. В результате, ошибки в датировке строений не только искажают историческую картину, но и препятствуют принятию обоснованных решений в области реставрации и сохранения культурного достояния.

Традиционные методы датировки архитектурных сооружений сталкиваются с серьезными трудностями из-за невероятного разнообразия стилей и постоянного влияния реставрационных работ. Каждый регион, а порой и город, демонстрирует уникальные архитектурные решения, что затрудняет применение универсальных критериев датировки. Более того, многочисленные перестройки, замены элементов и адаптации зданий к новым потребностям стирают исторические следы, искажая первоначальный облик и вводя исследователей в заблуждение. Субъективная оценка, неизбежно присутствующая в визуальном анализе, также вносит значительную погрешность, поскольку интерпретация архитектурных деталей может варьироваться в зависимости от опыта и взглядов специалиста. В результате, существующие подходы часто приводят к неточностям и предвзятости, подрывая достоверность исторической информации и затрудняя эффективное планирование реставрационных работ.

В настоящее время существует острая необходимость в создании надежной и масштабируемой системы автоматического определения возраста зданий, использующей огромный объем доступных визуальных данных. Современные методы датировки часто опираются на неполные архивные записи или субъективные оценки экспертов, что приводит к неточностям и искажениям. Автоматизированный подход, основанный на анализе изображений фасадов, архитектурных деталей и строительных материалов, позволяет преодолеть эти ограничения. Такая система, используя алгоритмы машинного обучения и компьютерного зрения, способна идентифицировать характерные черты различных эпох и стилей, а также учитывать влияние последующих реконструкций и изменений. Это не только повысит точность датировки, но и значительно ускорит процесс, открывая новые возможности для исторической реконструкции, градостроительного планирования и сохранения культурного наследия.

Система YearCLIP, использующая Reason-enhanced NumCLIP, предсказывает год постройки с точностью до ±15 лет и предоставляет объяснения, основанные на стилистических и исторических признаках, в отличие от базовых моделей CLIP, которые не улавливают или неправильно интерпретируют эти сигналы.
Система YearCLIP, использующая Reason-enhanced NumCLIP, предсказывает год постройки с точностью до ±15 лет и предоставляет объяснения, основанные на стилистических и исторических признаках, в отличие от базовых моделей CLIP, которые не улавливают или неправильно интерпретируют эти сигналы.

YearCLIP: Модель для оценки возраста зданий на основе визуального анализа

YearCLIP — это модель, основанная на архитектуре CLIP, разработанная для оценки возраста зданий по изображениям. Особенностью модели является интеграция как визуальных признаков, извлекаемых из изображений, так и географической информации о местоположении здания. Такой подход позволяет учитывать как архитектурные особенности, отражающие эпоху строительства, так и региональные факторы, влияющие на возраст и стиль зданий.

Модель YearCLIP использует нуль-свертку (zero-convolution) для эффективного объединения визуальных (image) и географических (location) эмбеддингов. В отличие от стандартных сверточных операций, нуль-свертка позволяет модели динамически взвешивать вклад каждого признака из обоих источников, не вводя дополнительных обучаемых параметров. Это достигается путем умножения эмбеддингов на веса, равные единице или нулю, определяемые на основе входных данных.

Модель YearCLIP использует ординальную регрессию для оценки возраста зданий, рассматривая возраст не как непрерывную величину, а как упорядоченную категорию. В отличие от традиционной регрессии, которая предсказывает точное числовое значение, ординальная регрессия моделирует вероятность принадлежности здания к определенному возрастному диапазону.

Модель YearCLIP использует географические координаты (GPS-приоры) для улучшения оценки возраста зданий, особенно в случаях, когда здания имеют схожую архитектуру в разных регионах. Включение данных о местоположении позволяет модели учитывать региональные особенности и исторические периоды строительства, характерные для конкретной местности.

Архитектура YearCLIP объединяет визуальные признаки фасада, полученные с помощью энкодера <span class="katex-eq" data-katex-display="false">f_{v}(CLIP)</span>, с данными GPS и текстовыми описаниями стиля и характеристик здания (крыши, стены, высота и т.д.) для обучения регрессора <span class="katex-eq" data-katex-display="false">g(\cdot)</span>, предсказывающего год постройки и генерирующего обоснование выбора на основе наиболее подходящих текстовых токенов.
Архитектура YearCLIP объединяет визуальные признаки фасада, полученные с помощью энкодера f_{v}(CLIP), с данными GPS и текстовыми описаниями стиля и характеристик здания (крыши, стены, высота и т.д.) для обучения регрессора g(\cdot), предсказывающего год постройки и генерирующего обоснование выбора на основе наиболее подходящих текстовых токенов.

YearGuessr: Набор данных для валидации и обучения модели

Модель YearCLIP обучалась и оценивалась на наборе данных YearGuessr, представляющем собой крупномасштабную коллекцию из 55 546 изображений зданий, охватывающую период более тысячелетия — с 1001 по 2024 год нашей эры. Этот набор данных содержит изображения архитектурных сооружений, датированных различными эпохами, что позволяет оценивать способность модели к определению возраста зданий на основе визуальных признаков.

Широкое географическое покрытие набора данных YearGuessr, отраженное в распределении изображений зданий по континентам, является ключевым фактором, обеспечивающим обобщающую способность модели. Набор данных включает в себя изображения зданий со всех континентов, что позволяет модели обучаться на разнообразных архитектурных стилях и строительных традициях, характерных для различных регионов мира.

Для оценки производительности модели используется средняя абсолютная ошибка (MAE) и точность определения интервала. Набор данных YearGuessr позволил достичь модели Gemini1.5-Pro значения MAE, равного 33.08.

Использование запросов, стимулирующих логические рассуждения, значительно повышает способность модели YearCLIP предоставлять объяснения к своим предсказаниям о возрасте зданий.

Сравнение моделей показало, что наилучшую точность предсказания года постройки зданий демонстрирует наша модель на основе CLIP (YearCLIP), в то время как другие модели, включая ConvNeXt-B, Swin-B, Gemini1.5-Pro и Gemma3-27B, имеют более значительные отклонения от фактических значений, что видно по рассеянию точек относительно идеальной диагонали.
Сравнение моделей показало, что наилучшую точность предсказания года постройки зданий демонстрирует наша модель на основе CLIP (YearCLIP), в то время как другие модели, включая ConvNeXt-B, Swin-B, Gemini1.5-Pro и Gemma3-27B, имеют более значительные отклонения от фактических значений, что видно по рассеянию точек относительно идеальной диагонали.

Преодоление предвзятости и обеспечение надежности модели

Исследование выявило потенциальную предвзятость моделей в оценке возраста зданий, связанную с их популярностью. Было установлено, что модели демонстрируют более высокую точность при анализе широко известных сооружений, что может быть обусловлено не истинным пониманием архитектурных особенностей, а запоминанием информации, доступной, например, из количества просмотров статей в Википедии.

Исследование выявило, что, несмотря на наличие некоторой предвзятости, модель YearCLIP демонстрирует большую устойчивость к искажениям, чем альтернативные системы, такие как Gemini-2.0. В частности, Gemini-2.0 показала увеличение точности определения временного интервала на 34.18

В архитектуре модели YearCLIP для кодирования географических координат используется метод случайных преобразований Фурье (RFF). Этот подход позволяет отображать координаты в более высокоразмерное пространство, что существенно расширяет возможности модели по обобщению информации о местоположении.

Крайне важно устранить существующие смещения, чтобы модель обеспечивала справедливую и достоверную оценку возраста зданий, независимо от их известности. Игнорирование этой проблемы может привести к систематическим ошибкам.

Анализ 100 изображений зданий с наибольшей средней абсолютной ошибкой (MAE) при прогнозировании моделью Gemini2.0-Flash выявил типичные ошибки, возникающие при распознавании исторических зданий, зданий после реконструкции и объектов с неоднозначной архитектурой.
Анализ 100 изображений зданий с наибольшей средней абсолютной ошибкой (MAE) при прогнозировании моделью Gemini2.0-Flash выявил типичные ошибки, возникающие при распознавании исторических зданий, зданий после реконструкции и объектов с неоднозначной архитектурой.

Исследование, представленное в данной работе, подчеркивает важность анализа закономерностей, а не просто запоминания фактов. Подобно тому, как архитектор изучает структуру здания, чтобы понять его возраст, модели машинного зрения должны выходить за рамки поверхностного распознавания достопримечательностей. Как однажды заметил Дэвид Марр: «Представление должно быть функциональным, а не просто описательным». Эта мысль особенно актуальна для оценки архитектурных особенностей, поскольку истинное понимание требует способности к абстракции и обобщению, а не просто к запоминанию визуальных сигналов, связанных с популярными объектами. Работа над YearGuessr демонстрирует, что модели часто полагаются на запоминание, а не на подлинное понимание архитектурного стиля и контекста.

Что дальше?

Представленная работа, демонстрируя успехи моделей «зрение-язык» в оценке возраста зданий, парадоксальным образом обнажает их склонность к запоминанию, а не к истинному пониманию архитектурных закономерностей. Успех, основанный на распознавании популярных достопримечательностей, заставляет задуматься: не является ли «интеллект» этих систем лишь изощренной формой статистического соответствия, а не способностью к абстрактному мышлению? Визуальная интерпретация, как показывает опыт, требует терпения: быстрые выводы могут скрывать структурные ошибки.

Перспективы дальнейших исследований лежат в плоскости создания более сложных и нюансированных наборов данных, способных выявлять истинное понимание архитектурных стилей и материалов. Необходимо углубить анализ систематических ошибок, чтобы понять, какие аспекты архитектуры модели упускают из виду. Интересным направлением представляется разработка методов, позволяющих «отделить» способность к запоминанию от способности к обобщению.

Понимание системы — это исследование её закономерностей. Задача, стоящая перед исследователями, заключается не только в повышении точности моделей, но и в разработке метрик, способных оценивать глубину их понимания. Будущее исследований в этой области, вероятно, потребует междисциплинарного подхода, объединяющего знания в области компьютерного зрения, машинного обучения и архитектуроведения.


Оригинал статьи: https://arxiv.org/pdf/2512.21337.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 04:07