Когда мнения расходятся: как модели принимают решения при конфликте данных

Для оценки надежности модели при столкновении с противоречивыми данными, разработан фреймворк, измеряющий степень неопределенности модели в визуальной и текстовой модальностях через энтропию, и использующий относительную неопределенность для анализа выбора модели в условиях конфликта.

Новое исследование показывает, что при столкновении визуальной и текстовой информации, выбор модели определяется относительной неуверенностью в каждой из этих модальностей.

Визуальный код: новый вызов для искусственного интеллекта

Распределения VCode демонстрируют вариативность кодирования, отражая спектр представлений и потенциальную неоднозначность в структуре данных.

Бенчмарк VCode демонстрирует, как сложные визуальные представления, такие как SVG, ставят под сомнение возможности современных языковых моделей в области мультимодального кодирования.

Головоломки для разума: проверка языковых моделей на прочность

Оценка производительности различных языковых моделей на RiddleBench выявила значительные различия в способности давать правильные ответы, демонстрируя, что эффективность решения задач, требующих логического мышления, сильно варьируется между отдельными архитектурами.

Исследование представляет RiddleBench – комплексный тест, оценивающий способность больших языковых моделей к многоступенчатым рассуждениям, пространственному мышлению и коррекции ошибок.