MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Модель адаптивного декодирования (MAD) эффективно устраняет межмодальные галлюцинации - ложные визуальные и звуковые детали - при описании аудиовизуальных данных, подавляя нежелательные интерференции и обеспечивая точное описание реального контента.

Многомодальные большие языковые модели, несмотря на впечатляющие возможности, подвержены проблеме межмодальных галлюцинаций, приводящих к неверной генерации информации. В работе ‘MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models’ предложен метод Modality-Adaptive Decoding (MAD) — обучение без учителя, динамически взвешивающее вклад различных модальностей при декодировании. Данный подход позволяет модели фокусироваться на релевантной информации и подавлять межмодальные помехи, значительно снижая количество галлюцинаций в аудиовизуальных задачах. Не является ли адаптивное взвешивание модальностей ключевым шагом к созданию более надежных и эффективных многомодальных систем искусственного интеллекта?

Активное прогнозирование: Новый взгляд на обучение с подкреплением

В условиях, когда динамика переходов не может быть эффективно представлена в латентном пространстве, алгоритм DAIF демонстрирует сопоставимую эффективность с традиционным распределительным обучением с подкреплением, однако, по мере увеличения сложности задачи и степени влияния латентного многообразия на динамику, DAIF превосходит как распределительные, так и основанные на моделях подходы.

В статье представлена инновационная концепция, объединяющая активное умозаключение и обучение с подкреплением, позволяющая агентам эффективно действовать в сложных средах.

Поиск без пробелов: Новый вызов для интеллектуальных агентов

Тестовый набор DeepSearchQA обеспечивает сбалансированное распределение запросов по различным тематикам, предотвращая переобучение модели в узкой области, и демонстрирует, что точность агента Gemini Deep Research монотонно возрастает с увеличением вычислительных ресурсов, выделенных на тестирование, что указывает на его способность к масштабированию и эффективной обработке разнообразных запросов.

Исследователи представили комплексный тест DeepSearchQA, позволяющий оценить способность веб-агентов к всестороннему поиску информации, выходящему за рамки поиска единственного правильного ответа.

Причинно-следственные связи для понятного ИИ: Новый подход к анализу данных

На основе данных о «Титанике» был создан единый причинно-следственный граф, полученный путем объединения графов, специфичных для кодирования, с использованием принципов мажоритарного голосования и взвешивания по корреляции, что позволило выявить взаимосвязи между различными факторами, повлиявшими на исход катастрофы.

Исследователи предлагают инновационный метод обнаружения причинно-следственных связей, позволяющий повысить стабильность и интерпретируемость моделей искусственного интеллекта при работе с разнородными данными.

Защита от угроз: новая модель для анализа кибербезопасности

Модель Foundation-Sec-8B-Reasoning демонстрирует сопоставимую с 70-миллиардной моделью Llama-3.3-70B-Instruct производительность в задачах кибербезопасности (CTIBench-MCQA, CTIBench-RCM, CTI-Reasoning, CWE-Prediction, SecBench, SecEval) и превосходит предыдущую версию модели Foundation-Sec-8B-Instruct, а на общецелевых бенчмарках (AlpacaEval2, BBH, IFEval, GSM8K, HumanEval, MATH) достигает сравнимых результатов с Llama-3.1-8B-Instruct, существенно улучшая показатели в AlpacaEval2.

Представлена Foundation-Sec-8B-Reasoning — языковая модель с 8 миллиардами параметров, разработанная специально для решения задач в области кибербезопасности и демонстрирующая улучшенные возможности рассуждения.

Искусственный интеллект на передовой науки: проверка на прочность

Задачи, представленные в рамках FrontierScience, создаются и проверяются экспертами в области физики, химии или биологии, причём для олимпиадного набора все эксперты удостоились медалей на международных соревнованиях, что гарантирует высокий уровень сложности и научной обоснованности предлагаемых проблем.

Новое исследование оценивает способность современных систем искусственного интеллекта решать сложные научные задачи, приближенные к уровню экспертов.

Речь в Эхе: Новый Корпус для Обучения и Оценки

В исследовании, основанном на анализе 1500 реплик, установлено, что реверберация статистически значимо увеличивает частоту ошибок распознавания речи, что демонстрирует преобладание точек над диагональю, отражающее ухудшение точности в условиях эха.

Представлен RIR-Mega-Speech — масштабный корпус речевых данных, записанных в различных реверберирующих помещениях, призванный улучшить устойчивость систем распознавания речи.

Динамика данных: новый взгляд на генеративные модели

Исследование посвящено построению концептуальной схемы CM-GAI, позволяющей установить взаимосвязь между признаками в заданном состоянии, опираясь на известные данные, полученные в других состояниях, что представляет собой общую задачу генерации отношений между признаками в условиях неопределенности.

В статье представлена инновационная теория, объединяющая принципы континуальной механики и оптимального транспорта для создания генеративных моделей, эффективно работающих при ограниченном объеме данных.

Личина личности: Как «персона» влияет на социальный интеллект нейросетей

Новое исследование показывает, что использование «персон» в запросах к большим языковым моделям может улучшить их способность к классификации социальных задач, но при этом снижает качество объяснений и не решает проблему предвзятости.

Код и Команда: Как Разные Разработчики Используют Автоматизацию

Исследование методологии изучения использования кодирующих агентов основными и периферийными разработчиками позволяет выявить различия в подходах к применению этих инструментов в зависимости от роли и опыта специалистов.

Новое исследование показывает, что опыт разработчиков по-прежнему определяет способы взаимодействия с инструментами автоматизации кода, даже с появлением «умных» помощников.