MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models

Многомодальные большие языковые модели, несмотря на впечатляющие возможности, подвержены проблеме межмодальных галлюцинаций, приводящих к неверной генерации информации. В работе ‘MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models’ предложен метод Modality-Adaptive Decoding (MAD) — обучение без учителя, динамически взвешивающее вклад различных модальностей при декодировании. Данный подход позволяет модели фокусироваться на релевантной информации и подавлять межмодальные помехи, значительно снижая количество галлюцинаций в аудиовизуальных задачах. Не является ли адаптивное взвешивание модальностей ключевым шагом к созданию более надежных и эффективных многомодальных систем искусственного интеллекта?







