Эффект Матфея в самообучении LVLMs: как выровнять «голову» и «хвост» данных

Давно известная проблема в области больших языковых моделей зрения (LVLM) заключается в том, что их способность к сложному, многоступенчатому рассуждению быстро достигает плато, несмотря на постоянное увеличение масштаба. Однако, прорыв, представленный в исследовании ‘Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing’, предлагает новый взгляд на эту проблему, демонстрируя, что неравномерное распределение данных в процессе самосовершенствования, приводящее к доминированию “простых” примеров и игнорированию сложных, является ключевым препятствием. В результате, возникает вопрос: способны ли эти методы ребалансировки, позволяющие моделям более эффективно осваивать сложные сценарии, открыть путь к действительно разумным системам, способным к глубокому и надежному визуальному рассуждению?






