Голос и Зрение: Как Распознавание Речи Учитывает Оба Канала
![Исследование предлагает три подхода к анализу вклада входных признаков в процесс генерации токенов, основанные на матрице Шэпли [latex]\bm{\Phi}[/latex]: GlobalSHAP для оценки общего баланса модальностей, GenerativeSHAP для отслеживания динамики вклада модальностей на этапах генерации, и TemporalAlignmentSHAP для изучения соответствия между позициями входных признаков и выходных токенов.](https://arxiv.org/html/2603.12046v1/x2.png)
Новое исследование раскрывает, как модели машинного обучения комбинируют аудио- и визуальную информацию для более точного распознавания речи, даже в условиях помех.
![Исследование предлагает три подхода к анализу вклада входных признаков в процесс генерации токенов, основанные на матрице Шэпли [latex]\bm{\Phi}[/latex]: GlobalSHAP для оценки общего баланса модальностей, GenerativeSHAP для отслеживания динамики вклада модальностей на этапах генерации, и TemporalAlignmentSHAP для изучения соответствия между позициями входных признаков и выходных токенов.](https://arxiv.org/html/2603.12046v1/x2.png)
Новое исследование раскрывает, как модели машинного обучения комбинируют аудио- и визуальную информацию для более точного распознавания речи, даже в условиях помех.

Новое исследование демонстрирует возможности искусственного интеллекта в анализе эмоциональной окраски персидской поэзии, открывая новые перспективы для цифровых гуманитарных наук.

В статье представлена инновационная методика, позволяющая повысить точность и эффективность моделирования динамики пучков заряженных частиц в ускорителях.

В новой статье представлен алгоритм, позволяющий значительно повысить производительность вычислений сингулярного разложения (SVD) за счет использования смешанной точности и оптимизации работы с матрицей Грама.

Новый подход к кодированию видео позволяет динамически выделять ресурсы в зависимости от сложности сцены, значительно повышая качество и скорость обработки.

Новое исследование показывает, что эффективность обучающих AI-агентов определяется не столько мощностью языковой модели, сколько глубиной и структурированностью их профиля и навыков.
![Модель Chem4DLLM использует 4D-эквивариантный графовый энкодер (UMA) для преобразования каждого 3D-кадра [latex]\mathcal{X}\_{t}[/latex] в графовое вложение, которое затем проецируется и аддитивно объединяется с вложениями специальных токенов <graph>, после чего языковая модель (Qwen3-8B) принимает полученную последовательность вложений [latex]\mathbf{E}[/latex] в качестве префикса для авторегрессивной генерации выходных данных.](https://arxiv.org/html/2603.11924v1/x3.png)
Исследователи разработали систему, позволяющую искусственному интеллекту понимать и анализировать сложные траектории движения молекул, открывая новые возможности для изучения химической динамики.

В новом исследовании показано, как дефекты в алмазных микрорезонаторах влияют на насыщаемое поглощение света, открывая перспективы для квантовых сенсоров и нелинейной фотоники.

Новая архитектура OmniStream объединяет восприятие, реконструкцию и действия в непрерывных видеопотоках, открывая новые возможности для искусственного интеллекта.
Новое исследование связывает флуктуации температуры на горизонте событий чёрной дыры с математическими преобразованиями, известными как супертрансляции, предлагая новый взгляд на природу энтропии и хранение информации.