Искусственный интеллект подсказывает случайному лесу: новый подход к обучению на малых данных

Предлагается структура ForestLLM, предназначенная для обучения табличным данным при ограниченном количестве примеров, демонстрируя подход к эффективному освоению информации в условиях дефицита данных.

Исследователи разработали систему, использующую возможности больших языковых моделей для повышения эффективности алгоритмов случайного леса при работе с ограниченным объемом данных.

Экономия ресурсов: Новый подход к обработке изображений и текста

Преобразование больших языковых моделей (ВLM) с использованием метода MHA2MLA-VLM обеспечивает точное соответствие входных данных механизма внимания требованиям MLA, при этом сжатие кэша KV в низком ранге согласуется с принципами MLA, что позволяет снизить потери при усечении и максимально использовать возможности повторного использования предварительно обученных весов.

Исследователи разработали метод, позволяющий значительно снизить потребление памяти в мультимодальных моделях, не жертвуя при этом качеством обработки данных.

Понимание кода: новый взгляд с помощью семантических графов

Структурный граф, отображающий статические связи между программными компонентами, расширяется семантическим графом, который устанавливает функциональные взаимосвязи через общие сущности предметной области - например, узел кода, представляющий обработчик заказов, соединяется с узлом сущности

Исследователи представляют LogicLens — систему, использующую семантические графы и возможности больших языковых моделей для навигации и анализа сложных многорепозиторных кодовых баз.

По следам научных аргументов: новый тест для искусственного интеллекта

Разработана платформа SIN-Bench, преобразующая исходный код в унифицированный научный формат с применением семантического анализа, а затем, посредством итеративного цикла синтеза с использованием нескольких больших языковых моделей, перекрестной проверки и ручной аудитории, генерирует высококачественные наборы данных для оценки логических цепочек доказательств по четырем иерархическим задачам, придерживаясь принципа

Ученые представили масштабный набор данных и методику оценки, позволяющие проверить, насколько хорошо современные системы искусственного интеллекта могут находить и связывать доказательства в сложных научных текстах.

Гравитация как текучая среда: новый взгляд на путь интеграла

Вложенные причинно-следственные диаграммы, разделенные растянутым горизонтом событий, демонстрируют структуру пространства-времени вблизи черных дыр.

Исследование предлагает гидродинамический подход к пониманию гравитационных интегралов, связывая квантовые плотности вероятности с поверхностями максимального объема.

Кластеризация данных высокой размерности: от абстракции к представлению

Контрастивные методы глубокой кластеризации, такие как CC, интегрируют кластеризацию непосредственно в процесс обучения представлений, используя головной слой на уровне экземпляров для объединения различных аугментаций одного изображения и отдельный головной слой на уровне кластеров, проецирующий данные в [latex]K[/latex]-мерное пространство с целью формирования чёткой структуры кластеров, при этом на этапе тестирования головной слой кластеров определяет метку кластера для неаугментированного объекта.

В статье представлен всесторонний обзор методов кластеризации данных высокой размерности, исследующих баланс между обобщением и сохранением информации.

Личность в сети: Как большие языковые модели формируют свой «голос»

Векторные представления архетипов персонажей, вычисленные на основе активаций языковой модели Llama 3.3 70B, демонстрируют смещение от нейтральной позиции

Новое исследование показывает, как можно контролировать и стабилизировать «личность» больших языковых моделей, предотвращая отклонения от заданного поведения.

Распознавание научных текстов: Новый масштабный датасет PubMed-OCR

Топ-20 журналов, представленных в PubMed-OCR, демонстрируют значительную концентрацию данных: первые три из них охватывают примерно 23% от общего числа документов, что указывает на ключевую роль этих изданий в распространении научных знаний.

Представлен PubMed-OCR — обширный набор данных, содержащий научные статьи с детализированными аннотациями, полученными с помощью оптического распознавания символов.