По следам научных аргументов: новый тест для искусственного интеллекта

Разработана платформа SIN-Bench, преобразующая исходный код в унифицированный научный формат с применением семантического анализа, а затем, посредством итеративного цикла синтеза с использованием нескольких больших языковых моделей, перекрестной проверки и ручной аудитории, генерирует высококачественные наборы данных для оценки логических цепочек доказательств по четырем иерархическим задачам, придерживаясь принципа

Ученые представили масштабный набор данных и методику оценки, позволяющие проверить, насколько хорошо современные системы искусственного интеллекта могут находить и связывать доказательства в сложных научных текстах.

Понимание кода: новый взгляд с помощью семантических графов

Структурный граф, отображающий статические связи между программными компонентами, расширяется семантическим графом, который устанавливает функциональные взаимосвязи через общие сущности предметной области - например, узел кода, представляющий обработчик заказов, соединяется с узлом сущности

Исследователи представляют LogicLens — систему, использующую семантические графы и возможности больших языковых моделей для навигации и анализа сложных многорепозиторных кодовых баз.

Личность в сети: Как большие языковые модели формируют свой «голос»

Векторные представления архетипов персонажей, вычисленные на основе активаций языковой модели Llama 3.3 70B, демонстрируют смещение от нейтральной позиции

Новое исследование показывает, как можно контролировать и стабилизировать «личность» больших языковых моделей, предотвращая отклонения от заданного поведения.

Кластеризация данных высокой размерности: от абстракции к представлению

Контрастивные методы глубокой кластеризации, такие как CC, интегрируют кластеризацию непосредственно в процесс обучения представлений, используя головной слой на уровне экземпляров для объединения различных аугментаций одного изображения и отдельный головной слой на уровне кластеров, проецирующий данные в [latex]K[/latex]-мерное пространство с целью формирования чёткой структуры кластеров, при этом на этапе тестирования головной слой кластеров определяет метку кластера для неаугментированного объекта.

В статье представлен всесторонний обзор методов кластеризации данных высокой размерности, исследующих баланс между обобщением и сохранением информации.

Распознавание научных текстов: Новый масштабный датасет PubMed-OCR

Топ-20 журналов, представленных в PubMed-OCR, демонстрируют значительную концентрацию данных: первые три из них охватывают примерно 23% от общего числа документов, что указывает на ключевую роль этих изданий в распространении научных знаний.

Представлен PubMed-OCR — обширный набор данных, содержащий научные статьи с детализированными аннотациями, полученными с помощью оптического распознавания символов.

Восстановление данных: Новый подход с помощью парных автоэнкодеров

В условиях намеренного удаления данных о 90% приемников, метод PAIR+LSI демонстрирует возможность восстановления исходной информации, однако реконструированные данные выступают лишь промежуточным представлением, отражающим среднее значение и стандартное отклонение, а не точную копию исходных измерений.

Исследователи предлагают инновационный метод восстановления информации, основанный на использовании парных автоэнкодеров для решения сложных задач, связанных с неполными или поврежденными данными.

Как научить нейросеть говорить правду: калибровка уверенности в системах поиска и генерации

Обучение модели явной оценке полезности отрывков и групп данных перед ответом, как реализовано в подходе NAACL, обеспечивает более надежное выражение уверенности в условиях шумного поиска, что подтверждается последовательным снижением ECE на моделях Llama-3.1-8B-Instruct и DeepSeek-R1-Distill-Llama-8B, и способствует созданию более прозрачного и обоснованного взаимодействия человека с компьютером в реальных сценариях.

Новая методика позволяет повысить точность ответов больших языковых моделей, используемых в системах, комбинирующих поиск информации и генерацию текста.

Семейные споры в виртуальной реальности: новый подход к моделированию терапии

В рамках изучения парной терапии предложен трехэтапный процесс выявления целей и стратегий, позволяющий структурировать подход к решению проблем в отношениях и оптимизировать терапевтическое вмешательство.

Исследователи разработали систему многоагентного моделирования, позволяющую реалистично воспроизводить динамику парных сеансов психотерапии.

Ищущие подсказки: насколько хорошо модели понимают запросы при исследовании информации?

CSFCube представляет собой набор данных, содержащий один и тот же поисковый документ, аннотированный экспертами относительно релевантных документов-кандидатов при различных инструкциях, что позволяет оценить как релевантность ранжирования, так и способность следовать инструкциям для извлекающих систем.

Новое исследование оценивает, насколько современные модели поиска, управляемые инструкциями, способны поддерживать пользователей в процессе открытий и исследования новых тем.