Поиск без пробелов: Новый вызов для интеллектуальных агентов

Тестовый набор DeepSearchQA обеспечивает сбалансированное распределение запросов по различным тематикам, предотвращая переобучение модели в узкой области, и демонстрирует, что точность агента Gemini Deep Research монотонно возрастает с увеличением вычислительных ресурсов, выделенных на тестирование, что указывает на его способность к масштабированию и эффективной обработке разнообразных запросов.

Исследователи представили комплексный тест DeepSearchQA, позволяющий оценить способность веб-агентов к всестороннему поиску информации, выходящему за рамки поиска единственного правильного ответа.

Причинно-следственные связи для понятного ИИ: Новый подход к анализу данных

На основе данных о «Титанике» был создан единый причинно-следственный граф, полученный путем объединения графов, специфичных для кодирования, с использованием принципов мажоритарного голосования и взвешивания по корреляции, что позволило выявить взаимосвязи между различными факторами, повлиявшими на исход катастрофы.

Исследователи предлагают инновационный метод обнаружения причинно-следственных связей, позволяющий повысить стабильность и интерпретируемость моделей искусственного интеллекта при работе с разнородными данными.

Защита от угроз: новая модель для анализа кибербезопасности

Модель Foundation-Sec-8B-Reasoning демонстрирует сопоставимую с 70-миллиардной моделью Llama-3.3-70B-Instruct производительность в задачах кибербезопасности (CTIBench-MCQA, CTIBench-RCM, CTI-Reasoning, CWE-Prediction, SecBench, SecEval) и превосходит предыдущую версию модели Foundation-Sec-8B-Instruct, а на общецелевых бенчмарках (AlpacaEval2, BBH, IFEval, GSM8K, HumanEval, MATH) достигает сравнимых результатов с Llama-3.1-8B-Instruct, существенно улучшая показатели в AlpacaEval2.

Представлена Foundation-Sec-8B-Reasoning — языковая модель с 8 миллиардами параметров, разработанная специально для решения задач в области кибербезопасности и демонстрирующая улучшенные возможности рассуждения.

Искусственный интеллект на передовой науки: проверка на прочность

Задачи, представленные в рамках FrontierScience, создаются и проверяются экспертами в области физики, химии или биологии, причём для олимпиадного набора все эксперты удостоились медалей на международных соревнованиях, что гарантирует высокий уровень сложности и научной обоснованности предлагаемых проблем.

Новое исследование оценивает способность современных систем искусственного интеллекта решать сложные научные задачи, приближенные к уровню экспертов.

Речь в Эхе: Новый Корпус для Обучения и Оценки

В исследовании, основанном на анализе 1500 реплик, установлено, что реверберация статистически значимо увеличивает частоту ошибок распознавания речи, что демонстрирует преобладание точек над диагональю, отражающее ухудшение точности в условиях эха.

Представлен RIR-Mega-Speech — масштабный корпус речевых данных, записанных в различных реверберирующих помещениях, призванный улучшить устойчивость систем распознавания речи.

Динамика данных: новый взгляд на генеративные модели

Исследование посвящено построению концептуальной схемы CM-GAI, позволяющей установить взаимосвязь между признаками в заданном состоянии, опираясь на известные данные, полученные в других состояниях, что представляет собой общую задачу генерации отношений между признаками в условиях неопределенности.

В статье представлена инновационная теория, объединяющая принципы континуальной механики и оптимального транспорта для создания генеративных моделей, эффективно работающих при ограниченном объеме данных.

Личина личности: Как «персона» влияет на социальный интеллект нейросетей

Новое исследование показывает, что использование «персон» в запросах к большим языковым моделям может улучшить их способность к классификации социальных задач, но при этом снижает качество объяснений и не решает проблему предвзятости.

Код и Команда: Как Разные Разработчики Используют Автоматизацию

Исследование методологии изучения использования кодирующих агентов основными и периферийными разработчиками позволяет выявить различия в подходах к применению этих инструментов в зависимости от роли и опыта специалистов.

Новое исследование показывает, что опыт разработчиков по-прежнему определяет способы взаимодействия с инструментами автоматизации кода, даже с появлением «умных» помощников.

Разговор меняет смысл: как языковые модели переосмысливают информацию в процессе общения

Представления о фактичности в языковых моделях претерпевают существенные изменения в ходе диалога: при воспроизведении заранее заданных бесед, представления о фактичности для общих вопросов остаются относительно стабильными, однако для вопросов, специфичных для беседы, наблюдается инверсия, когда размерность, идентифицирующая фактические ответы, начинает сильнее отражать нефактическую информацию, и наоборот, что подтверждается в диалогах на различные темы, включая как обсуждение сознания, так и эзотерические темы вроде чакр, где модель демонстрирует необычные утверждения.

Новое исследование показывает, что внутренние представления языковых моделей о понятиях, таких как достоверность, могут резко меняться по мере развития диалога.