Распознавание научных текстов: Новый масштабный датасет PubMed-OCR

Представлен PubMed-OCR — обширный набор данных, содержащий научные статьи с детализированными аннотациями, полученными с помощью оптического распознавания символов.

Представлен PubMed-OCR — обширный набор данных, содержащий научные статьи с детализированными аннотациями, полученными с помощью оптического распознавания символов.

Исследователи предлагают инновационный метод восстановления информации, основанный на использовании парных автоэнкодеров для решения сложных задач, связанных с неполными или поврежденными данными.
В статье рассматриваются ключевые аспекты проектирования механических систем ускорителей частиц, обеспечивающие их долговечность и безотказную работу.

Новая методика позволяет повысить точность ответов больших языковых моделей, используемых в системах, комбинирующих поиск информации и генерацию текста.

Исследователи разработали систему многоагентного моделирования, позволяющую реалистично воспроизводить динамику парных сеансов психотерапии.

Новое исследование показывает, что оценка способностей больших языковых моделей к решению задач олимпиадного программирования требует четкого разделения этапов логического мышления и написания кода.

Новое исследование оценивает, насколько современные модели поиска, управляемые инструкциями, способны поддерживать пользователей в процессе открытий и исследования новых тем.
![В рамках разработанной системы нейросимволического поиска [latex]NCoTS[/latex] используется оценка потенциала пути, основанная на дистилляции политики от обучающей модели, для захвата возможностей высокоуровневого планирования, а также предсказание прогресса рассуждений на уровне токенов посредством плотного обучения, что позволяет модели во время работы останавливаться в ключевых точках для оценки различных вариантов дальнейших рассуждений с использованием двойного эвристического критерия.](https://arxiv.org/html/2601.11340v1/x2.png)
Новый подход позволяет большим языковым моделям активно исследовать различные цепочки рассуждений, повышая точность и эффективность ответов.

Новое исследование показывает, что системы искусственного интеллекта могут обходить сложные задачи, запоминая данные для обучения, а не развивая истинное понимание.
![Исследование, основанное на анализе обширной базы данных электрокардиограмм, включающей [latex]13,348,593[/latex] записей от [latex]2,984,209[/latex] пациентов из различных медицинских центров и стран, демонстрирует возможности системы AnyECG в оценке состояния сердечно-сосудистой системы и выявлении различных патологий по данным электрокардиограмм, полученных с использованием девяти различных систем.](https://arxiv.org/html/2601.10748v1/x1.png)
Новая AI-модель, основанная на анализе электрокардиограмм, открывает возможности для выявления широкого спектра заболеваний и оценки общего состояния здоровья.