Биоактивность из текста: новая система для поиска лекарств

Автор: Денис Аветисян

Ученые разработали систему BioMiner, способную автоматически извлекать данные о взаимодействии белков и лигандов из научных публикаций, ускоряя процесс разработки новых лекарств.

Система BioMiner позволила собрать масштабные данные о биоактивности, что, согласно статистическому сравнению с PDBbind v2016, значительно расширяет доступные ресурсы для обучения моделей глубокого обучения, при этом анализ времени и затрат подтверждает эффективность подхода, а предварительное обучение моделей на извлеченных данных демонстрирует повышение производительности, подтвержденное средними значениями, полученными в результате пяти независимых запусков (n=5).

BioMiner — мультимодальная система для автоматизированного извлечения данных о биоактивности из научной литературы и BioVista — новый эталонный набор данных для оценки подобных систем.

Ручное извлечение данных о биологической активности протеин-лигандных взаимодействий из научной литературы не успевает за экспоненциальным ростом объема публикаций. В работе ‘BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature’ представлена мультимодальная система BioMiner и эталонный набор данных BioVista, предназначенные для автоматизированного извлечения этих данных, включая сложные химические структуры, такие как структуры Маркуша. Предложенный подход, сочетающий семантический анализ текста, таблиц и изображений, позволяет значительно ускорить процесс поиска и анализа биоактивных соединений. Способствует ли это создание новых, более эффективных лекарственных препаратов и расширению наших знаний о протеин-лигандных взаимодействиях?

Раскрытие Биоактивности: Преодоление Вызовов Научной Литературы

Огромные объемы данных о взаимодействии белков и лигандов остаются неиспользованными, погребенными в научных публикациях и недоступными для автоматизированного анализа. Эта информация, критически важная для понимания биологических процессов и разработки новых лекарственных препаратов, часто представлена в разнообразных форматах — от текстовых описаний и таблиц до графиков и диаграмм. Такое разнообразие, вкупе с неоднозначностью формулировок и отсутствием стандартизации, создает серьезные препятствия для автоматической обработки и извлечения данных, требуя разработки инновационных подходов к анализу научной литературы. В результате, ценные сведения о биоактивности веществ остаются невостребованными, замедляя прогресс в области биологии и медицины.

Традиционные методы извлечения данных о взаимодействии белков и лигандов сталкиваются со значительными трудностями, обусловленными разнообразием форматов представления информации в научных публикациях. Вместо стандартизированных подходов, исследователи часто используют различные способы описания концентраций веществ, типов экспериментов и полученных результатов, что приводит к неоднозначности интерпретации. Например, обозначение единиц измерения может варьироваться, а описание условий проведения тестов — быть неполным или расплывчатым. Эта неоднородность затрудняет автоматизированный анализ и требует сложных алгоритмов для распознавания и нормализации данных, что значительно снижает эффективность и точность извлечения ценной биологической информации из огромного массива научной литературы.

Точное извлечение данных о биоактивности имеет решающее значение для ускорения процесса разработки лекарственных препаратов и углубленного понимания функционирования биологических систем. Традиционные методы анализа научной литературы оказываются неэффективными в связи с разнообразием форматов представления данных и неоднозначностью их интерпретации. В ответ на эту проблему разработан инструмент BioMiner, который осуществляет автоматизированное извлечение информации из обширного массива научных публикаций — более 11 683 статей. Данный подход позволяет систематизировать и структурировать разрозненные данные о взаимодействии белков и лигандов, открывая новые возможности для проведения масштабных исследований и выявления потенциальных лекарственных мишеней.

Разработанный фреймворк BioMiner для извлечения биоактивности протеин-лиганд, включающий агент для обработки как полных структур, так и структур Маркуша (обозначенных соответственно фиолетовым и синим цветами), успешно протестирован на новом бенчмарке BioVista, содержащем 16 457 данных о биоактивности и 8735 структур из 500 публикаций, что позволило разработать шесть задач для комплексной оценки.

BioMiner: Агентная Система для Автоматизированного Извлечения

BioMiner использует многомодальный агентный подход к выявлению и извлечению взаимодействий между белками и лигандами, объединяя визуальный и семантический анализ. Система обрабатывает информацию из различных источников, включая изображения (например, структурные модели), таблицы и текстовые описания, используя их совместно для идентификации релевантных взаимодействий. Агентный подход позволяет системе декомпозировать сложную задачу извлечения взаимодействий на последовательность более простых шагов, каждый из которых выполняется специализированным «агентом», что повышает точность и эффективность процесса.

В основе системы BioMiner лежит большая языковая модель Qwen3-VL-32B, обеспечивающая обработку как визуальной, так и текстовой информации. Для достижения оптимальной производительности и адаптации к специфике задачи извлечения взаимодействий между белками и лигандами, модель подверглась тонкой настройке с использованием метода LoRA (Low-Rank Adaptation). LoRA позволяет эффективно адаптировать большие модели, изменяя лишь небольшое количество параметров, что снижает вычислительные затраты и потребность в памяти, сохраняя при этом высокую точность и обобщающую способность.

Система BioMiner использует подход Chemical Structure-Grounded Visual Semantic Reasoning (CSG-VSR) для интеграции данных из различных источников — изображений, таблиц и текста. CSG-VSR позволяет BioMiner устанавливать связи между химической структурой молекул, визуальным представлением данных в научных публикациях и семантическим содержанием текста. В ходе оценки производительности на бенчмарке BioVista для извлечения триплетов биоактивности, система достигла показателя F1-меры в 0.32, что демонстрирует ее способность к точному определению взаимодействий между биомолекулами на основе комплексного анализа мультимодальных данных.

Сравнительный анализ показал, что BioMiner превосходит BioVista в задачах извлечения биоактивных триплетов, аннотации структуры-активности и перечисления Маркуша, демонстрируя высокую производительность как на уровне отдельных компонентов, так и в целом, особенно при работе со сложными R-группами и структурами.

Надежное Распознавание Химических Структур в BioMiner

Система BioMiner использует методы оптического распознавания химических структур (OCSR), в частности, специализированную модель MolGlyph, для точной идентификации химических соединений. MolGlyph, являясь частью OCSR-подхода, позволяет преобразовывать изображения химических структур, встречающихся в научной литературе, в машиночитаемый формат. Это достигается путем анализа графических элементов, таких как связи, атомы и кольца, и их сопоставления с известными химическими представлениями. Применение OCSR, и MolGlyph в частности, является ключевым компонентом в автоматизированном извлечении и анализе химической информации из больших объемов текстовых и графических данных.

Система BioMiner использует доменно-специфические модели (ДСМ) для повышения точности обработки химических структур, учитывая особенности научной литературы. ДСМ позволяют адаптировать алгоритмы распознавания к специфическому контексту и терминологии, характерным для публикаций в области химии и биологии. Это особенно важно для корректной интерпретации сложных структур и нетривиальных обозначений, встречающихся в научных текстах. Применение ДСМ позволяет снизить количество ошибок, связанных с неоднозначностью представления химической информации и различиями в стилях оформления публикаций.

Эффективность системы распознавания химических структур BioMiner подвергается строгой оценке с использованием стандартных наборов данных, таких как PoseBusters, что гарантирует высокие показатели точности и надежности. Предварительное обучение модели на данных, извлеченных непосредственно из BioMiner, позволило улучшить показатели среднеквадратичной ошибки (RMSE) на 3,9% для набора PDBbind v2016 core и на 3,4% для набора CSAR-HiQ, демонстрируя значительное повышение производительности благодаря использованию данных, полученных в процессе работы системы.

Сравнительный анализ работы BioMiner с участием экспертов и новичков на наборе данных PoseBusters показал, что автоматизированная аннотация позволяет эффективно оценивать структуру и биоактивность, при этом время и ошибки аннотации значительно различаются между группами пользователей.

Уточнение Точности: Экспертная Валидация в Цикле Обратной Связи

В основе BioMiner лежит инновационный подход, объединяющий автоматизированную экстракцию данных с экспертной проверкой в рамках Human-In-The-Loop (HITL) процесса. Эта система позволяет квалифицированным специалистам проводить ручную курацию и коррекцию информации, извлеченной из научных публикаций. В результате, происходит значительное повышение точности и надежности базы данных биоактивности, минимизируя возможность ошибок, которые могут возникнуть при исключительно автоматической обработке. Данный подход обеспечивает не только верификацию извлеченных данных, но и позволяет специалистам вносить дополнительные знания и контекст, недоступные алгоритмам, что делает BioMiner ценным ресурсом для научных исследований.

Внедрение итеративного подхода с участием экспертов значительно повышает точность и надежность создаваемой базы данных биологической активности, эффективно снижая количество ошибок. В ходе исследований было установлено, что использование данного подхода позволяет сократить время аннотирования в 5.59 раза — с 195.8 секунды до 35.0 секунды на запись. При этом, точность извлеченных данных достигает 96.25%, что на 5.75% выше, чем при полностью ручном аннотировании. Таким образом, сочетание автоматизированного извлечения информации и опыта специалистов обеспечивает формирование высококачественного и достоверного ресурса, необходимого для проведения научных исследований и открытий.

Система BioMiner представляет собой комплексный ресурс для научных открытий, объединяющий автоматизированное извлечение данных и экспертную оценку. В ходе работы было обработано 11 683 научных статьи, из которых извлечено 82 262 точек данных о биологической активности. Применение полученной информации позволило значительно улучшить качество моделей QSAR: прирост показателя EF1% составил 38.6% по сравнению с моделями, обученными на данных из базы ChEMBL. Такой подход обеспечивает высокую достоверность и полноту предоставляемых данных, делая BioMiner ценным инструментом для исследователей в области биологии и химии.

Автоматизированный сбор данных о биоактивности NLRP3 с использованием BioMiner по 85 научным публикациям позволил получить сопоставимые с ChEMBL данные, обучить эффективные QSAR-модели и провести анализ взаимодействия ингибиторов (например, Z6739936901 и Z5232931194) с белком NLRP3, подтвержденный молекулярной динамикой и докингом <span class="katex-eq" data-katex-display="false">9GU4</span>. — Автоматизированный сбор данных о биоактивности NLRP3 с использованием BioMiner по 85 научным публикациям позволил получить сопоставимые с ChEMBL данные, обучить эффективные QSAR-модели и провести анализ взаимодействия ингибиторов (например, Z6739936901 и Z5232931194) с белком NLRP3, подтвержденный молекулярной динамикой и докингом $9GU4$ .

Представленная система BioMiner демонстрирует элегантный подход к извлечению биоактивности протеин-лиганд из научной литературы. Она объединяет различные модальности данных — текстовую информацию и химические структуры — для более точного и эффективного выявления связей. Этот подход перекликается с убеждением Дональда Дэвиса о том, что «простота — ключ к надежности». Сложные системы часто оказываются хрупкими, тогда как ясное и лаконичное решение, подобно BioMiner, способно обеспечить устойчивую работу и масштабируемость в процессе открытия новых лекарств. Система, подобно живому организму, функционирует оптимально, когда все её части гармонично взаимодействуют, а простота структуры определяет её поведение.

Куда Далее?

Представленная система, BioMiner, подобна тщательно спроектированному городскому району. Она демонстрирует эффективность в извлечении данных о биоактивности, но, как и любой организм, нуждается в постоянной адаптации. Проблема заключается не в скорости обработки информации, а в её интерпретации. Необходимо учитывать, что литературные источники часто неоднозначны, содержат скрытые предположения и контекстуальные нюансы, которые алгоритмам пока сложно уловить. Подобно тому, как нельзя просто добавить новые дороги, не переосмысливая планировку квартала, так и развитие системы требует эволюции структуры представления знаний.

Особое внимание следует уделить интеграции с другими базами данных и системами. BioMiner — лишь один элемент сложной экосистемы. Вместо создания изолированных решений, необходимо стремиться к созданию открытых, совместимых платформ, позволяющих обмениваться информацией и совместно решать задачи. Важной задачей является разработка методов оценки достоверности извлечённых данных. Алгоритмы могут находить закономерности, но не всегда способны отличить истинные связи от случайных совпадений.

Будущее автоматизированного анализа биоактивности лежит не в создании всё более сложных алгоритмов, а в разработке более элегантных и понятных моделей представления знаний. Необходимо помнить, что цель — не просто обработка данных, а получение новых знаний, которые могут быть использованы для улучшения здоровья человека. Подобно хорошему архитектору, исследователь должен стремиться к простоте, ясности и гармонии.

Оригинал статьи: https://arxiv.org/pdf/2604.21508.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-25 06:11

🚀 Квантовые новости