Автор: Денис Аветисян
Новая система объединяет возможности больших языковых моделей и отслеживание происхождения данных, создавая документы, в которых каждое утверждение можно проверить и связать с исходными данными.

Исследование посвящено созданию ‘прозрачных документов’ с интерактивной связью утверждений и данных для повышения доверия к научной информации.
Несмотря на возрастающую потребность в проверяемости научных публикаций, связь между текстовыми утверждениями и лежащими в их основе данными часто остается неявной. В работе ‘AI-Assisted Authoring for Transparent, Data-Driven Documents’ представлена система, использующая большие языковые модели и отслеживание происхождения данных для создания «прозрачных документов», где каждое утверждение интерактивно связано с подтверждающими данными. Такой подход позволяет читателям непосредственно проверять достоверность информации и повышает доверие к научным результатам. Возможно ли создание принципиально нового формата научной коммуникации, основанного на принципах прозрачности и интерактивности?
Проблема непрозрачности научных публикаций
Традиционные научные публикации часто представляют утверждения без явной связи с исходными данными, что создает значительные препятствия для верификации и воспроизводимости результатов. Отсутствие прямой привязки к данным затрудняет возможность независимой проверки, поскольку исследователям приходится полагаться исключительно на интерпретацию авторов. Это не позволяет оценить надежность выводов и провести собственный анализ, что особенно критично в быстро развивающихся областях науки. В результате, процесс научного познания замедляется, а доверие к опубликованным исследованиям может быть подорвано, поскольку подтверждение или опровержение полученных результатов становится затруднительным без доступа к первичной информации и возможности повторного анализа.
Отсутствие явной связи между утверждениями и лежащими в их основе данными существенно ограничивает возможность оценки надёжности полученных результатов и проведения независимого анализа. Невозможность проверить исходные данные и воспроизвести вычисления ставит под сомнение обоснованность выводов и затрудняет выявление потенциальных ошибок или предвзятости. Это особенно критично в областях, где решения принимаются на основе научных исследований, поскольку непрозрачность может привести к принятию неверных или неэффективных мер. Более того, подобная ситуация препятствует развитию науки, поскольку исследователям приходится тратить значительные ресурсы на повторное проведение экспериментов и сбор данных, вместо того чтобы строить на уже проверенных результатах.
Отсутствие прозрачности в научных исследованиях неизбежно подрывает доверие к полученным результатам и существенно замедляет прогресс науки. Когда методология, данные и код остаются недоступными для проверки, возникают обоснованные сомнения в достоверности выводов. Это не только ставит под вопрос ценность конкретной работы, но и препятствует дальнейшим исследованиям, поскольку другие ученые вынуждены тратить время и ресурсы на повторное проведение экспериментов или на попытки реконструкции анализа. Это создает замкнутый круг, в котором сложность воспроизведения результатов снижает их влияние и препятствует накоплению надежных знаний, что в конечном итоге негативно сказывается на развитии науки и технологий.

Построение прозрачности: отслеживание происхождения данных и связей
Прозрачные документы обеспечивают возможность верификации за счет интеграции данных о происхождении (Data Provenance) — детальной записи об источниках данных и преобразованиях, которым они подвергались. Эта запись включает информацию о первоначальном источнике данных, всех этапах обработки, включая используемые алгоритмы и параметры, а также информацию об авторах, ответственных за каждое преобразование. Сохранение этой информации позволяет независимо проверить достоверность представленных данных и воспроизвести результаты, что критически важно для обеспечения надежности и доверия к документу. Отслеживание происхождения данных является ключевым элементом для аудита, анализа и выявления потенциальных ошибок или манипуляций.
Связывание данных позволяет пользователям отслеживать обоснование утверждений до конкретных элементов данных, на которых они основаны, посредством интерактивных запросов происхождения данных (Provenance Queries). Эти запросы реализуются как навигационные инструменты, позволяющие проследить всю цепочку трансформаций данных, начиная от исходного источника и заканчивая текущим представлением информации. Каждый элемент данных, используемый в документе, имеет уникальный идентификатор, который связывает его с соответствующей записью происхождения, содержащей информацию о его происхождении, методах обработки и любых изменениях, которые он претерпел. Интерактивность запросов позволяет пользователям выборочно исследовать эту цепочку, фокусируясь на конкретных утверждениях и подтверждающих их данных, обеспечивая полную отслеживаемость и верифицируемость информации.
Язык программирования Fluid с открытым исходным кодом предоставляет необходимые инструменты для реализации функций отслеживания происхождения данных и связей между ними. Использование Fluid позволяет создавать системы, в которых происхождение данных и логика их преобразований документируются и доступны для проверки. Открытый исходный код обеспечивает совместимость с различными платформами и возможность расширения функциональности за счет добавления пользовательских модулей и интеграции с другими инструментами обработки данных. Это способствует созданию прозрачных и верифицируемых документов, а также облегчает совместную работу над данными и их анализом.

Автоматизация создания текстов: превращение данных в повествование
В нашей работе демонстрируется, что технология автоматизированного создания текстов с помощью больших языковых моделей (LLM) позволяет преобразовывать неструктурированные, непрозрачные документы в их прозрачные, основанные на данных аналоги. Этот процесс предполагает автоматическое извлечение информации из исходного текста и её представление в виде структурированных данных, что обеспечивает возможность проверки и верификации представленных фактов. В результате, LLM не просто генерируют текст, а создают нарративы, подкрепленные конкретными данными, повышая достоверность и прозрачность информации.
Агент предложений (SuggestionAgent) выполняет анализ текстовых документов с целью выявления фрагментов, значения которых могут быть определены на основе структурированных данных. Этот процесс инициирует автоматическую трансформацию исходного текста в формат, основанный на данных. Агент использует алгоритмы обработки естественного языка для идентификации численных значений, дат, категорий и других элементов, которые потенциально могут быть вычислены или получены из внешних источников данных. Обнаруженные фрагменты помечаются как кандидаты на замену соответствующими данными, что служит отправной точкой для последующей работы агента интерпретации (InterpretationAgent) и генерации выражений Fluid.
Агент интерпретации синтезирует выражения на языке Fluid для вычисления целевых текстовых фрагментов, формируя таким образом Data-Driven Statements (утверждения, основанные на данных). Язык Fluid представляет собой декларативный язык запросов, позволяющий описывать вычисления над данными. Синтезированные выражения Fluid преобразуются в исполняемый код, который извлекает и обрабатывает данные из соответствующих источников. Результатом является не просто текст, а утверждение, которое можно верифицировать и отследить до исходных данных, обеспечивая прозрачность и достоверность информации. Этот процесс позволяет автоматически генерировать текстовые фрагменты, основанные на фактических данных, а не на субъективных оценках или предположениях.
Процесс автоматизированного создания текстов опирается на синтез кода для генерации вычислимых фрагментов, необходимых для формирования Data-Driven Statements. Для обеспечения точности и связности полученных результатов применяется итеративное уточнение запросов (Iterative Prompting), которое позволяет модели последовательно улучшать сгенерированный код и, соответственно, качество результирующего текста. Каждая итерация включает в себя анализ текущего кода, внесение корректировок на основе обратной связи и повторную генерацию, что позволяет достичь высокой степени соответствия между исходными данными и сформированным повествованием. Это обеспечивает не только техническую корректность, но и логическую согласованность и читабельность текста.
Человек в цикле: создание проверяемых выводов
В основе предлагаемого подхода лежит замкнутый цикл, объединяющий автоматизированный синтез информации с обязательным участием человека на этапах валидации и авторского контроля. Это позволяет гарантировать не только высокое качество и достоверность создаваемых документов, но и их полную прозрачность. Автоматизация выступает в роли мощного инструмента первичной обработки и структурирования данных, однако окончательное решение и ответственность за точность и интерпретацию информации всегда остаются за человеком. Такой симбиоз технологий и человеческого опыта обеспечивает надежность и обоснованность представленных сведений, что особенно важно при работе с комплексными данными и формировании выводов, требующих критической оценки.
В основе предложенного рабочего процесса лежит агент интерпретации, однако его результаты не являются окончательными и всегда подвергаются проверке и доработке. Этот механизм обеспечивает надежность и точность генерируемых документов, поскольку автоматизированный анализ дополняется экспертной оценкой. Агент интерпретации выполняет первичную обработку данных и выдвигает гипотезы, которые затем анализируются человеком, способным учесть нюансы контекста и устранить возможные неточности. Такой симбиоз искусственного интеллекта и человеческого опыта позволяет достичь более высокого уровня достоверности и предоставляет возможность для углубленного анализа сложных данных, гарантируя, что полученные выводы соответствуют высоким стандартам качества и прозрачности.
Особую значимость подобный подход приобретает при работе с фразеологизмами и идиомами, где точное сопоставление данных представляет значительную сложность. Идиоматические выражения, отличающиеся от буквального значения слов, требуют особого внимания при автоматической обработке информации. Автоматические системы часто испытывают трудности с интерпретацией таких конструкций, что может приводить к неверным выводам или искажению смысла. Включение человека в цикл обработки позволяет выявлять и корректировать подобные неточности, гарантируя, что сложные лингвистические нюансы будут учтены при формировании итогового результата и сохранят первоначальный замысел автора. Таким образом, сочетание автоматизации и экспертной оценки обеспечивает более надежную и точную интерпретацию данных, содержащих идиоматические выражения.
Созданные в рамках данного подхода документы позволяют проводить контрфакторный анализ, открывая возможности для исследования гипотетических сценариев “что, если?”. Это означает, что пользователи могут изменять исходные параметры и оценивать, как эти изменения повлияют на полученные результаты, тем самым проверяя устойчивость и надежность выводов. Такой анализ критически важен для выявления скрытых зависимостей и понимания границ применимости полученных знаний, обеспечивая более глубокое и обоснованное принятие решений на основе данных. Возможность моделирования альтернативных ситуаций значительно повышает ценность информации, позволяя оценить риски и возможности, которые могли бы быть упущены при статичном анализе.

Наблюдатель отмечает, что стремление к «прозрачным документам», где каждое утверждение подкреплено данными, вызывает лишь усталую иронию. Система, связывающая большие языковые модели с отслеживанием происхождения данных, кажется очередным способом усложнить простое. Как будто недостаточно было версий библиотек и конфликтов зависимостей, теперь ещё и данные требуют интерактивной верификации. Впрочем, это вполне закономерно. Карл Фридрих Гаусс однажды заметил: «Если бы другие знали, как много я знаю, они бы сочли меня сумасшедшим». И действительно, чем больше инструментов для «прозрачности», тем больше возможностей для сокрытия реальной картины. Всё новое — это просто старое с худшей документацией, и эта система — яркое тому подтверждение.
Что дальше?
Представленная система, безусловно, элегантна в своей попытке примирить нарратив и данные. Однако, не стоит забывать старую истину: каждая «революция» завтра станет техдолгом. Продакшен, как известно, всегда найдёт способ сломать даже самую изящную теорию. Автоматическое отслеживание происхождения данных — задача нетривиальная, особенно когда речь идет о данных, полученных из разнородных источников и переживших множество трансформаций. Иллюзия прозрачности может быстро развеяться, если система не сможет адекватно обрабатывать ошибки и противоречия в исходных данных.
Вполне вероятно, что основная проблема в ближайшем будущем сместится с технической реализации на вопросы доверия. Достаточно ли просто показать цепочку происхождения данных? Необходима ли система репутации для источников данных? И как быть с данными, которые принципиально невозможно проверить? Всё новое — это старое, только с другим именем и теми же багами. В конечном итоге, успех этой концепции будет зависеть не столько от алгоритмов, сколько от способности системы адекватно оценивать неопределенность и признавать собственные ограничения.
Пока же, стоит готовиться к тому, что интерактивные ссылки на данные превратятся в новый вид «скрытой рекламы» или инструмент для манипулирования. И если всё работает, просто подождите — рано или поздно найдется способ это сломать. Оптимизм, конечно, полезен, но прагматизм ещё никому не вредил.
Оригинал статьи: https://arxiv.org/pdf/2601.06027.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Диффузия против Квантов: Новый Взгляд на Факторизацию
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Квантовое превосходство в простых вычислениях: Разделение QAC0 и AC0
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Насколько важна полнота при оценке поиска?
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
2026-01-13 09:54