Третья Разновидность ИИ: Как модели, думающие «про себя», оставят позади GPT и CoT

Автор: Денис Аветисян

1. Вступление: «Чак, выходи!»

Знаете, есть один старый, немного пыльный, но совершенно гениальный фантастический фильм — «Крикуны». В конце там есть душераздирающая сцена. Главный герой, Джо, из последних сил добравшись до спасительного подземного бункера — последней надежды человечества на этой планете — пытается связаться по радио со своим другом Чаком, который должен быть внутри. Кругом кишат киборги-убийцы, поэтому спускаться вслепую — верная смерть.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

— Чак, выходи! — кричит Джо в рацию, требуя визуального подтверждения.
— Связь плохая, Джо, спускайся! — снова и снова отвечает знакомый голос.

Что-то не так. Чувствуя неладное, Джо задаёт контрольный вопрос — отсылку к их недавнему разговору об опере «Дон Жуан» Вольфганга Моцарта: «Дай мне поговорить с Доном Джованни». На что голос, не дрогнув, невозмутимо повторяет: «Это Дон Джованни, спускайся».

В этот момент героя прошибает холодный пот. Он всё понял. Это не просто «не Чак». Это значит, что Чака больше нет. Машина приняла его облик и голос уже после его убийства. Андроид идеально имитирует форму, но не помнит сути их последнего разговора. Чак «вышел из контекстного окна», и это стоило его другу жизни.

Этот фильм снят по рассказу великого Филипа К. Дика «Вторая разновидность», где машины эволюционировали в неотличимые от человека копии. Так вот, эта сцена — лучшее объяснение самой большой и самой коварной проблемы современных больших языковых моделей, с которой мы все, даже не осознавая этого, сталкиваемся каждый день.

2. Краткая история почти человеческих машин

Чтобы понять, насколько мы близки к сцене с «Чаком», давайте быстро пробежимся по краткой истории эволюции этих удивительных созданий.

Поколение 1: Гиганты, которые научились говорить (Llama, GPT-3)
Всего несколько лет назад случилось чудо. Машины научились говорить. Да, они были огромными, неуклюжими, жили в гигантских, гудящих дата-центрах и потребляли электричество в масштабах небольшого города, но, чёрт возьми, они заговорили! Как мы выяснили в моей первой статье, они научились так хорошо переводить и обобщать тексты, что смогли заменить облачные сервисы прямо у меня дома.

Но у них было фундаментальное ограничение. Они — «однопроходные». Это как гениальный импровизатор в комедийном клубе, который может выдать блестящую, остроумную фразу в ответ на любой ваш вопрос, но совершенно не умеет планировать собственное выступление на два шага вперёд.

Поколение 2: Мыслители «вслух» (Chain-of-Thought, CoT)
Тогда инженеры придумали остроумный «костыль». Они научили модели «бормотать себе под нос», проговаривая каждый шаг решения сложной задачи. И это сработало! Модели начали решать логические задачки и писать код. Наш Когерент+ai — это самый что ни на есть state-of-the-art представитель этого поколения. Он «думает вслух», чтобы просеять рыночный шум и выдать вам чистую аналитику.

Но, как и любой костыль, он хрупок. Одна ошибка в цепочке рассуждений — и вся конструкция с грохотом рушится. Результат нестабилен. Это постоянные пробы и ошибки, где успех зависит от сотен мелочей, от правильной формулировки запроса до фазы Луны.

3. Третья Разновидность: Модели, которые думают «про себя»

И вот, пока весь мир пытался укрепить этот «костыль», придумывая всё более сложные подпорки и инструкции, на горизонте появилась та самая «третья разновидность». Модель, которая может рассуждать не «вслух», а «про себя», почти как человек.

Вдохновение, как это часто бывает, подсмотрели у лучшего компьютера во Вселенной — нашего собственного мозга. И знаете, что самое изящное? Это не просто красивая метафора. Создатели модели буквально подсмотрели, как наш мозг дирижирует своим внутренним оркестром.

У нас ведь тоже есть разные «скорости» мышления, которые в нейробиологии связывают с разными ритмами мозга. Есть медленные, глубокие тета-волны (4-8 Гц) для планирования и памяти. А есть быстрые гамма-волны (30-100 Гц) для мгновенной концентрации и решения задач «здесь и сейчас».

Новая архитектура, получившая название Hierarchical Reasoning Model (HRM), имитирует именно этот принцип. Внутри неё живут два взаимосвязанных модуля:

High-level (H) модуль — «Стратег»: Он работает на медленном «тета-ритме». Его задача — посмотреть на проблему целиком, сформировать общую стратегию и сказать: «Так, сейчас нам нужно решить вот эту маленькую подзадачу».
Low-level (L) модуль — «Тактик»: Он работает на быстром «гамма-ритме». Получив приказ от «Стратега», он бросает все силы на выполнение этой конкретной, детальной задачи, быстро перебирая варианты.

И вот как они работают вместе. «Тактик» быстро-быстро решает свою задачку, находит локальный, промежуточный ответ и «докладывает» наверх. А «Стратег», получив этот доклад, обдумывает его, ставит новую, уточнённую цель и… как бы «перезагружает» Тактика для следующего рывка. Снова и снова. Учёные назвали этот элегантный танец «иерархической конвергенцией».

Весь этот внутренний диалог происходит в так называемом «латентном пространстве». Проще говоря, модель «думает» без слов. Она не тратит время и энергию на то, чтобы пробормотать себе под нос каждый шаг. Она просто решает задачу. И это меняет абсолютно всё.

4. Маленький робот, который решает Судоку

Всё это звучит красиво в теории, правда? «Стратег», «Тактик», «ритмы мозга»… Но работает ли это на самом деле? Или это просто очередная красивая академическая идея, которая разобьётся о суровую реальность?

Чтобы это выяснить, создатели модели устроили ей настоящий экзамен. Они взяли задачи, на которых современные гиганты вроде GPT-4 и Claude стабильно «ломаются». Это не тесты на эрудицию, где нужно пересказать Википедию. Это задачи на чистое, холодное мышление:

Sudoku-Extreme: Не те простенькие судоку из газет, а сложнейшие головоломки, которые требуют многошагового планирования и «поиска с возвратом» (когда вы пробуете вариант, понимаете, что зашли в тупик, и возвращаетесь на несколько шагов назад).
Maze-Hard: Поиск оптимального, самого короткого пути в гигантских лабиринтах 30х30.
ARC-AGI: Пожалуй, самый сложный тест на «жидкий интеллект» — способность находить абстрактные закономерности в визуальных загадках, видя всего 2-3 примера.

И знаете, что самое смешное? Наш «малыш» HRM, имея всего ~27 миллионов параметров (это в сотни, а то и тысячи раз меньше, чем у гигантов!), обученный всего на 1000 примеров для каждой задачи, без всякого предварительного обучения, показал просто шокирующие результаты.

Представьте себе эту картину. На ринг выходят два бойца. В одном углу — гигантская LLM, сверкающая миллиардами параметров, обученная на всём интернете. В другом — наш скромный «малыш» HRM.

Гонг!

Раунд «Судоку»: Гигант, пытаясь «думать вслух», путается в шагах и падает. Точность — 0%. Малыш HRM, думая «про себя», спокойно решает головоломку. Точность — почти 100%.

Раунд «Лабиринт»: Гигант снова теряется. Точность — 0%. Малыш находит оптимальный путь. Точность — почти 100%.

Это не просто победа. Это нокаут. И он доказывает одну простую вещь: в мире сложных рассуждений дело не в размере. Дело в архитектуре.

5. Главный приз: Прощай… или не прощай, Чак?

Итак, маленький, но «умно» спроектированный ИИ побеждает гигантов. Звучит здорово. Но что это значит для нас, простых пользователей, которые просто хотят, чтобы ИИ работал нормально? А вот что.

Мы возвращаемся к нашему бедному Чаку. Помните, почему он «забыл» начало разговора и попался в ловушку? Потому что память, или «контекстное окно», у классических больших моделей — это невероятно дорогая и ресурсоёмкая штука. Чтобы сделать модель чуть «умнее» и «памятливее», нужно экспоненциально увеличивать количество «железа» и энергии.

А теперь представьте себе HRM. Благодаря своей невероятно эффективной архитектуре, где «думание» происходит без слов, она требует в разы меньше ресурсов.

И это означает простую, но революционную вещь: на той же самой видеокарте, где вчера едва-едва помещалась модель с крошечным окошком памяти, сегодня может комфортно работать модель с контекстным окном в десятки раз больше!

Это значит, что мы можем переводить огромные документы целиком, а не кусками. Анализировать не один финансовый отчёт, а сразу десять, видя всю картину. Наш ИИ-собеседник больше не забудет, о чём мы говорили пять минут назад…

Но решена ли проблема «Чака» на самом деле?

6. Заключение: Новые тесты на старой базе

В рассказе Дика машины эволюционировали сами, тайно, и герои понимали, что столкнулись с новой «разновидностью», когда было уже слишком поздно. В мире ИИ всё происходит так же стремительно, только у нас есть возможность наблюдать за этим в прямом эфире.

HRM и подобные ей архитектуры — это не просто очередное «улучшение». Это фундаментальный сдвиг. Это переход от эры эрудитов-импровизаторов к эре настоящих, эффективных мыслителей. И этот переход происходит прямо сейчас.

Но главный вопрос, который мы задали в самом начале, остается открытым. Поможет ли новая, более эффективная архитектура нашему бедному «Чаку» вспомнить, кто такой Дон Джованни? Или он так и будет путать Джо с Вольфгангом, потому что проблема лежит глубже, чем мы думали, и дело не только в объёме памяти, но и в самой природе мышления?

Мы уже начали тестировать «Чака» на новой дистанции. И результатами этих, без преувеличения, захватывающих экспериментов мы обязательно поделимся в следующих публикациях.