Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк

Автор: Денис Аветисян

Вступление: Иголка, стог сена и общий знаменатель.

Что общего у акции никому не известной биотех-компании и инди-игры про пиксельного рыцаря, которую вчера вечером выложили в Steam?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

На первый взгляд — ничего. А на самом деле — всё.

И то, и другое — это иголка в гигантском, постоянно растущем стоге сена из информационного шума. И ключ к поиску этой иголки, как ни странно, один и тот же. Он заключается в том, чтобы научиться слышать слабый, когерентный сигнал там, где все остальные слышат лишь оглушительный хаос.

Не верите? Давайте я докажу это на простом эксперименте, который вы можете провести прямо сейчас.

Откройте Steam или любой другой магазин. А теперь вбейте в строку поиска простую, человеческую фразу: «уютный рогалик без гринда».

Я подожду.

Ну как? Окей, будем справедливы. Система, скорее всего, что-то нашла. Она послушно отфильтровала игры, где в описании есть слово «рогалик» и, возможно, даже отсутствует слово «гринд». Она — идеальная машина по сопоставлению ключевых слов. И в этом-то и заключается вся проблема.

Вы просили уютный рогалик. А что определяет «уют»? Приятная цветовая палитра? Ненавязчивая музыка? Отсутствие таймеров, давящих на психику? Поисковик этого не знает. Для него слово «уютный» — это просто набор из шести букв. Он не понимает смысла. Он слышит слова, но совершенно не улавливает музыку.

Это как разговаривать с патологическим буквалистом. Вы просите его «не шуметь», и он перестает говорить, но начинает оглушительно стучать по столу. Формально он выполнил просьбу. По сути — издевается. Поисковик Steam — тот самый патологический буквалист. Он никогда не признается, что не понял ваш запрос. Он скорее выдаст вам «Dumb Witchfinder», потому что там есть слово «рогалик» и нет слова «гринд», но он понятия не имеет, «уютная» ли эта игра на самом деле. Он заставит вас десять минут скроллить формально подходящий, но нерелевантный мусор, потому что боится признать свое семантическое поражение.

Именно поэтому первым и главным правилом нашей новой архитектуры стало умение честно и без обиняков сказать: «Простите, по вашему запросу я ничего не нашёл». Потому что лучший ответ — это иногда отсутствие ответа. Это знак уважения к вашему времени. И, как оказалось, научить машину этой простой человеческой вежливости — задача посложнее, чем заставить LLM признать, что она не знает ответ на главный вопрос жизни, вселенной и всего такого.

Так как же искать то, о чем все молчат, и при этом не врать пользователю?

Часть I: Великий Steam-потоп и археология мертвых игр.

И вот эта проблема «патологического буквализма» — лишь полбеды. Вторая половина — это масштаб катастрофы. Чтобы вы понимали, о чем речь: каждый божий день только в Steam выходит от 50 до 70 новых игр. Семьдесят. Новых. Игр. В день. Это без учёта DLC, обновлений, патчей и прочего цифрового шума.

Это не ручеёк контента. Это цунами.

Представьте себе гигантскую библиотеку, размером с город. А теперь представьте, что каждую ночь в эту библиотеку без предупреждения приезжает фура и вываливает у входа гору новых книг. Без обложек, без внятных аннотаций, написанных наспех самими авторами. А ваш библиотекарь — тот самый «цифровой чиновник» из прошлой главы — умеет искать книги только по одному слову из названия. Каковы ваши шансы найти в этом хаосе ту самую, вашу жемчужину? Правильно, они стремятся к погрешности статистического округления.

Именно поэтому я называю текущий подход «археологией мертвых игр». Поисковик не анализирует игру. Он копается в «культурном слое» — в тех статичных, мертвых данных (описаниях, тегах), которые оставил после себя разработчик. Это работа с прошлым. С тем, что уже сказано.

А нам нужен не археолог. Нам нужен биолог, который видит жизнь в реальном времени и способен отличить живой, интересный организм от красивой, но пластиковой подделки.

Часть II: Неправильные ответы на правильный вопрос.

Итак, проблема ясна: мы тонем в контентном цунами, а наш спасательный круг — поисковик — дырявый и понимает нас на уровне тостера. Но ведь люди как-то выживают? Конечно. Они изобретают «костыли». И, как любые костыли, они помогают ковылять, но не бежать.

Первый и самый популярный костыль — «народные теги». Идея звучит благородно: пусть игроки сами решают, о чём игра. Настоящая цифровая демократия! Проблема в том, что демократия — это прекрасно, когда вы выбираете президента, и абсолютно хаотична, когда пытаетесь каталогизировать библиотеку. В итоге мы получаем шутер про космос с тегом «аниме», потому что главному герою нарисовали слишком большие глаза, а глубокую RPG метят как «казуальную», потому что кому-то она показалась лёгкой. Это не система, это базар.

Хорошо, скажете вы, но ведь на дворе 2025 год! У нас есть «всемогущие облачные LLM»! Давайте просто спросим у ChatGPT, во что поиграть! Отличная мысль, вот только есть нюанс. Спросите у такой модели про сюжет «Ведьмака 3», и она напишет вам диссертацию. А теперь спросите её про ту инди-жемчужину с пиксельной графикой, которая вышла два часа назад. В ответ — тишина и вежливые извинения. Облачные гиганты — это профессоры истории. Они знают всё о том, что уже стало частью культуры. Но их знания отчаянно несвежие. Они читают вчерашние газеты.

И вот тут, перепробовав все эти хромые решения, мы поняли, что пытаемся забить микросхему молотком. Проблема глубже. Нужно было остановиться, перестать бежать и начать читать. И, как это часто бывает, оказалось, что самые умные парни уже оставили для нас все необходимые чертежи.

Это не магия, которую мы придумали в вакууме. Мы просто стоим на плечах гигантов, и будет честно назвать их имена.

Вся современная идея умного поиска держится на элегантной двухэтапной концепции, которую блестяще описали ещё в 2020 году Владимир Карпухин и его коллеги в своей работе о поиске ответов на вопросы. Принцип прост, как всё гениальное, и похож на рыбалку:

  1. Сначала ты забрасываешь широкую, но «глупую» сеть, чтобы быстро вытащить сотню-другую потенциальных кандидатов. (Это этап Retrieval).
  2. А потом вытаскиваешь улов на палубу и уже вручную, внимательно, перебираешь каждую рыбку, решая, какая из них тебе нужна. (Это этап Reranking).

Этот подход решает проблему скорости. Но остаётся вопрос: как сделать первую, «широкую» выборку не совсем уж глупой? Что если наш запрос — всего два слова?

И тут на сцену выходит настоящее колдовство, описанное Ляньхао Гао и его командой в 2022 году. Техника называется HyDE (Hypothetical Document Embeddings), и звучит она как научная фантастика. Вместо того чтобы искать ответ на ваш короткий запрос, мы сначала… просим LLM сгенерировать идеальный, вымышленный ответ! А потом ищем в базе не ваш вопрос, а этот гипотетический, сочный, богатый контекстом документ. Это как если бы для поиска иголки в стоге сена вы сначала создавали бы её точный магнитный слепок. Этот трюк, вместе с похожими идеями по обогащению запросов от Цзинфэна Вана (2023), превращает невнятное бормотание пользователя в чёткое техническое задание для поисковой машины.

Так что, как видите, все кубики уже были на столе. Проблема была в том, что никто не догадался собрать из них именно тот замок, который нужен для мира игр. До этого момента.

Часть III: Наша «Вавилонская рыбка»: как мы применили финансовые технологии к поиску игр.

И вот тут нас осенило.

Не так давно я рассказывал вам про Когерент+ai — нашу систему, которая пытается отделить осмысленный, когерентный сигнал от оглушительного белого шума фондового рынка. Мы учили её искать аномалии, слышать шёпот там, где все остальные слышат лишь хаос. И в какой-то момент мы посмотрели на ежедневный потоп релизов в Steam и подумали: «Погодите-ка… А чем это, по сути, отличается от рыночного шума? Чем поиск инди-жемчужины отличается от поиска недооцененной акции?»

Оказалось, почти ничем. Принципы — те же. И наш метод, отточенный на финансовых данных, сработал в мире игр чертовски хорошо.

Мы поняли, что заставлять компьютер напрямую понимать запрос вроде «Неопознанные инопланетяне взрывают стандартный уклад реднеков» — это как учить собаку квантовой физике. Можно, конечно, но результат будет… специфическим. Вместо этого мы решили построить «переводчика». Помните «Вавилонскую рыбку» из «Автостопом по Галактике», которая позволяла мгновенно понимать любой язык? Мы создали её цифровой аналог, который переводит с языка человеческих желаний на язык холодной математики.

И работает этот переводчик в три этапа, как хороший спектакль.

Акт I: «AI-сценарист» (Обогащение запроса)

Помните финальную сцену в «Обыкновенных подозреваемых», когда следователь наконец понимает, что вся история, рассказанная Вербалом Кинтом, была чистой выдумкой? Кинт, хромой и безобидный калека, сидел в кабинете и, глядя на доску с заметками за спиной у следователя, невозмутимо выдумывал имена, места и события, собирая из случайных обрывков информации цельную, правдоподобную, но абсолютно лживую историю.

Так вот, наш «AI-сценарист» в первом акте — это и есть цифровой Кайзер Сёзе в комнате для допросов.

Мы даём ему ваш короткий, туманный запрос — «инопланетяне взрывают реднеков». Это скудный клочок информации. И тогда наша LLM делает то же, что и герой Кевина Спейси: она оглядывается по сторонам на свою «доску с заметками» — на триллионы связей между словами и концепциями в своей нейронной сети — и начинает выдумывать. Она строит гипотетическую, идеализированную историю о том, как могла бы выглядеть такая игра:

«Это, должно быть, юмористическая стратегия в реальном времени с элементами tower defense. Сеттинг — одноэтажная Америка, мультяшная графика. Игровой цикл, вероятно, включает в себя сбор ресурсов, вроде кукурузы и лунного самогона, для постройки защитных турелей из старых тракторов. Ключевые слова: юмор, сатира, менеджмент базы, инопланетное вторжение».

Понимаете, что произошло? Эта выдуманная история — не ответ. Это наживка. Идеально составленный фоторобот, который приведёт нас к настоящему преступнику. Это и есть та самая магия HyDE. Мы создали «магнитный слепок иголки»… или, если хотите, ту самую вымышленную историю, которая в итоге приведёт нас к настоящему Кайзеру Сёзе.

Акт II: «Библиотекарь-экстрасенс» (Векторный поиск)

Этот сочный «сценарий» мы превращаем в «ментальный отпечаток» — длинный набор цифр, который называется вектором. И отправляем его в наше высокоскоростное хранилище Qdrant. Qdrant — это наш библиотекарь-экстрасенс. Он не читает описания игр. Он мгновенно «чувствует» их суть, их «ауру» (тот самый вектор, который мы заботливо создали для каждой игры в нашей базе) и за доли секунды находит 100-200 игр с максимально похожей «аурой». Это наши кандидаты. Они ещё «сырые», отобранные широкой сетью, но среди них почти наверняка есть то, что нам нужно.

Акт III: «Олимпийский чемпион в роли Сомелье» (Ранжирование)

А вот теперь начинается настоящее волшебство. Возвращаясь к аналогии с «Обыкновенными подозреваемыми», та самая сцена, где пятёрку колоритных негодяев ставят в один ряд для опознания? Вот именно это и происходит в третьем акте нашей пьесы.

Наш библиотекарь-экстрасенс только что привёл нам 100-200 «подозреваемых». Все они формально подходят под описание, все были «не в то время и не в том месте». Они стоят в этой виртуальной комнате для опознания, и полиция (то есть мы) в растеряности. Даже сами «подозреваемые» не догадываются, кто из них — тот самый неуловимый Кайзер Сёзе, идеальная игра, которую мы ищем.

И вот тут мы приводим на допрос нашего главного следователя. И кто же он? Помните наши «Олимпийские игры для андроидов», где мы заставляли десятки моделей бегать по полосе препятствий, проверяя их на интеллект, стиль и здравый смысл? Так вот, мы не просто составили рейтинг. Мы наняли победителя. Тот самый «атлет», который показал феноменальные результаты в понимании нюансов, скрытых смыслов и человеческого языка, сменил спортивный костюм на фрак въедливого критика. Мы взяли нашего чемпиона и сделали его библиотекарем-сомелье.

Этот «сомелье-следователь» получает дело на каждого из 100 «подозреваемых» и ваш оригинальный запрос «уютный рогалик без гринда». И он начинает читать между строк. Он видит в описании слова «динамичный», «бросающий вызов», «хардкорный» и думает: «Так, это вряд ли про уют. Подозреваемый №17, на выход». Он видит фразы «бесконечное развитие», «ежедневные задания» и отмечает: «Попахивает гриндом. Подозреваемый №42, свободен». А потом он натыкается на игру со словами «расслабляющая атмосфера», «короткие сессии», «прогресс через открытия, а не повторения» и выносит вердикт: «Бинго. Вот это, сударь, ваше бордо 1982 года. А всё остальное — просто уксус. Можете отпускать».

И вишенка на торте: этот сомелье ещё и знает вас. Он помнит, что вы любите пиксельную графику и ненавидите игры с видом от первого лица. Поэтому его финальная рекомендация — это не просто хороший ответ. Это ответ, который подходит лично вам.

Часть IV: От теории к транзакциям, или Глава, где улыбается бухгалтер.

Все эти аналогии про олимпийцев, следователей и винных сомелье — это, конечно, увлекательно. Но давайте будем честны. Мы с вами сидим на vc.ru, а не в литературном клубе. И главный вопрос, который витает в воздухе после любой красивой технической истории, звучит до неприличия просто: «И что?»

Работает ли вся эта сложная конструкция в суровом реальном мире, где каждый клик, каждый пиксель и каждый доллар на счету? Или это просто ещё одна красивая академическая игрушка для гиков?

Как говорится, the proof of the pudding is in the eating. И мы решили не просто попробовать этот пудинг, а скормить его голодному рынку. Мы не стали долго размышлять и бросили нашего «чемпиона» в настоящий бой. Мы внедрили эту гибридную поисковую систему в движок одного крупного магазина компьютерных игр. Да-да, того самого, где вы, возможно, вчера вечером покупали очередное DLC, продираясь сквозь «рекомендации» и «популярное».

И вот что произошло.

Результат №1: Лояльность через понимание.

Первый эффект был почти психологическим. Эффект был похож на то, как если бы вы зашли в свой любимый бар после тяжелого дня, а бармен, не говоря ни слова, молча поставил перед вами именно тот сорт пива, о котором вы думали. Никаких вопросов. Никаких уточнений. Просто чистое, молчаливое понимание.

Именно это и почувствовали пользователи. Они перестали ощущать, что им что-то «впаривают» или подсовывают «популярное». Они почувствовали, что их понимают. Лояльность перестала быть абстрактным словом из презентаций PowerPoint. Геймеры стали проводить на сайте больше времени, чаще возвращаться и, что самое главное, активнее пользоваться поиском. Почему? Да потому что он наконец-то начал работать как надо.

Результат №2: Продажи через релевантность.

И вот тут-то и происходит та самая магия, которую так любят бухгалтеры и инвесторы. Когда люди быстро и безболезненно находят то, что им действительно нравится, а не то, что им навязала система, происходит удивительная вещь.

Они это покупают.

Продажи выросли. Не от навязчивой рекламы. Не от скидок в 90%. А от того, что мы просто убрали трение. Мы сократили путь между смутным желанием игрока («хочу чего-то эдакого…») и игрой его мечты до одного-единственного осмысленного поискового запроса.

И это доказало наш главный тезис: эта архитектура — не просто «улучшение поиска». Это прямой и измеримый инструмент для повышения ключевых бизнес-показателей. Это машина, которая превращает понимание в прибыль.

Заключение: От «угадайки» к предсказуемой магии.

Итак, с чего мы начали? С простого и немного грустного факта: поисковые системы, которыми мы пользуемся каждый день, — это патологические буквалисты. Они слышат слова, но не понимают музыку. Они не врут вам в лицо, нет, они делают нечто гораздо хуже — они заваливают вас тоннами формально правильного, но абсолютно бесполезного мусора, отчаянно боясь признаться в собственном семантическом бессилии.

Мы не стали пытаться улучшить этот старый, ржавый фонарик. Мы решили построить прибор ночного видения.

Для этого мы взяли принципы из одной, казалось бы, далекой области (финансовые рынки), вырастили настоящего «чемпиона» на наших собственных «Олимпийских играх для андроидов» и заставили его работать следователем в другой, не менее хаотичной вселенной (мир игр). Мы научили его выдумывать идеальные наживки, как Кайзер Сёзе, чтобы затем, из сотен «обыкновенных подозреваемых», вычислять того единственного, кто нам нужен. И мы доказали на практике, что это работает.

Теперь, когда наш «AI-сомелье» слышит запрос «рогалик без гринда», он понимает не слова. Он понимает намерение. Он ищет не теги, а суть. И это не просто повышает релевантность — это повышает продажи.

Поезд в будущее, где поиск действительно работает, не просто медленно трогается с платформы. Он уже привез первые вагоны с довольными клиентами и реальной прибылью. Мы не просто машем вам из окна — мы готовы показать, как устроен двигатель под капотом.

Так что, если вам интересно взглянуть на чертежи, вы знаете, где меня найти. Кофе, как обычно, за вами, особенно если ваш офис не ниже 50 этажа.